K8s 和云服务可能没那么可靠!
许多用户在使用 DataFlux Func 时,会选择「云服务 + K8s」的方式部署 DataFlux Func。
这是比较常见的部署方式,但需要注意的是,「云服务 + K8s」并不代表可靠!
除此之外,Func 对接的外部系统可能也不可靠,如果这些外部系统也部署在「云服务 + K8s」上,那么可靠性将更无法保证!
以下是一些实际案例供对比:
A. 正面案例
以下是单机部署也较为可靠的正面案例:
A.1 单机部署连续运行 9 个月
某个人用户。
使用阿里云 ECS 单机部署独立 Func,自行编写脚本用于接收 GitLab Pipeline 的 Webhook 并通过 Bark 触发 iOS 消息通知推送。
截至 2025 年 10 月 25 日,已经连续运行 9 个月无任何故障。
B. 反面案例
以下是即使使用了「云服务 + K8s」方案也发生故障的反面案例:
B.1 NAS 故障导致系统异常
某汽车行业 G 公司。
使用私有部署的观测云,并使用 NAS 服务。
2023 年 09 月 24 日,用于独立部署版 Func 的 Redis,其持久化所用的 NAS 无法正常挂载,进而导致相关服务无法正常使用。
B.2 阿里云 WAF 阻断正常使用
某零售行业 X 公司。
2024 年 10 月 31 日,为部署有 DataFlux Func 的云主机开启了 WAF 保护。
导致用户在编写脚本,保存 / 发布时,被认为存在风险,返回 405 阻断了请求。
B.3 测试环境迁移至火山引擎后网络存在问题
某互联网公司 Z 公司。
2024 年底,将原本阿里云 K8s 迁移至火山引擎,发现部分网络访问延迟极大甚至无法正常访问。
后查明是网络组件问题,进入隧道的数据包的 MTU 过大导致 TCP 分片丢失。
B.4 自建 Redis 存在问题
某专业技术服务行业 S 公司。
使用私有部署的观测云,并使用自建 Redis 服务。
2025 年 4 月 10 日,发现观测云监控器产生事件存在 1 小时延迟。
后查明自建 Redis 存在问题,机器时间与现实时间相差达 1 个小时。
B.5 腾讯 K8s 组件故障
某保险行业 T 公司。
使用阿里云、腾讯 K8s 组件、信创系统私有部署观测云,并在内置的 Func 中额外编写脚本用于简单的用户登录重定向处理。
2025 年 10 月 24 日,突发 Func 任务随机概率无法执行的故障。
后查明为云主机组件存在问题,期间 CPU 占用 90% 以上,腾讯 K8s 组件重启 4000 多次。
B.6 NAT 网关连接数过高导致网络异常
某互联网公司 Z 公司。
2025 年 11 月 01 日,发现监控器任务日志无法正常上报至 DataWay,并拖慢所有监控器任务执行。
后查明是集群中某个服务创建了过多的对外连接,导致 NAT 网关连接数过高。
B.7 自建通知组件故障
某保险行业 T 公司。
2025 年 11 月 17 日,发现监控器任务存在大量超时、过期任务。
后查明是监控器通知对象最终调用了客户自建的通知组件,而这个通知组件存在问题,拖慢了消息发送处理,导致大量 Read Timeout。
B.8 服务器之间时间不一致
某酒店行业 H 公司。
2025 年 11 月 19 日,发现应当「立即执行」的处理没有按照预期执行。
后查明是服务器之间时间不一致,Redis 时间与服务器时间相差达 10 分钟。