Cloudflare 服务器崩了

文章发布时间:

最后更新时间:

文章总字数:
1.9k

预计阅读时间:
6 分钟

究竟是什么东西凭一己之力干废了全球一成的网站?
Error image

事件概述

2025年11月18日,全球领先的CDN(内容分发网络)与网络安全服务提供商Cloudflare遭遇了六年来最严重的全球性服务中断。此次中断始于UTC时间11:20,持续约5小时,直至17:06所有系统恢复正常。中断期间,包括Twitter(现X)、ChatGPT、Spotify、Uber等在内的全球数万家网站和服务无法访问,波及社交媒体、AI工具、流媒体、金融交易等多个行业,引发全球互联网的“断联”惊魂。

还有以下国内也较为常用的网站或多或少受到了影响(虽然服务器不在国内):

事件起因:配置文件异常膨胀引发系统崩溃

直接原因:数据库权限变更导致配置文件异常

Cloudflare官方博客详细披露了此次中断的直接原因:一项针对数据库权限的例行配置变更触发了潜在软件缺陷。具体而言,Cloudflare的Bot Management系统使用一个自动生成的“特征文件”(Feature File)来识别和管理恶意流量。该文件由ClickHouse数据库集群每五分钟生成一次,并通过分布式查询更新。

11月18日11:05,Cloudflare为提升权限管理安全性,对ClickHouse数据库的查询行为进行了调整,允许用户显式访问底层表(r0数据库)的元数据。然而,这一变更导致Bot Management系统使用的查询返回了重复的列数据,使特征文件体积翻倍,超出软件预设的内存限制。

技术机理:内存爆炸引发级联故障

  • 特征文件膨胀:调整后的查询返回了底层表(r0数据库)的元数据,导致特征文件包含重复的列数据,体积翻倍。
  • 内存限制触发崩溃:运行在Cloudflare全球服务器上的流量路由软件对特征文件大小设有上限(200个特征)。当超大文件被分发后,软件因超出内存限制而崩溃,返回500错误。
  • 级联传播效应:崩溃的Bot Management模块导致核心CDN、Turnstile验证系统、Workers KV(无服务器数据库)、Dashboard控制面板、Email安全系统及Access身份验证服务全面瘫痪。

Error image

事件影响:全球互联网的“断联”风暴

行业与用户层面:多领域服务瘫痪

  • 社交媒体与AI工具:X平台用户报告无法刷新内容或登录,ChatGPT等AI服务显示内部服务器错误。Downdetector监测到X平台高峰期超11,000份故障报告,其中61%与移动应用相关。
  • 在线娱乐与游戏:Spotify音乐流媒体服务中断,用户无法加载播放列表;《英雄联盟》等游戏平台出现连接不稳定和掉线现象。
  • 企业服务与公共服务:招聘平台Indeed、图形设计平台Canva、网约车服务Uber等企业级应用页面加载缓慢或失败;新泽西公共交通(NJ Transit)在线服务一度无法访问。
  • 金融与加密货币:多个加密货币交易所前端离线,包括以太坊第二层网络Arbitrum的区块浏览器Arbiscan、DeFi数据聚合平台DefiLlama等;BitMEX交易功能受限。

Cloudflare自身层面:核心服务与信任危机

  • 控制面板与API瘫痪:Dashboard控制面板和API出现广泛500错误,用户无法管理Cloudflare设置;状态页面一度无法访问,加剧信息沟通障碍。
  • 股价与市值波动:截至美股11月18日收盘,Cloudflare股价下跌2.83%;次日(11月19日)股价进一步下跌4.27%,市值蒸发30.24亿美元。
  • 历史故障对比:此次中断是Cloudflare自2019年以来最严重的事件,过去六年中首次导致大部分核心流量完全停止。此前,该公司曾因软件漏洞、配置错误等引发多次中断,但影响范围和持续时间均未达到此次级别。

事件应对:快速响应与系统性修复

应急处置流程

  1. 初步排查与误判:UTC时间11:28,Cloudflare首次监测到异常流量激增,误判为超大规模DDoS攻击,启动防御机制。
  2. 核心问题定位:UTC时间12:00后,通过内部日志分析,确认问题源于Bot Management系统的特征文件异常。
  3. 紧急修复措施
    • UTC时间14:24,停止生成和传播错误特征文件,手动插入已知良好文件至分发队列。
    • UTC时间14:30,强制重启核心代理,核心流量基本恢复。
    • UTC时间17:06,所有下游服务重启,系统全面恢复正常。

后续改进措施

Cloudflare承诺从四个层面强化系统韧性:

  1. 配置文件校验机制:对自动生成的配置文件实施严格校验,确保大小和内容符合预期。
  2. 全局紧急开关:为关键功能增加全局紧急停止开关,快速隔离故障模块。
  3. 错误报告资源优化:消除核心转储或错误报告耗尽系统资源的可能性。
  4. 核心代理模块审查:全面审查核心代理模块的失效模式,提升容错能力。

事件反思:互联网基础设施的脆弱性与韧性建设

中心化依赖的风险

此次中断暴露了互联网对少数基础设施供应商的高度依赖。Cloudflare承载全球约20%的网络流量,其故障导致从个人娱乐到企业应用、金融交易的全面瘫痪,凸显了中心化架构的脆弱性。

自动化与智能化的双刃剑

业内专家指出,现代超大规模网络基础设施为追求效率和响应速度而建立的高度自动化系统,本身可能成为风险源。此次事件中,自动化配置文件生成与分发机制因缺乏硬限制和异常处理能力,导致故障快速传播。

未来趋势:去中心化与弹性架构

随着人工智能驱动的应用对实时可靠性提出更高要求,网络必须摆脱脆弱的、依赖单一云的架构,转向弹性、与提供商无关的架构。这包括:

  • 控制平面与基础设施解耦:构建从设计之初就具备弹性的基础设施,不假定任何单一提供商、云或网络层始终可用。
  • 跨云故障转移机制:使企业能够跨云、区域和合作伙伴即时路由、故障转移或隔离问题。
  • 一致性策略强制执行:在所有地方强制执行一致的策略,提升系统韧性。

结语

2025年11月18日的Cloudflare全球性服务中断事件,不仅是一次技术故障,更是对互联网基础设施韧性的一次全面考验。它提醒我们,在享受数字化便利的同时,必须正视中心化架构的潜在风险,推动网络向去中心化、弹性化方向发展。Cloudflare的此次故障及其应对措施,为全球互联网行业提供了宝贵的经验与教训。


原文: https://blog.cloudflare.com/18-november-2025-outage/