WeatherNext 2:Google DeepMind 的 AI 模型即将登陆 WeatherBot
我们开始着手 WeatherBot 历史上最大的预报精度升级: 集成 Google DeepMind 的 WeatherNext 2 直接进入交易引擎。如果我们成功了,这将从根本上改变我们机器人检测到的每个edge的质量 — 因此改变它所下的每笔交易的预期结果。
这篇文章解释了 WeatherNext 2 为何重要,它与我们今天依赖的传统 NOAA GFS 模型相比如何,这项集成实际上有多难,以及上线后访问将如何根据平台交易量进行门控。
什么是 WeatherNext 2?
WeatherNext 2 是 Google DeepMind 迄今为止发布的最先进预报模型。它于 2025 年底亮相,已为 Google Search、Gemini、Pixel Weather 和 Google Maps 提供动力,代表了全球尺度天气预测的代际飞跃。
它不是去求解控制大气的物理方程 — NOAA GFS、ECMWF 模型以及所有传统系统数十年来采用的方法 — 而是 WeatherNext 2 直接从数十年的历史数据中学习大气行为。它建立在一种全新的架构之上,称为 函数生成网络(FGN),它将受控噪声直接注入模型中,使其产生的每个预报都保持物理一致性并在变量之间内部连贯。
8× 更快生成
完整集合预报在单个 TPU 上不到一分钟即可完成。基于物理的模型需要在超级计算机上运行数小时才能产生相同输出。
99.9% 的变量得到改进
在 99.9% 的变量(温度、风、湿度、气压、降水)以及从 0 到 15 天的所有提前期上超越此前的最先进水平。
1 小时分辨率
每日刷新四次的逐小时预测 — 比 GFS 在我们交易范围内 3-6 小时的原生分辨率精细得多。
数百种情景
在不到一分钟内生成数百个合理未来的概率集合,给我们一个真正的分布 — 而不是单一的确定性猜测。
为什么比 NOAA GFS 更准确
NOAA 的 Global Forecast System 是一项卓越的工程作品 — 但它设计于深度学习之前的时代,基于物理的建模的局限性多年来已显而易见。ECMWF 在历史上能比 GFS 多出大约一整天的预报能力是有原因的,几乎所有主要天气服务商都在悄悄地在其传统技术栈之上添加 AI,也是出于这个原因。
在驱动 Polymarket 天气合约的那种短期到中期温度预报上,WeatherNext 2 在以下方面领先 GFS:
- 学习到的大气模式 vs. 求解方程 — GFS 通过将大气离散化为网格,并在每个时间步上求解 Navier-Stokes 来近似它。这些近似随着时间复合。WeatherNext 2 从 ERA5 再分析数据中学习了大气的完整非线性行为,因此不会累积相同类别的数值误差。
- 原生概率输出 — GFS 每次运行给你一个预报。要得到分布,你需要 GEFS(集合),这增加了成本和延迟。WeatherNext 2 原生输出完整分布,所以我们看到城市达到 14°C 的实际概率,而不只是一个我们必须自己用贝叶斯包装的点估计。
- 更高的有效分辨率 — WeatherNext 2 生成逐小时的全球预报。GFS以13km水平分辨率运营,在我们的交易范围内提供3小时输出。对于城市特定的日最高和日最低合约,这种额外的时间粒度是真正的优势。
- 在尾部表现更佳 — DeepMind的基准测试显示在低概率、高影响事件上的最大收益:寒潮、热穹顶、风暴。这些正是定价错误的尾部所在的市场,也是我们最大交易的来源。
- 物理上一致的集合 — FGN架构意味着集合中的每个场景都内部一致(多风的场景也有相匹配的气压梯度)。这就是让概率可用于定价的原因。
在构成 Polymarket 天气市场主体的 0-3 天预报区间,独立评估将现代 AI 模型置于与 ECMWF 旗舰 IFS 同档次 — 通常还更靠前 — 而 IFS 本身又明显领先于 GFS。粗略地说:48 小时时日最高气温的 RMSE 减少几十分之一度,以及罕见事件上明显更紧凑的校准。
为什么这会改变交易结果
WeatherBot 的全部优势来自一个机械步骤:比 Polymarket 市场定价更准确地估计温度区间的真实概率。下游所有环节 — Claude 的 YES/NO 决策、Kelly 仓位调整、退出逻辑、追踪止损 — 都依赖于该概率估计。
今天我们将 GFS、ECMWF、UKMO 和 NWS 进行集合,与 NCEI 历史气候学进行贝叶斯混合,并在预报误差分布上应用正态 CDF 以得出概率。它有效。但从根本上受到底层模型精度的限制。
将该概率估计替换为以 WeatherNext 2 作为主信号有非常具体的效果:
- 更敏锐的优势检测。 预报RMSE提升半度直接转化为在目前被我们的2%阈值过滤掉的临界市场上多1-3%的可检测edge。更多信号到达Claude。
- 更好的校准。 当我们说"YES 概率 78%"时,它需要在大样本上实际以 78% 的频率结算。WeatherNext 2 的原生概率输出比我们从确定性模型合成的任何东西都校准得明显更好。
- 灾难性尾部交易减少。 模型在罕见事件上更强的表现意味着我们对肥尾的错误定价减少 — 这在历史上是我们意外损失的最大类别。
- 模型周转更快。 我们目前的预报获取周期受限于受速率限制的免费天气 API 的延迟。通过 Google Cloud 的 Vertex AI 运行 WeatherNext 2,意味着我们可以按自己的节奏刷新预报,而不是他们的。
为什么这是一个难题
我们想坦诚相告:这是自v2基础设施迁移以来我们承担的最艰难的工程工作。"接入一个新模型"从来不像听起来那么简单,特别是WeatherNext 2 有许多棘手之处。
engine/edge.js 并重新调校 Claude 使用的每一个阈值。预期精度改进
基于DeepMind发布的基准测试以及我们对预报误差如何通过edge计算器传播的内部建模,以下是我们预期集成完成后WeatherBot性能的变化方向:
访问:针对忠实用户的交易量门槛
我们需要诚实地谈谈这里的经济问题。通过 Vertex AI 进行 WeatherNext 2 推断不是免费的,基础设施工作代表了显著的工程投资。我们不能在第一天就给所有人 — 坦白说,我们也不想。把 WeatherBot 真正建设成今天这个样子的用户应该是第一批拿到它的人。
WeatherNext 2 推出时,访问权限将 受平台内交易量限制。您的累积交易量 — 您通过WeatherBot部署到Polymarket市场的每一个USDC美元 — 成为解锁升级引擎的货币。您交易得越多,您的访问权限就越早、越深入。
交易量等级如何运作
最终的等级阈值将在临近发布时公布,但结构已经锁定:
- Tier 1 — 创始用户: 累积交易量最高的群组在封闭alpha期间获得WeatherNext 2 访问的第一波。完整的集合输出、最高的刷新频率、与工程团队的直接反馈渠道。
- Tier 2 — 高级用户: 公测期间的第二波。完整 WeatherNext 2 信号,刷新频率略低。
- Tier 3 — 活跃交易者: WeatherNext 2 作为现有 GFS/ECMWF/UKMO/NWS 模型栈的补充进行全面推出。
- 低于阈值: 在当前的多模型堆栈上继续,该堆栈仍然得到完全支持,并自身独立地正在改进。
您的交易量会自动跟踪 — 机器人代表您下的每笔交易都计入。您无需做任何特别的事情。您使用平台越多,您的等级就越高。
关于公平性的简短说明:交易量等级是根据你在平台上的交易活动计算的,不是钱包大小。一个使用较小资金但让机器人持续交易的用户,将比一个存入大额余额然后让它闲置的用户更快地提升等级。这是有意为之的 — 我们希望奖励那些真正按设计意图使用 WeatherBot 的人。
时间线
对于确切日期不做承诺 — 这是严肃的工程,我们不会匆忙投入生产。但这是诚实的路线图:
- 现在: 已配置Google Cloud账户,已请求Vertex AI早期访问权限,正在针对历史数据构建影子模式原型。
- 未来几周: 重构 edge 引擎以处理概率集合预报。与当前引擎并行记录日志。
- 接下来的几周: 在生产环境中的影子运行 — 对每个市场记录WeatherNext 2 的预测,与实际结算进行比较,校准报告在此发布。
- 基准测试通过后: 面向 Tier 1 用户的封闭式 Alpha。与工程团队的反馈循环。最终调优。
- alpha 之后: 通过 Tier 2、然后 Tier 3 分阶段推出。
你现在能做什么
你的交易量开始计入 今天。从此刻起,WeatherBot 代你执行的每一笔交易都计入你在发布时的 WeatherNext 2 等级。确保你的机器人正在运行,资金已配置,钱包已连接。我们将在未来几周内公布确切的交易量门槛 — 但早期攀升排行榜的用户将是最早进入升级引擎的人。