WeatherNext 2 Integration — Google DeepMind AI Comes to WeatherBot

开发中 · ALPHA

WeatherNext 2:Google DeepMind 的 AI 模型即将登陆 WeatherBot

2026 年 4 月 21 日

我们开始着手 WeatherBot 历史上最大的预报精度升级: 集成 Google DeepMind 的 WeatherNext 2 直接进入交易引擎。如果我们成功了，这将从根本上改变我们机器人检测到的每个edge的质量 — 因此改变它所下的每笔交易的预期结果。

这篇文章解释了 WeatherNext 2 为何重要,它与我们今天依赖的传统 NOAA GFS 模型相比如何,这项集成实际上有多难,以及上线后访问将如何根据平台交易量进行门控。

什么是 WeatherNext 2?

WeatherNext 2 是 Google DeepMind 迄今为止发布的最先进预报模型。它于 2025 年底亮相,已为 Google Search、Gemini、Pixel Weather 和 Google Maps 提供动力,代表了全球尺度天气预测的代际飞跃。

它不是去求解控制大气的物理方程 — NOAA GFS、ECMWF 模型以及所有传统系统数十年来采用的方法 — 而是 WeatherNext 2 直接从数十年的历史数据中学习大气行为。它建立在一种全新的架构之上,称为 函数生成网络(FGN)，它将受控噪声直接注入模型中，使其产生的每个预报都保持物理一致性并在变量之间内部连贯。

8× 更快生成

完整集合预报在单个 TPU 上不到一分钟即可完成。基于物理的模型需要在超级计算机上运行数小时才能产生相同输出。

99.9% 的变量得到改进

在 99.9% 的变量(温度、风、湿度、气压、降水)以及从 0 到 15 天的所有提前期上超越此前的最先进水平。

1 小时分辨率

每日刷新四次的逐小时预测 — 比 GFS 在我们交易范围内 3-6 小时的原生分辨率精细得多。

数百种情景

在不到一分钟内生成数百个合理未来的概率集合,给我们一个真正的分布 — 而不是单一的确定性猜测。

为什么比 NOAA GFS 更准确

NOAA 的 Global Forecast System 是一项卓越的工程作品 — 但它设计于深度学习之前的时代,基于物理的建模的局限性多年来已显而易见。ECMWF 在历史上能比 GFS 多出大约一整天的预报能力是有原因的,几乎所有主要天气服务商都在悄悄地在其传统技术栈之上添加 AI,也是出于这个原因。

在驱动 Polymarket 天气合约的那种短期到中期温度预报上,WeatherNext 2 在以下方面领先 GFS:

学习到的大气模式 vs. 求解方程 — GFS 通过将大气离散化为网格,并在每个时间步上求解 Navier-Stokes 来近似它。这些近似随着时间复合。WeatherNext 2 从 ERA5 再分析数据中学习了大气的完整非线性行为,因此不会累积相同类别的数值误差。
原生概率输出 — GFS 每次运行给你一个预报。要得到分布,你需要 GEFS(集合),这增加了成本和延迟。WeatherNext 2 原生输出完整分布,所以我们看到城市达到 14°C 的实际概率,而不只是一个我们必须自己用贝叶斯包装的点估计。
更高的有效分辨率 — WeatherNext 2 生成逐小时的全球预报。GFS以13km水平分辨率运营，在我们的交易范围内提供3小时输出。对于城市特定的日最高和日最低合约，这种额外的时间粒度是真正的优势。
在尾部表现更佳 — DeepMind的基准测试显示在低概率、高影响事件上的最大收益：寒潮、热穹顶、风暴。这些正是定价错误的尾部所在的市场，也是我们最大交易的来源。
物理上一致的集合 — FGN架构意味着集合中的每个场景都内部一致（多风的场景也有相匹配的气压梯度）。这就是让概率可用于定价的原因。

在构成 Polymarket 天气市场主体的 0-3 天预报区间,独立评估将现代 AI 模型置于与 ECMWF 旗舰 IFS 同档次 — 通常还更靠前 — 而 IFS 本身又明显领先于 GFS。粗略地说:48 小时时日最高气温的 RMSE 减少几十分之一度,以及罕见事件上明显更紧凑的校准。

为什么这会改变交易结果

WeatherBot 的全部优势来自一个机械步骤:比 Polymarket 市场定价更准确地估计温度区间的真实概率。下游所有环节 — Claude 的 YES/NO 决策、Kelly 仓位调整、退出逻辑、追踪止损 — 都依赖于该概率估计。

今天我们将 GFS、ECMWF、UKMO 和 NWS 进行集合,与 NCEI 历史气候学进行贝叶斯混合,并在预报误差分布上应用正态 CDF 以得出概率。它有效。但从根本上受到底层模型精度的限制。

将该概率估计替换为以 WeatherNext 2 作为主信号有非常具体的效果:

更敏锐的优势检测。 预报RMSE提升半度直接转化为在目前被我们的2%阈值过滤掉的临界市场上多1-3%的可检测edge。更多信号到达Claude。
更好的校准。 当我们说"YES 概率 78%"时,它需要在大样本上实际以 78% 的频率结算。WeatherNext 2 的原生概率输出比我们从确定性模型合成的任何东西都校准得明显更好。
灾难性尾部交易减少。 模型在罕见事件上更强的表现意味着我们对肥尾的错误定价减少 — 这在历史上是我们意外损失的最大类别。
模型周转更快。 我们目前的预报获取周期受限于受速率限制的免费天气 API 的延迟。通过 Google Cloud 的 Vertex AI 运行 WeatherNext 2,意味着我们可以按自己的节奏刷新预报,而不是他们的。

为什么这是一个难题

我们想坦诚相告：这是自v2基础设施迁移以来我们承担的最艰难的工程工作。"接入一个新模型"从来不像听起来那么简单，特别是WeatherNext 2 有许多棘手之处。

数据访问和管道

WeatherNext 2 的预报通过 Earth Engine、BigQuery 和 Vertex AI 提供。它们都不是我们当前使用的免费 HTTP 端点的即插即用替代品。我们需要身份验证、配额管理、成本控制,以及一个能将付费推断调用分摊到 97+ 活跃城市/日期组合上的缓存层。

概率输出集成

我们的优势计算器是围绕单一确定性点预报加高斯误差模型设计的。WeatherNext 2 给我们每个城市几百个场景的完整集合。重新连接优势引擎以消费真正的经验分布(而不是伪造的)需要重写核心: engine/edge.js 并重新调校 Claude 使用的每一个阈值。

网格到城市点的插值

WeatherNext 2 输出全球网格。Polymarket 天气合约在特定具名气象站结算(例如 NYC 的 LaGuardia、伦敦的 Heathrow)。我们需要从模型的原生网格到精确结算站的准确双线性或最近站点插值 — 然后在相关时为局部微气候效应进行降尺度处理。

每次预报成本

我们监控的每个城市/日期组合都会成为一次付费的 Vertex AI 推断调用。在 ~97 个唯一组合上有 ~1,975 个活跃天气市场,粗暴的实现会很快烧光预算。我们正在构建分层刷新策略:高确信市场获得频繁更新,低交易量城市获得较慢周期。

向后兼容

我们不会拆掉 GFS/ECMWF/UKMO/NWS。最终架构使用 WeatherNext 2 作为主信号,传统模型作为合理性检查。如果 WeatherNext 2 与物理模型严重分歧,这种分歧本身就变成 Claude 可以推理的特征 — 而不是盲目信任任何一方的理由。

样本外验证

在拨动开关之前,我们必须让 WeatherNext 2 与实时机器人并行影子运行数周 — 记录它对每个市场的预测,然后与实际结果进行比对。一个在 ERA5 再分析上 benchmark 表现极好的模型,仍然必须靠自己赢得进入有真实资金支持的生产交易循环的机会。

预期精度改进

基于DeepMind发布的基准测试以及我们对预报误差如何通过edge计算器传播的内部建模，以下是我们预期集成完成后WeatherBot性能的变化方向：

气温 RMSE(48 小时预测)

−28%

预期在2天标记处预报误差的降低 — 我们大部分交易结算的时间范围。

概率校准(Brier 评分)

+18%

更好校准的概率意味着Claude的信心水平实际匹配现实，这直接改善了Kelly仓位规模。

尾部事件准确性(极端寒冷/酷热)

+40%

最大的收益在罕见事件上 — 正是市场定价错误最多的地方，也是我们最大胜利所在之处。

每次扫描可检测的 edge

+35%

更精确的预报将更多市场推高至我们2%的edge阈值之上，为Claude提供更多高质量的信号进行评估。

访问:针对忠实用户的交易量门槛

我们需要诚实地谈谈这里的经济问题。通过 Vertex AI 进行 WeatherNext 2 推断不是免费的,基础设施工作代表了显著的工程投资。我们不能在第一天就给所有人 — 坦白说,我们也不想。把 WeatherBot 真正建设成今天这个样子的用户应该是第一批拿到它的人。

WeatherNext 2 推出时,访问权限将 受平台内交易量限制。您的累积交易量 — 您通过WeatherBot部署到Polymarket市场的每一个USDC美元 — 成为解锁升级引擎的货币。您交易得越多，您的访问权限就越早、越深入。

交易量等级如何运作

最终的等级阈值将在临近发布时公布,但结构已经锁定:

Tier 1 — 创始用户: 累积交易量最高的群组在封闭alpha期间获得WeatherNext 2 访问的第一波。完整的集合输出、最高的刷新频率、与工程团队的直接反馈渠道。
Tier 2 — 高级用户: 公测期间的第二波。完整 WeatherNext 2 信号,刷新频率略低。
Tier 3 — 活跃交易者: WeatherNext 2 作为现有 GFS/ECMWF/UKMO/NWS 模型栈的补充进行全面推出。
低于阈值: 在当前的多模型堆栈上继续，该堆栈仍然得到完全支持，并自身独立地正在改进。

您的交易量会自动跟踪 — 机器人代表您下的每笔交易都计入。您无需做任何特别的事情。您使用平台越多，您的等级就越高。

关于公平性的简短说明:交易量等级是根据你在平台上的交易活动计算的,不是钱包大小。一个使用较小资金但让机器人持续交易的用户,将比一个存入大额余额然后让它闲置的用户更快地提升等级。这是有意为之的 — 我们希望奖励那些真正按设计意图使用 WeatherBot 的人。

时间线

对于确切日期不做承诺 — 这是严肃的工程，我们不会匆忙投入生产。但这是诚实的路线图：

现在: 已配置Google Cloud账户，已请求Vertex AI早期访问权限，正在针对历史数据构建影子模式原型。
未来几周: 重构 edge 引擎以处理概率集合预报。与当前引擎并行记录日志。
接下来的几周: 在生产环境中的影子运行 — 对每个市场记录WeatherNext 2 的预测，与实际结算进行比较，校准报告在此发布。
基准测试通过后: 面向 Tier 1 用户的封闭式 Alpha。与工程团队的反馈循环。最终调优。
alpha 之后: 通过 Tier 2、然后 Tier 3 分阶段推出。

你现在能做什么

你的交易量开始计入今天。从此刻起,WeatherBot 代你执行的每一笔交易都计入你在发布时的 WeatherNext 2 等级。确保你的机器人正在运行,资金已配置,钱包已连接。我们将在未来几周内公布确切的交易量门槛 — 但早期攀升排行榜的用户将是最早进入升级引擎的人。