Wiring WeatherNext 2 Into the StormBot Engine

開發中 · ALPHA

把 WeatherNext 2 接入引擎

2026 年 4 月 21 日

我們已著手進行一件遙遙領先的事——這是我們嘗試過規模最大的預報準確度升級： 把 Google DeepMind 的 WeatherNext 2 折入 StormBot 的機率核心。如果我們乾淨俐落地達成它，它將改變引擎標記的每個邊際的底層品質——也因此改變我們所路由的每筆訂單的預期報酬。

本則筆記的其餘部分將說明 WeatherNext 2 究竟是什麼、它在哪些方面領先我們今天所仰賴的 NOAA GFS 模型、為何整合比聽起來更難，以及我們上線後存取權將如何依平台內交易量分級。

什麼是 WeatherNext 2?

WeatherNext 2 是 Google DeepMind 至今發布的最先進預報模型。它於 2025 年末亮相,已為 Google Search、Gemini、Pixel Weather 和 Google Maps 提供動力,代表了全球尺度天氣預測的世代飛躍。

它不是去求解控制大氣的物理方程 — NOAA GFS、ECMWF 模型以及所有傳統系統數十年來採用的方法 — 而是 WeatherNext 2 直接從數十年的歷史資料中學習大氣行為。它建立在一種全新的架構之上,稱為 函式生成網路（FGN），它將受控雜訊直接注入模型中，使其產生的每個預報都保持物理一致性並在變數之間內部連貫。

8× 更快生成

完整集合預報在單一 TPU 上不到一分鐘即可完成。基於物理的模型需要在超級電腦上跑數小時才能產生相同輸出。

99.9% 的變數得到改進

在 99.9% 的變數（溫度、風、濕度、氣壓、降水）以及從 0 到 15 天的所有提前期上超越此前的最先進水準。

1 小時解析度

每日刷新四次的逐小時預測 — 比 GFS 在我們交易範圍內 3-6 小時的原生解析度精細得多。

數百種情境

在不到一分鐘內生成數百個合理未來的機率集合,給我們一個真正的分布 — 而不是單一的確定性猜測。

為何比 NOAA GFS 更準確

NOAA 的 Global Forecast System 是一項卓越的工程作品 — 但它設計於深度學習之前的時代,基於物理的建模的局限性多年來已顯而易見。ECMWF 在歷史上能比 GFS 多出大約一整天的預報能力是有原因的,幾乎所有主要天氣服務商都在悄悄地在其傳統技術棧之上加上 AI,也是出於這個原因。

在驅動 Polymarket 天氣合約的那種短期到中期溫度預報上,WeatherNext 2 在以下方面領先 GFS:

學習到的大氣模式 vs. 求解方程 — GFS 透過將大氣離散化為網格,並在每個時間步上求解 Navier-Stokes 來近似它。這些近似隨著時間複合。WeatherNext 2 從 ERA5 再分析資料中學習了大氣的完整非線性行為,因此不會累積相同類別的數值誤差。
原生機率輸出 — GFS 每次運行給您一個預報。要得到分布,您需要 GEFS（集合）,這增加了成本和延遲。WeatherNext 2 原生輸出完整分布,所以我們看到城市達到 14°C 的實際機率,而不只是一個我們必須自己用貝氏包裝的點估計。
更高的有效解析度 — WeatherNext 2 生成逐小時的全球預報。GFS以13km水平解析度運營，在我們的交易範圍內提供3小時輸出。對於城市特定的日最高和日最低合約，這種額外的時間粒度是真正的優勢。
在尾端表現更佳 — DeepMind的基準測試顯示在低機率、高影響事件上的最大收益：寒潮、熱穹頂、風暴。這些正是定價錯誤的尾部所在的市場，也是我們最大交易的來源。
物理上一致的集合 — FGN架構意味著集合中的每個場景都內部一致（多風的場景也有相匹配的氣壓梯度）。這就是讓機率可用於定價的原因。

在構成 Polymarket 天氣市場主體的 0-3 天預報區間,獨立評估將現代 AI 模型置於與 ECMWF 旗艦 IFS 同檔次 — 通常還更靠前 — 而 IFS 本身又明顯領先於 GFS。粗略地說:48 小時時日最高氣溫的 RMSE 減少幾十分之一度,以及罕見事件上明顯更緊湊的校正。

為何這會改變交易結果

StormBot 的整個邊際來自一個機械式步驟：比 Polymarket 市場的定價更準確地估計某個溫度區間的真實機率。下游的一切——Claude 的 YES／NO 決策、凱利倉位、出場邏輯、移動止損——全都仰賴那個機率估計。

今天我們將 GFS、ECMWF、UKMO 與 NWS 進行集合,與 NCEI 歷史氣候學進行貝氏混合,並在預報誤差分布上套用常態 CDF 以得出機率。它有效。但從根本上受到底層模型精度的限制。

將該機率估計替換為以 WeatherNext 2 作為主訊號有非常具體的效果:

更敏銳的優勢偵測。 預報RMSE提升半度直接轉化為在目前被我們的2%閾值過濾掉的臨界市場上多1-3%的可檢測edge。更多訊號到達Claude。
更佳的校正。 當我們說「YES 機率 78%」時,它需要在大樣本上實際以 78% 的頻率結算。WeatherNext 2 的原生機率輸出比我們從確定性模型合成的任何東西都校正得明顯更好。
災難性尾端交易減少。 模型在罕見事件上更強的表現意味著我們對肥尾的錯誤定價減少 — 這在歷史上是我們意外損失的最大類別。
模型週轉更快。 我們目前的預報擷取週期受限於受速率限制的免費天氣 API 的延遲。透過 Google Cloud 的 Vertex AI 運行 WeatherNext 2,意味著我們可以按自己的節奏刷新預報,而不是他們的。

為何這是一個難題

我們想坦誠相告：這是自v2基礎設施遷移以來我們承擔的最艱難的工程工作。「接入一個新模型」從來不像聽起來那麼簡單，特別是WeatherNext 2 有許多棘手之處。

資料存取與管線

WeatherNext 2 的預報透過 Earth Engine、BigQuery 與 Vertex AI 提供。它們都不是我們目前使用的免費 HTTP 端點的即插即用替代品。我們需要身分驗證、配額管理、成本控制,以及一個能將付費推論呼叫分攤到 97+ 活躍城市/日期組合上的快取層。

機率輸出整合

我們的優勢計算器是圍繞單一確定性點預報加高斯誤差模型設計的。WeatherNext 2 給我們每個城市幾百個情境的完整集合。重新連接優勢引擎以使用真正的經驗分布(而不是偽造的)需要重寫核心: engine/edge.js 並重新調校 Claude 使用的每一個閾值。

網格到城市點的插值

WeatherNext 2 輸出全球網格。Polymarket 天氣合約在特定具名氣象站結算(例如 NYC 的 LaGuardia、倫敦的 Heathrow)。我們需要從模型的原生網格到精確結算站的準確雙線性或最近站點插值 — 然後在相關時為局部微氣候效應進行降尺度處理。

每次預報成本

我們監控的每個城市/日期組合都會成為一次付費的 Vertex AI 推論呼叫。在 ~97 個獨特組合上有 ~1,975 個活躍天氣市場,粗暴的實作會很快燒光預算。我們正在打造分層刷新策略:高確信市場獲得頻繁更新,低交易量城市獲得較慢週期。

向後相容

我們不會拆掉 GFS/ECMWF/UKMO/NWS。最終架構使用 WeatherNext 2 作為主訊號,傳統模型作為合理性檢查。如果 WeatherNext 2 與物理模型嚴重分歧,這種分歧本身就變成 Claude 可以推理的特徵 — 而不是盲目信任任何一方的理由。

樣本外驗證

在撥動開關之前,我們必須讓 WeatherNext 2 與即時機器人並行影子運行數週 — 記錄它對每個市場的預測,然後與實際結果進行比對。一個在 ERA5 再分析上 benchmark 表現極好的模型,仍然必須靠自己贏得進入有真實資金支持的生產交易循環的機會。

預期精度改進

根據 DeepMind 已發表的基準測試，以及我們對預報誤差如何在邊際計算器中傳遞的內部建模，以下是我們預期整合上線後 StormBot 效能的變化方向：

氣溫 RMSE(48 小時預測)

−28%

預期在2天標記處預報誤差的降低 — 我們大部分交易結算的時間範圍。

機率校準(Brier 評分)

+18%

更好校準的機率意味著Claude的信心水平實際匹配現實，這直接改善了Kelly倉位規模。

尾部事件準確性(極端寒冷/酷熱)

+40%

最大的收益在罕見事件上 — 正是市場定價錯誤最多的地方，也是我們最大勝利所在之處。

每次掃描可偵測的 edge

+35%

更精確的預報將更多市場推高至我們2%的edge閾值之上，為Claude提供更多高品質的訊號進行評估。

存取:針對忠實使用者的交易量門檻

我們得對這裡的經濟帳坦誠以對。透過 Vertex AI 進行 WeatherNext 2 推論並非免費，而那些基礎架構工作代表著可觀的工程投入。我們無法在第一天就把它給所有人——而且坦白說，我們也不想。真正把 StormBot 打造成今日樣貌的使用者，理應是最先取得它的人。

WeatherNext 2 推出時,存取權限將 受平台內交易量限制。你的累計交易量——你透過 StormBot 部署進 Polymarket 市場的每一美元 pUSD——成為解鎖升級引擎的貨幣。你交易得越多，你的存取就越早、越深。

交易量等級如何運作

最終的等級門檻將在臨近發布時公布,但結構已經鎖定:

Tier 1 — 創始使用者: 累積交易量最高的群組在封閉alpha期間獲得WeatherNext 2 存取的第一波。完整的集合輸出、最高的刷新頻率、與工程團隊的直接回饋渠道。
Tier 2 — 高級使用者: 公測期間的第二波。完整 WeatherNext 2 訊號,更新頻率略低。
Tier 3 — 活躍交易者: WeatherNext 2 作為現有 GFS/ECMWF/UKMO/NWS 模型堆疊的補充進行全面推出。
低於門檻: 在目前的多模型堆疊上繼續，該堆疊仍然得到完全支援，並自身獨立地正在改進。

您的交易量會自動追蹤 — 機器人代表您下的每筆交易都計入。您無需做任何特別的事情。您使用平台越多，您的等級就越高。

關於公平性的一點說明：交易量等級是根據你在平台上的交易活動計算，而非你的錢包大小。一個以較小資金運行但讓機器人持續交易的使用者，會比一個存入大額餘額卻擱置不管的人更快爬升等級。這是刻意設計的——我們想獎勵那些真正按照 StormBot 設計初衷使用它的人。

時程

對於確切日期不做承諾 — 這是嚴肅的工程，我們不會匆忙投入生產。但這是誠實的路線圖：

現在: 已配置Google Cloud帳戶，已請求Vertex AI早期存取權限，正在針對歷史資料構建影子模式原型。
未來幾週: 重構 edge 引擎以處理機率集合預報。與目前引擎並行記錄日誌。
接下來的幾週: 在生產環境中的影子運行 — 對每個市場記錄WeatherNext 2 的預測，與實際結算進行比較，校準報告在此發布。
基準測試通過後: 面向 Tier 1 使用者的封閉式 Alpha。與工程團隊的回饋循環。最終調校。
alpha 之後: 透過 Tier 2、然後 Tier 3 分階段推出。

您現在能做什麼

你的交易量開始計入今天。從此刻起，StormBot 代表你進行的每一筆交易，都計入你在發布時的 WeatherNext 2 等級。請確保你的機器人正在運行、你的資金已設定、你的錢包已連接。我們將在未來幾週公布確切的交易量門檻——但提早登上排行榜的使用者，將會是率先進入升級引擎的人。

繼續閱讀

所有文章