把 WeatherNext 2 接入引擎
我們已著手進行一件遙遙領先的事——這是我們嘗試過規模最大的預報準確度升級: 把 Google DeepMind 的 WeatherNext 2 折入 StormBot 的機率核心。如果我們乾淨俐落地達成它,它將改變引擎標記的每個邊際的底層品質——也因此改變我們所路由的每筆訂單的預期報酬。
本則筆記的其餘部分將說明 WeatherNext 2 究竟是什麼、它在哪些方面領先我們今天所仰賴的 NOAA GFS 模型、為何整合比聽起來更難,以及我們上線後存取權將如何依平台內交易量分級。
什麼是 WeatherNext 2?
WeatherNext 2 是 Google DeepMind 至今發布的最先進預報模型。它於 2025 年末亮相,已為 Google Search、Gemini、Pixel Weather 和 Google Maps 提供動力,代表了全球尺度天氣預測的世代飛躍。
它不是去求解控制大氣的物理方程 — NOAA GFS、ECMWF 模型以及所有傳統系統數十年來採用的方法 — 而是 WeatherNext 2 直接從數十年的歷史資料中學習大氣行為。它建立在一種全新的架構之上,稱為 函式生成網路(FGN),它將受控雜訊直接注入模型中,使其產生的每個預報都保持物理一致性並在變數之間內部連貫。
8× 更快生成
完整集合預報在單一 TPU 上不到一分鐘即可完成。基於物理的模型需要在超級電腦上跑數小時才能產生相同輸出。
99.9% 的變數得到改進
在 99.9% 的變數(溫度、風、濕度、氣壓、降水)以及從 0 到 15 天的所有提前期上超越此前的最先進水準。
1 小時解析度
每日刷新四次的逐小時預測 — 比 GFS 在我們交易範圍內 3-6 小時的原生解析度精細得多。
數百種情境
在不到一分鐘內生成數百個合理未來的機率集合,給我們一個真正的分布 — 而不是單一的確定性猜測。
為何比 NOAA GFS 更準確
NOAA 的 Global Forecast System 是一項卓越的工程作品 — 但它設計於深度學習之前的時代,基於物理的建模的局限性多年來已顯而易見。ECMWF 在歷史上能比 GFS 多出大約一整天的預報能力是有原因的,幾乎所有主要天氣服務商都在悄悄地在其傳統技術棧之上加上 AI,也是出於這個原因。
在驅動 Polymarket 天氣合約的那種短期到中期溫度預報上,WeatherNext 2 在以下方面領先 GFS:
- 學習到的大氣模式 vs. 求解方程 — GFS 透過將大氣離散化為網格,並在每個時間步上求解 Navier-Stokes 來近似它。這些近似隨著時間複合。WeatherNext 2 從 ERA5 再分析資料中學習了大氣的完整非線性行為,因此不會累積相同類別的數值誤差。
- 原生機率輸出 — GFS 每次運行給您一個預報。要得到分布,您需要 GEFS(集合),這增加了成本和延遲。WeatherNext 2 原生輸出完整分布,所以我們看到城市達到 14°C 的實際機率,而不只是一個我們必須自己用貝氏包裝的點估計。
- 更高的有效解析度 — WeatherNext 2 生成逐小時的全球預報。GFS以13km水平解析度運營,在我們的交易範圍內提供3小時輸出。對於城市特定的日最高和日最低合約,這種額外的時間粒度是真正的優勢。
- 在尾端表現更佳 — DeepMind的基準測試顯示在低機率、高影響事件上的最大收益:寒潮、熱穹頂、風暴。這些正是定價錯誤的尾部所在的市場,也是我們最大交易的來源。
- 物理上一致的集合 — FGN架構意味著集合中的每個場景都內部一致(多風的場景也有相匹配的氣壓梯度)。這就是讓機率可用於定價的原因。
在構成 Polymarket 天氣市場主體的 0-3 天預報區間,獨立評估將現代 AI 模型置於與 ECMWF 旗艦 IFS 同檔次 — 通常還更靠前 — 而 IFS 本身又明顯領先於 GFS。粗略地說:48 小時時日最高氣溫的 RMSE 減少幾十分之一度,以及罕見事件上明顯更緊湊的校正。
為何這會改變交易結果
StormBot 的整個邊際來自一個機械式步驟:比 Polymarket 市場的定價更準確地估計某個溫度區間的真實機率。下游的一切——Claude 的 YES/NO 決策、凱利倉位、出場邏輯、移動止損——全都仰賴那個機率估計。
今天我們將 GFS、ECMWF、UKMO 與 NWS 進行集合,與 NCEI 歷史氣候學進行貝氏混合,並在預報誤差分布上套用常態 CDF 以得出機率。它有效。但從根本上受到底層模型精度的限制。
將該機率估計替換為以 WeatherNext 2 作為主訊號有非常具體的效果:
- 更敏銳的優勢偵測。 預報RMSE提升半度直接轉化為在目前被我們的2%閾值過濾掉的臨界市場上多1-3%的可檢測edge。更多訊號到達Claude。
- 更佳的校正。 當我們說「YES 機率 78%」時,它需要在大樣本上實際以 78% 的頻率結算。WeatherNext 2 的原生機率輸出比我們從確定性模型合成的任何東西都校正得明顯更好。
- 災難性尾端交易減少。 模型在罕見事件上更強的表現意味著我們對肥尾的錯誤定價減少 — 這在歷史上是我們意外損失的最大類別。
- 模型週轉更快。 我們目前的預報擷取週期受限於受速率限制的免費天氣 API 的延遲。透過 Google Cloud 的 Vertex AI 運行 WeatherNext 2,意味著我們可以按自己的節奏刷新預報,而不是他們的。
為何這是一個難題
我們想坦誠相告:這是自v2基礎設施遷移以來我們承擔的最艱難的工程工作。「接入一個新模型」從來不像聽起來那麼簡單,特別是WeatherNext 2 有許多棘手之處。
engine/edge.js 並重新調校 Claude 使用的每一個閾值。預期精度改進
根據 DeepMind 已發表的基準測試,以及我們對預報誤差如何在邊際計算器中傳遞的內部建模,以下是我們預期整合上線後 StormBot 效能的變化方向:
存取:針對忠實使用者的交易量門檻
我們得對這裡的經濟帳坦誠以對。透過 Vertex AI 進行 WeatherNext 2 推論並非免費,而那些基礎架構工作代表著可觀的工程投入。我們無法在第一天就把它給所有人——而且坦白說,我們也不想。真正把 StormBot 打造成今日樣貌的使用者,理應是最先取得它的人。
WeatherNext 2 推出時,存取權限將 受平台內交易量限制。你的累計交易量——你透過 StormBot 部署進 Polymarket 市場的每一美元 pUSD——成為解鎖升級引擎的貨幣。你交易得越多,你的存取就越早、越深。
交易量等級如何運作
最終的等級門檻將在臨近發布時公布,但結構已經鎖定:
- Tier 1 — 創始使用者: 累積交易量最高的群組在封閉alpha期間獲得WeatherNext 2 存取的第一波。完整的集合輸出、最高的刷新頻率、與工程團隊的直接回饋渠道。
- Tier 2 — 高級使用者: 公測期間的第二波。完整 WeatherNext 2 訊號,更新頻率略低。
- Tier 3 — 活躍交易者: WeatherNext 2 作為現有 GFS/ECMWF/UKMO/NWS 模型堆疊的補充進行全面推出。
- 低於門檻: 在目前的多模型堆疊上繼續,該堆疊仍然得到完全支援,並自身獨立地正在改進。
您的交易量會自動追蹤 — 機器人代表您下的每筆交易都計入。您無需做任何特別的事情。您使用平台越多,您的等級就越高。
關於公平性的一點說明:交易量等級是根據你在平台上的交易活動計算,而非你的錢包大小。一個以較小資金運行但讓機器人持續交易的使用者,會比一個存入大額餘額卻擱置不管的人更快爬升等級。這是刻意設計的——我們想獎勵那些真正按照 StormBot 設計初衷使用它的人。
時程
對於確切日期不做承諾 — 這是嚴肅的工程,我們不會匆忙投入生產。但這是誠實的路線圖:
- 現在: 已配置Google Cloud帳戶,已請求Vertex AI早期存取權限,正在針對歷史資料構建影子模式原型。
- 未來幾週: 重構 edge 引擎以處理機率集合預報。與目前引擎並行記錄日誌。
- 接下來的幾週: 在生產環境中的影子運行 — 對每個市場記錄WeatherNext 2 的預測,與實際結算進行比較,校準報告在此發布。
- 基準測試通過後: 面向 Tier 1 使用者的封閉式 Alpha。與工程團隊的回饋循環。最終調校。
- alpha 之後: 透過 Tier 2、然後 Tier 3 分階段推出。
您現在能做什麼
你的交易量開始計入 今天。從此刻起,StormBot 代表你進行的每一筆交易,都計入你在發布時的 WeatherNext 2 等級。請確保你的機器人正在運行、你的資金已設定、你的錢包已連接。我們將在未來幾週公布確切的交易量門檻——但提早登上排行榜的使用者,將會是率先進入升級引擎的人。