當大型語言模型供應商在某個區域集中回傳 HTTP 429 時,產品仍希望 30 秒內 有可讀答案,財務希望帳單可預測,安全希望日誌裡不出現金鑰。共享一台 Mac mini 跑 OpenClaw 閘道的團隊,必須把 Retry-After、抖動退避與「誠實排隊」寫進客戶端與維運手冊。本文與 權杖與工具節流、閘道 doctor 診斷互補:節流護主機,429 護供應商關係。
你將獲得:決策矩陣、可稽核的數字起點、管道側體驗範本、macOS 特有問題與遙測欄位清單。
誤判訊號
400 ms 內出現兩條完全相同的使用者可見回覆,多半是忽略了 Retry-After 並立即重放。另一個訊號是 CPU 低於 40% 但 p95 延遲飆升——瓶頸在供應商排隊而非本機算力。
財務需要的四序列:每小時 429 次數、平均遵守的等待秒數、放棄工作階段數、被重新開啟的「慢 AI」工單數。
事故時先凍結功能:快照脫敏回應標頭(含 Retry-After 與 x-request-id),再回滾最近一次客戶端改動。
「破窗」提高併發必須掛票據號,否則週末帳單異常無處溯源。
客服應貼上完整狀態列,而不是籠統「AI 掛了」,方便判斷該找供應商還是改本機策略。
若 429 風暴後 5xx 激增,檢查是否把上游限流誤標成內部錯誤,避免儀表板看錯根因。
將尖峰與部署標記對齊:若釋出後 10 分鐘 內 429 倍增,先回滾客戶端再開供應商工單。
策略矩陣
| 策略 | 與供應商對齊 | 使用者可預期性 | 主要風險 |
|---|---|---|---|
| 遵守 Retry-After | 高 | 中 | HTTP-date 解析受時區影響 |
| 盲目指數退避 | 低 | 低 | 故障恢復後羊群重試 |
| 抖動混合 | 高 | 高 | 實作分支更多 |
2026 年推薦混合:有標頭則遵,無標頭則指數並加 ±15% 抖動,硬頂約 120 秒。
數字起點
基線延遲 1.5 s、倍數 2.0×、每管道待處理輪次上限 8、單則使用者訊息牆鐘上限 180 s,超過則回傳人工接手連結而非無限轉圈。
供應商公布維護視窗時,在視窗前 15 分鐘 先把併發下調 25%。
用回放檔做紅隊:若超過 3% 合成工作階段死鎖,佇列邏輯仍有洩漏。
退避常數必須進 Git;值班不應靠記憶猜「昨晚線上到底是哪版」。
對多租戶閘道,按工作區分憑證,避免一家租戶燒光共享配額。
儀表板同時追蹤「首次嘗試即答覆」成功率與 429 次數,避免只優化延遲卻默默降低吞吐量。
macOS 與 LaunchAgent
單調時鐘適合做退避計時,但解析 HTTP-date 必須用 UTC 函式庫並在夏令時切換週做兩次演練。
TLS 工作階段複用可能掩蓋間歇性 429;診斷客戶端應偶爾強制新交握。
若缺硬體,短期租用雲端 Mac mini:MacHTML Apple 晶片常見日價約 $16.9,SSH/VNC 便於抓取真實回應標頭。
與 LaunchAgent 心跳聯動:退避策略變更後重啟 plist 並確認環境變數已同步。
把 fork 上限與上游退避聯動,參見節流文中的併發建議。
供應商釋出新 SDK 變更預設逾時時,視為風險變更:以 5% 金絲雀流量跑 24 小時 並觀察 429 差分。
管道文案
排隊超過 5 s 發首則提示,30 s 發第二則,90 s 給人工連結。避免把供應商 JSON 原文貼進頻道。
多語言團隊按工作區 locale 標頭在地化「忙態」文案。
恢復後傳送「積壓已低於 2 則」的簡短摘要,降低重複提問。
在助理已排隊時抑制「正在輸入」類事件,減少無效上游壓力。
不要在助理已排隊時狂送打字指示器事件,那些事件會放大供應商負載。
遙測與財務口徑
匯出「實際等待」與「模型建議等待」的直方圖,偏差超過 20% 多半是解析 bug。
429 超七日基線 5× 且持續 10 分鐘 先查供應商狀態再改路由。
結構化稽核日誌保留 90 天,含關聯 ID。
每季人工抽查 40 條最長等待,自動分桶仍會把區域抖動標成內部故障。
在 Grafana 標註觸及退避常數的 Git 合併,讓尖峰對應到刻意變更。
供應商協同
維護私有手冊:每條模型路由對應狀態頁 RSS。狀態降級時主動降併發 30%,比事後道歉便宜。
事故期指定單一對外聯絡人,每 20 分鐘 更新內部頻道,避免碎片化升級腳本化重試。
突發配額寫入合約附件,貼在 wiki 與退避表旁,財務可追溯。
與供應商協商 burst 配額並留存 PDF,稽核時可對照併發調整日期。
安全與合規
429 日誌禁止存完整提示詞,只存雜湊工作階段 ID。金鑰輪換後暫時收緊每租戶併發直至所有 plist 更新。
對退避端點做滲透:確保 401 風暴也走指數退避,防止被用作算力耗盡攻擊。
在夏令時切換週用合成 Retry-After HTTP-date 做迴歸,防止解析靜默回歸。
GDPR 與 SOC2 稽核常問節流是否公平;保留直方圖證明單一客戶在 brownout 期間等待不超過中位數 2×。
常見問題
429 與本地節流要合併嗎?
要,分層處理。
沒有 Retry-After?
指數抖動並把單次等待壓在約 120 秒。
為何用 Mac mini 演練?
macOS 排程與 TLS 行為更貼近生產。
Apple 晶片 Mac mini仍是演練 OpenClaw 事故最省心的硬體:可預測的散熱、原生鑰匙圈與 LaunchAgent 時序。MacHTML提供可租雲端 Mac mini,SSH/VNC 讓你在真實 macOS 上驗證 429 退避、doctor 與節流協同,按專案啟停。