Quel premier levier quand la facture OpenClaw explose ?

Réduire les jetons de sortie max par tour et désactiver les appels d’outils parallèles jusqu’à ce que les logs montrent quel outil gonfle le plus les prompts. Réactiver progressivement avec journalisation.

Comment stopper une boucle folle sans tuer la passerelle ?

Introduire un budget d’étapes par conversation et un timeout d’horloge murale ; au-delà, renvoyer une erreur structurée au canal au lieu de retenter silencieusement.

Pourquoi tester les limitations sur un Mac mini dédié ?

Le comportement des forks, des observateurs de fichiers et des redémarrages LaunchAgent diffère des conteneurs Linux. Un Mac mini cloud reproduit le scheduling macOS de production.

OpenClaw budget jetons & limitation d’outils 2026 — Passerelle Cloud Mac

Les passerelles OpenClaw semblent légères jusqu’à ce qu’un agent enchaîne quinze sondes shell, relise un journal multi-mégaoctets à chaque tour et diffuse un préambule de réflexion de plusieurs milliers de jetons. Finance demande alors pourquoi un seul week-end a brûlé trois fois le budget d’inférence prévu. Ce guide s’adresse aux équipes qui exploitent OpenClaw sur un hôte macOS 24/7, souvent un Mac mini partagé, et qui veulent des garde-fous chiffrés plutôt que des slogans. Lorsque les erreurs se cachent derrière des réessais de canaux, croisez ce texte avec OpenClaw Doctor et diagnostic passerelle (français) pour accélérer la corrélation symptômes, jetons d’authentification et ports d’écoute.

Vous y trouverez une matrice de politiques, des valeurs de départ auditables, des étapes opérationnelles qui survivent aux redémarrages LaunchAgent, et une FAQ orientée propriétaires de plateforme. L’objectif est simple : chaque modification de plafond doit voyager dans le même correctif que les seuils de monitoring, afin que les post-mortems ne devinent pas si une régression vient du prompt ou de l’infra.

La première partie décrit les signaux d’une limitation trop faible, car beaucoup d’équipes accusent d’abord la qualité du modèle ou le réseau alors que la mémoïsation manquante ou les réponses dupliquées gonflent silencieusement la facture. Ensuite, une table compare plafonds durs et files adaptatives, car finance et engineering ne parlent pas le même langage : les caps se justifient en une phrase, les files demandent de la discipline de réglage.

Les chiffres de départ couvrent jetons de sortie, parallélisme d’outils et stratégies de backoff, avec un encadré spécifique pour l’automatisation navigateur dont les captures d’écran gonflent les prompts. Un chapitre macOS explique pourquoi le scheduler équitable et les watchers de fichiers allongent le temps mural par appel d’outil, même quand le CPU semble oisif.

Enfin, l’observabilité structurée et les game-days évitent la noyade dans les logs, tandis que la FAQ fixe trois paliers d’escalade lorsque toute une région renvoie des 429 ou qu’un lancement marketing crée un pic brutal.

Signaux d’une limitation insuffisante

Une latence quasi linéaire avec un CPU de passerelle bas suggère souvent une file d’attente côté fournisseur de modèle, et non un parseur Swift soudainement lent. Des pointes d’écriture disque régulières indiquent fréquemment qu’un agent resérialise l’arbre du workspace parce que les sorties d’outils ne sont pas mémoïsées. Si deux messages « en cours » arrivent en moins de 400 ms, la couche de déduplication manque et les réessais multiplient les jetons sans ticket d’incident visible.

Les quatre séries minimales à partager avec finance : jetons par tâche réussie, jetons par tâche échouée, invocations d’outils par conversation, durée murale jusqu’à la résolution du ticket. Sans elles, aucune preuve ne distingue une montée de version du modèle d’un relâchement de politique.

Pendant un incident, geler les fonctionnalités, capturer ~/.openclaw (secrets masqués) puis annuler la dernière modification de politique évite des jours de spéculation. Ajoutez des identifiants de corrélation obligatoires pour que le support ne travaille pas sur des captures issues d’anciennes builds.

Les rotations d’urgence des identifiants après incident sont aussi critiques que les plafonds eux-mêmes : des erreurs d’authentification déclenchent souvent des clients trop agressifs qui contournent vos limites. Documentez quels comptes de service changer et dans quel ordre pour ne pas laisser deux passerelles mutuellement incohérentes.

Les ingénieurs support doivent disposer d’une antisèche d’une page listant les valeurs actives par tag de release ; l’historique Git seul est illisible lors d’une tempête de pages. Sans antisèche, le temps moyen de diagnostic grimpe et les mêmes questions reviennent chaque garde.

Un autre signal est une profondeur de file qui augmente alors que le taux de succès chute : vérifiez les timeouts implicites des outils et ceux du reverse-proxy, car des flux coupés incitent les clients à recommencer aveuglément. Croisez les métriques passerelle avec les latences amont avant d’acheter plus de capacité modèle.

Alignez enfin le marketing avec les caps réels : promettre une « recherche illimitée » transforme chaque limitation en bug perçu et gonfle le support. Afficher des limites honnêtes à côté des prix réduit les tickets et clarifie les attentes.

Matrice : plafonds durs vs files adaptatives

Approche	Idéal pour	Risque	Charge ops
Plafond dur de jetons de sortie	Bots publics	Réponses tronquées au milieu de la pensée	Faible
Budget de latence par outil	Crawlers disque	Recherches profondes légitimes échouent	Moyenne
Profondeur de file adaptative	Équipes avec SLO	Réglage complexe	Élevée
Plafond d’étapes de conversation	Agents de recherche	Reprise manuelle par l’utilisateur	Faible

La combinaison la plus courante reste plafond dur de sortie plus cap d’étapes, car elle est auditable et compréhensible par les finances. Les files adaptatives attendent six semaines de baseline et une équipe dédiée au tuning.

La colonne risque est volontairement produit : des caps trop serrés poussent les utilisateurs à contourner via d’autres canaux, doublant le travail et les jetons. Préférez des profils par canal avec justification écrite plutôt qu’un profil global unique.

En multi-tenant, imposez des caps par locataire pour qu’un client bruyant ne sature pas la file des autres. Validez cette séparation avec des tests de charge sur un Mac mini loué qui reflète RAM et version mineure de macOS.

Valeurs initiales auditables

Points de départ conservateurs pour une passerelle mono-locataire sur un Mac mini 16 Go avec moins de vingt opérateurs simultanés :

Jetons de sortie max : 900–1 200 pour le quotidien ; 1 800 seulement pour des routes de synthèse de code derrière un drapeau de fonctionnalité.
Appels d’outils parallèles : 1 pour le shell, 2 pour des stats de fichiers en lecture seule, 0 pour le réseau sans liste d’autorisation explicite.
Backoff : départ 2 secondes, facteur 1,8, plafond 45 secondes, maximum 5 tentatives puis erreur lisible.
Horloge murale par conversation : arrêt dur après 12 minutes de temps modèle sans continue de l’opérateur.

N’augmentez les plafonds qu’avec des preuves de percentiles : si la p95 reste sous l’objectif, documentez la modification dans le même commit que les seuils de monitoring. Sinon, tableaux de bord et réalité divergent sans qu’on sache quelle limite est « officielle ».

Pour l’automatisation navigateur, divisez les budgets par 2,5 à cause des captures d’écran ; gardez les outils DOM-only sur la voie économique. Étiquetez séparément les télémétries pour éviter de mélanger coûts incomparables.

Enregistrez policy_version sur chaque événement de complétion afin de segmenter Grafana avant/après déploiement. Les chaînes doivent être lisibles et cohérentes avec l’historique des releases.

Les limitations numériques ne remplacent pas le sandboxing : listes de répertoires autorisés et revue trimestrielle des préfixes de commande restent indispensables. La sécurité doit confirmer qu’un plafond de jetons plus haut ne débloque pas implicitement des chemins sensibles via des sorties d’outils plus larges.

Pour les agents de recherche internes, des caps plus élevés peuvent se justifier avec une approbation humaine par session, elle-même versionnée pour l’audit. Sans traçabilité, chaque dépassement devient une discussion politique plutôt qu’un fait mesuré.

Scheduling macOS, LaunchAgents et pression fork

OpenClaw cohabite avec des observateurs de fichiers, des expéditeurs de journaux et parfois des simulateurs Xcode. Sous charge, des chaînes d’outils riches en fork poussent la mémoire même si le CPU semble calme. Sérialisez le shell dès que plus de trois conversations sont actives pour limiter l’entrelacement du scheduler équitable qui allonge le temps mural par appel.

Ajoutez ThrottleInterval aux LaunchAgents pour éviter des boucles de redémarrage qui frappent l’API modèle à 10 Hz pendant une panne. Liez le runbook à votre canal de statut pour que les humains distinguent incident externe et régression locale.

Si vous ne reproduisez pas les tempêtes de forks sur un portable, louez un Mac mini cloud qui reflète la RAM et la version mineure de macOS. MacHTML se situe souvent autour de 16,9 USD par jour pour des bursts courts—moins cher qu’un week-end senior à deviner. Documentez aussi le comportement thermique : les mini sans ventilateur réduisent le CPU après une charge soutenue, ce qui déplace l’histogramme de latence même si les politiques de jetons restent fixes.

Capturez les fichiers plist et d’environnement avant des tests agressifs ; le rollback doit être launchctl bootout plus restauration, pas une réinstallation. Séparez profils canary et stables pour éviter qu’expérimentations et clients partagent le même socket LaunchAgent.

Lorsque vous changez le split-tunneling VPN ou un proxy inverse, remesurez les latences d’outil : un chemin asymétrique peut faire réussir les tests interactifs pendant que le compte daemon échoue. Exécutez doctor sur le même chemin réseau que la passerelle.

Enfin, notez combien d’instances navigateur simultanées le Mac mini tolère avant que la pression mémoire ne déclenche du GC Node aggravant les timeouts d’outil. Ces chiffres doivent vivre sur le même tableau de bord que les jetons pour éviter que deux équipes ne parlent à côté.

Observabilité sans noyer les logs

Une ligne JSON par invocation d’outil avec conversation_id, tool, duration_ms, exit_code, retry_count et policy_version bat des paragraphes narratifs. Envoyez vers un stockage déjà maîtrisé : OpenSearch, ClickHouse, ou S3 + Athena si le volume reste modeste.

Alertez lorsque la moyenne mobile des jetons par résolution réussie dépasse de 20 % la baseline sur sept jours—signe classique de régression de prompt. Ajoutez une revue hebdomadaire produit/plateforme sur les trois conversations les plus aberrantes.

Les tableaux de bord doivent combiner une aire empilée des jetons par route modèle et une heatmap des échecs par heure ; les lancements marketing révèlent des trous de limitation. Calendriers marketing et ops doivent être liés pour éviter les surprises.

Masquez les secrets à l’ingestion, pas seulement à l’affichage : les réessais limités multiplient le volume et les bundles « debug » fuient vite. Formez les ingénieurs à ne jamais coller d’en-têtes bruts dans les tickets.

Organisez des game-days : baissez temporairement de 30 % les jetons max en staging et validez les chemins dorés. Les leçons remontent en production et dans les supports de formation.

Documentez trois paliers d’escalade on-call : (1) baisser les plafonds et notifier le canal ; (2) couper les outils non essentiels et router vers une passerelle froide ; (3) afficher une bannière de maintenance jusqu’à une dérogation finance. Entraînez-vous trimestriellement contre des 429 régionaux prolongés.

Les managers doivent fusionner diffs de prompts et diffs de politique dans le même PR ; sinon les tableaux de bord montrent des « pics fantômes » issus d’éditions de texte pendant que l’infra est innocentée pendant des semaines.

Concluez avec finance : l’observabilité n’est pas un luxe, c’est la condition pour débattre sainement des budgets. Sans données structurées, chaque cap semble arbitraire ; avec des données, il devient un levier de pilotage.

FAQ

Premier levier quand la facture grimpe ?

Réduire les jetons de sortie max et couper le parallélisme jusqu’à identification du coupable dans les logs.

Stopper les boucles sans tuer la passerelle ?

Caps d’étapes et d’horloge murale renvoyant des erreurs explicites plutôt que des réessais infinis.

Pourquoi un Mac mini dédié ?

Pour reproduire le comportement macOS de production ; les stubs Linux masquent forks et watchers.

Le Mac mini Apple Silicon reste le compromis idéal : mémoire unifiée pour modèles locaux et passerelle, silence pour les racks bureau, cohérence avec ce que les designers testent en VNC. MacHTML propose des Mac mini avec SSH/VNC pour valider limitations, relances LaunchAgent et flux doctor—montez en charge pour les tests, réduisez quand les budgets se calment.

Combinez les limites de tours avec la compression amont — voir OpenClaw + Headroom proxy (localhost:8787).

Limiter OpenClaw sur un Mac mini cloud

Prototyper plafonds de jetons, sérialisation d’outils et relance LaunchAgent sur Apple Silicon sans acheter de métal—SSH pour l’automatisation, VNC pour les vérifications interactives.

Voir les offres Mac mini Guide SSH/VNC