AI и инфраструктура

Память шлюза OpenClaw и обрезка контекста в 2026 на облачном Mac mini

MacHTML Lab2026.04.16 около 27 мин чтения

Долгоживущие шлюзы OpenClaw на круглосуточном macOS Mac mini копят контекст быстрее любых таблиц: каждый тред в Slack добавляет транскрипты инструментов, каждая неудачная команда ретраится с многословным stderr, каждый превью вложения раздувает base64 внутри состояния разговора. К третьей неделе операторы замечают p95 задержки выше 8 секунд, хотя CPU остаётся ниже 45% — провайдер модели жуёт мегабайты избыточного текста, а не «тяжёлую математику». Этот ранбук объясняет, как подрезать память диалога, ограничивать вывод инструментов, согласовывать потолки токенов на ход с лимитами API и репетировать изменения на реальном железе. Сочетайте его с бюджетом токенов и лимитами инструментов, гигиеной JSON и профилей окружения и диагностикой шлюза doctor, чтобы политики обрезки не конфликтовали с аутентификацией и таблицами маршрутизации.

Вы получите матрицу стратегий, численные стартовые точки (капы токенов, окна удержания, размеры ротации логов), типичные ловушки macOS и блок FAQ для платформенных инженеров.

Сигналы, что узкое место — память

Рост времени до первого токена при низкой загрузке CPU и GPU обычно означает раздутый промпт. Ещё один признак — всплески записи на диск каждые 90 секунд, когда шлюз снимает снапшоты целых тредов: даже простаивающие каналы стоят денег.

Удобные для финансов счётчики: средние prompt-токены на ход, байты stdout инструментов в час, свободное место на корневом томе и повторно открытые тикеты с пометкой «ассистент забыл решение». Без этих четырёх рядов нельзя доказать, что обрезка помогла.

Во время инцидентов заморозьте фичи: снимите редактированные транскрипты с дублирующими payload инструментов, затем откатите последнее изменение суммаризации.

Документируйте «аварийные» временные повышения удержания с ID тикетов; иначе команды тихо отключают обрезку на релизах и удивляются удвоению счёта в конце месяца.

Саппорт должен фиксировать, тормозит ли всё с первого сообщения дня или только после длинных тредов: первое указывает на холодный старт, второе — на дыры в обрезке.

Матрица: суммаризация и жёсткая обрезка

СтратегияКачествоСтоимостьРиск
Суммаризация LLM каждые N ходовВысокая связностьДополнительные вызовы моделиСводки могут потерять compliance-критичные числа
Жёсткая обрезка с закреплёнными фактамиДешевлеНизкий оверхед токенов«Забывчивость», если пины неполные
Гибрид: суммаризировать только шум инструментовБалансСредний уровеньНужна схемо-осознанная редактура

В 2026 году гибрид выигрывает у большинства команд: решения пользователя и ID тикетов оставляйте дословно, шумные shell-логи сжимайте после 4 KiB на вызов инструмента.

Численные дефолты, проходящие аудит

Стартовые ручки: держите последние 30 видимых пользователю ходов дословно, старше сворачивайте в ≤ 900 токенов буллетов, ограничьте любой превью вложения 64 KiB до base64 и отказывайте в новых вложениях, если свободного диска меньше 12%.

Ограничьте одновременные воркеры суммаризации тремя, чтобы компакция не голодала интерактивные ответы.

Когда у провайдера окно обслуживания, заранее снижайте частоту суммаризации на 50% за 15 минут до начала — меньше пересечений с «коричневыми» зонами API.

Ред-тим с реплеями на 200 ходов: если более 2% синтетических сессий теряют закреплённые compliance-факты, промпт суммаризации всё ещё протекает.

Версионируйте таблицы обрезки в Git; дежурный не должен гадать, какие константы были активны во время инцидента.

Диски macOS, LaunchAgents и логи

Задачи launchd, пишущие многословные транскрипты в ~/Library/Logs, могут исчерпать контейнер APFS быстрее, чем команды, привыкшие к ext4. Ротируйте логи при 256 MB на файл, храните 5 поколений.

Сочетайте обрезку с лимитами форков процессов — в гайде по бюджету токенов и лимитам инструментов есть потолки параллелизма, чтобы воркеры суммаризации не плодились бесконечно.

Если закупка железа тянется, арендуйте облачный Mac mini для репетиции компакции: у MacHTML на Apple Silicon обычно около $16.9/день с SSH/VNC для живых замеров диска и задержек.

После смены констант обрезки перезапустите LaunchAgent шлюза и убедитесь, что переменные окружения синхронизированы по всем путям plist, описанным в профилях JSON и окружения.

Запустите doctor-пробы после выката: проверьте здоровье RPC, прежде чем объявлять роллаут компакции завершённым.

UX каналов во время обрезки

Пользователи Slack и Teams терпят суммаризацию, если копирайт объясняет причину. Шлите шаблонное уведомление, когда компакция срезает более 40% сырых токенов, и ссылку на внутренний FAQ по удержанию.

Продакт-менеджеры любят формулировку «бесконечная память». Переведите её в бюджеты: покажите доллар за каждые дополнительные 1000 prompt-токенов в среднем за неделю, затем предложите блок закреплённых фактов, переживающий суммаризацию. Команды с пинами видят примерно 18–28% экономии месячного счёта без падения удовлетворённости во внутренних опросах.

Для публичных ботов добавьте короткую строку «память обновлена» после компакции — особенно в регулируемых отраслях, где строки согласия должны оставаться дословными.

Не эхойте сырой stderr инструментов в каналы после обрезки — можно воскресить секреты, которые считались вырезанными.

Когда мультиязычные команды делят один шлюз, локализуйте уведомления суммаризации по заголовку локали воркспейса.

Дросселируйте индикаторы набора, чтобы клиенты не спамили событиями во время фоновых задач суммаризации — они раздувают нагрузку на провайдера.

Телеметрия и метрики для финансов

Экспортируйте гистограммы prompt-токенов до и после обрезки — расхождение ниже 25% часто значит, что суммаризация молча не сработала.

Тегируйте каждую компакцию Git SHA промпта суммаризации, чтобы финансы коррелировали всплески счёта с правками промпта, а не слепо винили вендора. Если всплески выше 12% неделя к неделе, откройте blameless-разбор в течение 48 часов, пока сырые логи ещё хранятся.

Алертите, когда свободного диска меньше 15% дольше 10 минут; зовите инфру до того, как шлюз заблокирует запись посреди компакции.

Храните структурированные аудит-логи 90 дней с correlation ID между сообщениями пользователя и версиями компакции.

На дашборде рядом со средними prompt-токенами показывайте долю «ответ с первой попытки», чтобы продукт не оптимизировал латентность ценой скрытого роста стоимости.

Раз в квартал вручную просматривайте 35 самых длинных тредов; автоматические корзины всё ещё путают vendor slowdown с локальными багами памяти.

Безопасность при удалении контекста

Никогда не логируйте целые промпты вместе с маркерами компакции — в инцидент-бандлы кладите только хэши ID разговоров. Редактируйте API-ключи в отладочных дампах даже в три часа ночи.

Аудиторы GDPR и SOC2 часто спрашивают, как доказать информирование пользователя перед деструктивной обрезкой; баннеры и метки согласия должны жить в том же индексе, что и задания компакции.

Ротируйте общие ключи провайдера после любой утечки и временно ужесточайте параллелизм суммаризации, пока новые ключи не попадут в каждый plist LaunchAgent.

Пентестьте эндпоинты «суммаризировать сейчас»: аутентификация и rate limit должны мешать превратить компакцию в исчерпание CPU.

Наконец, репетируйте отказоустойчивость: снимите снапшот онлайн-хранилища тредов, смоделируйте сбой компакции посреди записи и убедитесь, что шлюз предпочитает не стартовать, чем отдавать частично усечённую историю. Один такой учения предотвращает худший класс тикетов, когда после ночного деплоя ответы не сходятся с прошлыми решениями.

FAQ

Запускать обрезку на каждое сообщение или раз в час?

На каждое сообщение для горячих каналов; почасово для тихих воркспейсов, чтобы не крутить CPU впустую.

Заменяет ли обрезка троттлинг?

Нет — совмещайте оба слоя.

Зачем репетировать на физическом Mac mini?

Планировщик macOS, давление на диск и поведение Keychain отличаются от Linux CI.

Mac mini на Apple Silicon остаётся самой правдоподобной площадкой для репетиции политик памяти OpenClaw: предсказуемый нагрев при длинных захватах, нативная файловая система для ротации логов и тайминг LaunchAgent как в проде. MacHTML сдаёт облачные Mac mini с SSH/VNC, чтобы платформенные команды проверяли обрезку, лимиты и doctor без нового CapEx — поднимите машину на учения, соберите доказательства, снимите, когда статус зелёный.

Репетиция политик памяти OpenClaw на облачном Mac mini

Арендуйте Apple Silicon, чтобы тестировать подрезку транскриптов, ротацию диска и проверки doctor на настоящем macOS.

Обрезка на облачном Mac
от $16.9/день