$10 вместо $200 – как построить 7-слойную AI-архитектуру с самоулучшением

4 минуты

Месяц назад Anthropic заблокировал OAuth для сторонних приложений. Мы перешли на бесплатный Qwen. Это была заплатка.

Сейчас Qwen 3.6 Plus бесплатный tier тоже отключён на OpenRouter. Бесплатные модели приходят и уходят. Зависеть от чьей-то щедрости – не стратегия.

За один день я перестроил архитектуру полностью. Семь слоёв. Каскадный роутинг моделей. Самоулучшающиеся навыки. Мониторинг AI-ландшафта. Стоимость – 1012вмесяцвместо10–12 в месяц вместо200.

И вам не нужно это повторять вручную. В конце статьи – один prompt. Вставьте его в Claude Code, нажмите Enter. Всё.

Почему $200 – это не про качество#

Claude Opus 4.6 – отличная модель. Но 5замиллионвходныхтокенови5 за миллион входных токенов и25 за выходные – это не «premium». Это налог на лень.

Один ответ на Opus стоит ~0.15.НаMiniMaxM2.70.15. На MiniMax M2.7 –0.003. Разница в 50 раз. При этом M2.7 – лучшая модель для агентских задач по соотношению цена/качество на всём рынке.

А знаете, что стоит на первом месте по кодингу? Не Opus. Не GPT-5.4. GLM 5.1 – 58.4% на SWE-Bench Pro. Opus – 57.3%. И GLM стоит $1.40 за миллион токенов. В 3.5 раза дешевле Opus.

Дорогая модель ≠ лучшая модель. Дорогая модель = вы не настроили роутинг.

7 слоёв: что внутри#

Layer 1: Cascade Model Routing#

Вместо одной модели – каскад. Primary отвечает на 90% запросов. Если не справился – автоматически подхватывает следующая.

MiniMax M2.7 ($0.30/$1.20) ← 90% задач
↓ если не справился
GLM 5.1 ($1.40/$4.40) ← код, сложные задачи
↓ если недоступен
DeepSeek V3.2 ($0.26/$0.38) ← математика, анализ
↓ если всё упало
Step 3.5 Flash (бесплатно) ← NVIDIA NIM
MiniMax M2.5 (бесплатно) ← NVIDIA NIM
GLM-5.1-FP8 (бесплатно) ← Modal

Шесть моделей. Агент никогда не молчит. Cron-задачи (мониторинг, бэкапы, проверки) идут на бесплатные модели. Telegram-диалоги – на M2.7.

Layer 2: 5-Layer Memory#

Стандартный AI-агент грузит весь контекст при каждом ответе. 22,000 токенов. Каждый. Раз.

Мы разбили память на пять уровней:

СлойЧтоРазмерКогда грузится
L1Identity + routing rules460 токеновВсегда
L2Активные задачи~2,000 токеновВсегда
L3Навыки, знания, клиентыНеограниченПо запросу
L4Архив, старые сессииСжатПоиск через LCM
L5CC↔Agent shared signals~200 токеновПри старте сессии

L1 – ультра-сжатый bootstrap. Кто я, какая модель, куда смотреть. 460 токенов вместо 22,000. Агент стартует мгновенно.

Layer 3: Smart Delegation#

Агент сам решает, как обработать задачу. Простой вопрос – ответ напрямую. Код – fallback автоматически подберёт GLM 5.1. Исследование – запустит параллельных субагентов. Opus – только когда вы скажете !opus.

Принцип: не роутить задачи на дорогие модели – оптимизировать контекст, чтобы дешёвая модель давала premium-качество.

Это не мои слова. Это консенсус community. Stanford RouteLLM доказал: cascade routing + хороший контекст = 85–95% качества frontier-модели за 3% стоимости.

Layer 4: Autocontext – Self-Improvement#

Каждую пятницу агент анализирует свою работу: – Какие модели timeout’ились чаще всего – Какие задачи необоснованно ушли на дорогие модели – Какие паттерны повторяются

И обновляет свои правила. Не вы улучшаете агента. Агент улучшает себя.

Layer 5: AI Landscape Monitor#

Каждый понедельник агент проверяет OpenRouter API: новые модели, изменения цен. Сравнивает с baseline. Если появилась модель лучше или дешевле – алерт.

Вы всегда на переднем крае. Без ручной работы.

Layer 6: OpenSpace – Self-Evolving Skills#

Это главная находка. OpenSpace – open-source движок от HKUDS (4,845 stars, MIT license).

Каждая успешная задача превращается в навык. На следующей похожей задаче агент не рассуждает заново – использует готовый навык. 46% меньше токенов.

Три режима эволюции:

  • AUTO-FIX – навык сломался, починил себя сам
  • AUTO-IMPROVE – успешный паттерн стал лучшей версией
  • AUTO-LEARN – рабочий workflow захвачен автоматически

Через месяц библиотека навыков растёт, каждый день дешевле предыдущего.

Layer 7: Lossless Context Management#

Плагин для сверхдлинного контекста (100M+ токенов). Сжимает старые сообщения без потери смысла (<9% деградации). Агент помнит всё, но платит только за актуальное.

Модели: что выбрать#

МодельЦена (вход/выход за 1M)Лучше всего дляБесплатно?
MiniMax M2.70.30/0.30 /1.20Агентские задачиНет
GLM 5.11.40/1.40 /4.40Код (#1 SWE-Bench Pro)Free через Modal
DeepSeek V3.20.26/0.26 /0.38Математика, анализFree через NVIDIA
Step 3.5 Flash0.10/0.10 /0.30Быстрые задачиFree через NVIDIA
MiniMax M2.50.28/0.28 /1.00Код (80% SWE-Bench)Free через NVIDIA

Бюджет: сколько реально стоит#

20наOpenRouter.Нашаархитектура:603020 на OpenRouter. Наша архитектура: – 60% запросов на бесплатных моделях (cron-задачи) – 30% на M2.7 (0.003 за ответ) – 10% на GLM 5.1 fallback ($0.01 за ответ)

Итого: $20 хватает на 2–3 месяца. Не на один. На два-три.

Альтернатива: OpenCode Go за $10/мес – bundle из GLM 5.1, Kimi K2.5, MiniMax M2.7, Mimo V2Pro.

Как повторить: один prompt#

Откройте терминал. Запустите Claude Code:

Terminal window
claude

Вставьте:

Настрой мой OpenClaw сервер с 7-слойной AI-архитектурой:
1. MODEL ROUTING — каскад:
Primary: openrouter/minimax/minimax-m2.7
Fallbacks (в порядке приоритета):
- openrouter/z-ai/glm-5.1
- openrouter/deepseek/deepseek-v3.2
- nvidia/stepfun-ai/step-3.5-flash
- nvidia/minimaxai/minimax-m2.5
- modal/zai-org/GLM-5.1-FP8
2. CRON JOBS — все enabled crons:
model: nvidia/stepfun-ai/step-3.5-flash (free)
3. DEFAULTS (heartbeat, hooks):
primary: nvidia/stepfun-ai/step-3.5-flash
4. LCM CONFIG (plugins.entries.lossless-claw):
summaryModel: nvidia/qwen/qwen3.5-122b-a10b
contextThreshold: 0.6
freshTailCount: 24
5. SOUL.md — добавь MODEL ROUTING секцию:
- Primary: M2.7, стоимость turn ~$0.003
- Fallback chain описание
- Delegation rules: код=fallback сам, research=parallel,
opus=только по !opus
- Self-improvement: mistakes.md + lessons.md
6. 5-LAYER MEMORY — создай memory/L1_INDEX.md:
- Identity, model info, bootstrap sequence
- 5 layers: L1 always, L2 active, L3 on-demand,
L4 archive, L5 shared
7. OPENSPACE (опционально, требует Python 3.12+):
git clone https://github.com/HKUDS/OpenSpace.git ~/OpenSpace
cd ~/OpenSpace && python3.12 -m venv .venv
source .venv/bin/activate && pip install -e .
cp -r openspace/host_skills/delegate-task/ ~/.openclaw/workspace/skills/
cp -r openspace/host_skills/skill-discovery/ ~/.openclaw/workspace/skills/
openclaw mcp set openspace '{"url":"http://127.0.0.1:8081/mcp","transport":"streamable-http"}'
8. CRON JOBS — создай два новых:
- AI Landscape Monitor: Monday 09:00, free model,
проверяет OpenRouter API на новые модели и цены
- Autocontext Analysis: Friday 22:00, free model,
анализирует model performance за неделю
Валидируй JSON. Рестартуй gateway. Проверь что всё работает.

Нажмите Enter. Claude Code сделает остальное.

Это не просто настройка. Это система.#

Обычный AI-агент – это чат-бот с памятью. То, что мы построили – самоулучшающаяся система с шестью fallback-моделями, пятью слоями памяти, еженедельным self-review и эволюционирующими навыками.

Стоит $10 в месяц. Работает 24/7. Становится лучше каждую неделю.


Нужна помощь с настройкой? Напишите мне – подключусь и настрою.

Поделиться Share