$10 вместо $200 – как построить 7-слойную AI-архитектуру с самоулучшением

Месяц назад Anthropic заблокировал OAuth для сторонних приложений. Мы перешли на бесплатный Qwen. Это была заплатка.

Сейчас Qwen 3.6 Plus бесплатный tier тоже отключён на OpenRouter. Бесплатные модели приходят и уходят. Зависеть от чьей-то щедрости – не стратегия.

За один день я перестроил архитектуру полностью. Семь слоёв. Каскадный роутинг моделей. Самоулучшающиеся навыки. Мониторинг AI-ландшафта. Стоимость – $10–12 в месяц вместо$ 200.

И вам не нужно это повторять вручную. В конце статьи – один prompt. Вставьте его в Claude Code, нажмите Enter. Всё.

Почему $200 – это не про качество#

Claude Opus 4.6 – отличная модель. Но $5 за миллион входных токенов и$ 25 за выходные – это не «premium». Это налог на лень.

Один ответ на Opus стоит ~ $0.15. На MiniMax M2.7 –$ 0.003. Разница в 50 раз. При этом M2.7 – лучшая модель для агентских задач по соотношению цена/качество на всём рынке.

А знаете, что стоит на первом месте по кодингу? Не Opus. Не GPT-5.4. GLM 5.1 – 58.4% на SWE-Bench Pro. Opus – 57.3%. И GLM стоит $1.40 за миллион токенов. В 3.5 раза дешевле Opus.

Дорогая модель ≠ лучшая модель. Дорогая модель = вы не настроили роутинг.

7 слоёв: что внутри#

Layer 1: Cascade Model Routing#

Вместо одной модели – каскад. Primary отвечает на 90% запросов. Если не справился – автоматически подхватывает следующая.

1
MiniMax M2.7 ($0.30/$1.20)     ← 90% задач
2
  ↓ если не справился
3
GLM 5.1 ($1.40/$4.40)          ← код, сложные задачи
4
  ↓ если недоступен
5
DeepSeek V3.2 ($0.26/$0.38)    ← математика, анализ
6
  ↓ если всё упало
7
Step 3.5 Flash (бесплатно)     ← NVIDIA NIM
8
  ↓
9
MiniMax M2.5 (бесплатно)       ← NVIDIA NIM
10
  ↓
11
GLM-5.1-FP8 (бесплатно)       ← Modal

Шесть моделей. Агент никогда не молчит. Cron-задачи (мониторинг, бэкапы, проверки) идут на бесплатные модели. Telegram-диалоги – на M2.7.

Layer 2: 5-Layer Memory#

Стандартный AI-агент грузит весь контекст при каждом ответе. 22,000 токенов. Каждый. Раз.

Мы разбили память на пять уровней:

Слой	Что	Размер	Когда грузится
L1	Identity + routing rules	460 токенов	Всегда
L2	Активные задачи	~2,000 токенов	Всегда
L3	Навыки, знания, клиенты	Неограничен	По запросу
L4	Архив, старые сессии	Сжат	Поиск через LCM
L5	CC↔Agent shared signals	~200 токенов	При старте сессии

L1 – ультра-сжатый bootstrap. Кто я, какая модель, куда смотреть. 460 токенов вместо 22,000. Агент стартует мгновенно.

Layer 3: Smart Delegation#

Агент сам решает, как обработать задачу. Простой вопрос – ответ напрямую. Код – fallback автоматически подберёт GLM 5.1. Исследование – запустит параллельных субагентов. Opus – только когда вы скажете !opus.

Принцип: не роутить задачи на дорогие модели – оптимизировать контекст, чтобы дешёвая модель давала premium-качество.

Это не мои слова. Это консенсус community. Stanford RouteLLM доказал: cascade routing + хороший контекст = 85–95% качества frontier-модели за 3% стоимости.

Layer 4: Autocontext – Self-Improvement#

Каждую пятницу агент анализирует свою работу: – Какие модели timeout’ились чаще всего – Какие задачи необоснованно ушли на дорогие модели – Какие паттерны повторяются

И обновляет свои правила. Не вы улучшаете агента. Агент улучшает себя.

Layer 5: AI Landscape Monitor#

Каждый понедельник агент проверяет OpenRouter API: новые модели, изменения цен. Сравнивает с baseline. Если появилась модель лучше или дешевле – алерт.

Вы всегда на переднем крае. Без ручной работы.

Layer 6: OpenSpace – Self-Evolving Skills#

Это главная находка. OpenSpace – open-source движок от HKUDS (4,845 stars, MIT license).

Каждая успешная задача превращается в навык. На следующей похожей задаче агент не рассуждает заново – использует готовый навык. 46% меньше токенов.

Три режима эволюции:

AUTO-FIX – навык сломался, починил себя сам
AUTO-IMPROVE – успешный паттерн стал лучшей версией
AUTO-LEARN – рабочий workflow захвачен автоматически

Через месяц библиотека навыков растёт, каждый день дешевле предыдущего.

Layer 7: Lossless Context Management#

Плагин для сверхдлинного контекста (100M+ токенов). Сжимает старые сообщения без потери смысла (<9% деградации). Агент помнит всё, но платит только за актуальное.

Модели: что выбрать#

Модель	Цена (вход/выход за 1M)	Лучше всего для	Бесплатно?
MiniMax M2.7	$0.30 /$ 1.20	Агентские задачи	Нет
GLM 5.1	$1.40 /$ 4.40	Код (#1 SWE-Bench Pro)	Free через Modal
DeepSeek V3.2	$0.26 /$ 0.38	Математика, анализ	Free через NVIDIA
Step 3.5 Flash	$0.10 /$ 0.30	Быстрые задачи	Free через NVIDIA
MiniMax M2.5	$0.28 /$ 1.00	Код (80% SWE-Bench)	Free через NVIDIA

Бюджет: сколько реально стоит#

$20 на OpenRouter. Наша архитектура: – 60% запросов на бесплатных моделях (cron-задачи) – 30% на M2.7 ($ 0.003 за ответ) – 10% на GLM 5.1 fallback ($0.01 за ответ)

Итого: $20 хватает на 2–3 месяца. Не на один. На два-три.

Альтернатива: OpenCode Go за $10/мес – bundle из GLM 5.1, Kimi K2.5, MiniMax M2.7, Mimo V2Pro.

Как повторить: один prompt#

Откройте терминал. Запустите Claude Code:

1
claude

Вставьте:

1
Настрой мой OpenClaw сервер с 7-слойной AI-архитектурой:
2

3
1. MODEL ROUTING — каскад:
4
   Primary: openrouter/minimax/minimax-m2.7
5
   Fallbacks (в порядке приоритета):
6
   - openrouter/z-ai/glm-5.1
7
   - openrouter/deepseek/deepseek-v3.2
8
   - nvidia/stepfun-ai/step-3.5-flash
9
   - nvidia/minimaxai/minimax-m2.5
10
   - modal/zai-org/GLM-5.1-FP8
11

12
2. CRON JOBS — все enabled crons:
13
   model: nvidia/stepfun-ai/step-3.5-flash (free)
14

15
3. DEFAULTS (heartbeat, hooks):
16
   primary: nvidia/stepfun-ai/step-3.5-flash
17

18
4. LCM CONFIG (plugins.entries.lossless-claw):
19
   summaryModel: nvidia/qwen/qwen3.5-122b-a10b
20
   contextThreshold: 0.6
21
   freshTailCount: 24
22

23
5. SOUL.md — добавь MODEL ROUTING секцию:
24
   - Primary: M2.7, стоимость turn ~$0.003
25
   - Fallback chain описание
26
   - Delegation rules: код=fallback сам, research=parallel,
27
     opus=только по !opus
28
   - Self-improvement: mistakes.md + lessons.md
29

30
6. 5-LAYER MEMORY — создай memory/L1_INDEX.md:
31
   - Identity, model info, bootstrap sequence
32
   - 5 layers: L1 always, L2 active, L3 on-demand,
33
     L4 archive, L5 shared
34

35
7. OPENSPACE (опционально, требует Python 3.12+):
36
   git clone https://github.com/HKUDS/OpenSpace.git ~/OpenSpace
37
   cd ~/OpenSpace && python3.12 -m venv .venv
38
   source .venv/bin/activate && pip install -e .
39
   cp -r openspace/host_skills/delegate-task/ ~/.openclaw/workspace/skills/
40
   cp -r openspace/host_skills/skill-discovery/ ~/.openclaw/workspace/skills/
41
   openclaw mcp set openspace '{"url":"http://127.0.0.1:8081/mcp","transport":"streamable-http"}'
42

43
8. CRON JOBS — создай два новых:
44
   - AI Landscape Monitor: Monday 09:00, free model,
45
     проверяет OpenRouter API на новые модели и цены
46
   - Autocontext Analysis: Friday 22:00, free model,
47
     анализирует model performance за неделю
48

49
Валидируй JSON. Рестартуй gateway. Проверь что всё работает.

Нажмите Enter. Claude Code сделает остальное.

Это не просто настройка. Это система.#

Обычный AI-агент – это чат-бот с памятью. То, что мы построили – самоулучшающаяся система с шестью fallback-моделями, пятью слоями памяти, еженедельным self-review и эволюционирующими навыками.

Стоит $10 в месяц. Работает 24/7. Становится лучше каждую неделю.

Нужна помощь с настройкой? Напишите мне – подключусь и настрою.