AI-модели для агентов: живой гайд – что реально работает в 2026

7 минут
TIP

Это живая статья. Я обновляю её по мере того, как ландшафт меняется – появляются новые модели, меняются цены, падают провайдеры. Последнее обновление: 11 апреля 2026. Заходите периодически – здесь всегда свежая картина.

Я запускаю мультиагентную AI-систему 24/7. Через неё проходит 2-3 миллиона токенов в день. Вот что я использую, что рекомендую, и от чего держусь подальше.

Что произошло с Anthropic#

Четвёртого апреля 2026 года Anthropic отключил доступ к моделям Claude для всех сторонних приложений. OpenClaw, Cursor, OpenCode – всё, что использовало подписку Claude Pro или Max через OAuth, перестало работать.

Работало так: вы платили подписку Claude ($20–$200 в месяц). OpenClaw использовал те же модели через OAuth. Подписка покрывала всё – и чат, и сервер.

Теперь подписка работает только в продуктах Anthropic. Claude.ai, Claude Code, Claude Desktop. Точка.

WARNING

“LLM request rejected: Third-party apps now draw from your extra usage, not your plan limits.”

Почему? Арбитраж. Подписка за 200 долларов покрывала нагрузки на 1,000–5,000 долларов. Агентские петли потребляют в 5–25 раз больше токенов, чем обычный чат. Математика не сходилась.

Но знаете что? Альтернативы к апрелю 2026 стали настолько хороши, что бан Anthropic – это скорее освобождение от vendor lock-in, чем проблема.

Qwen 3.6 Plus вышел за два дня до бана#

2 апреля Alibaba выпустила Qwen 3.6 Plus. Бесплатную модель с миллионом токенов контекста. Четвёртого апреля Anthropic закрыл OAuth. Совпадение? Может быть. Но рынок отреагировал моментально.

Статистика OpenRouter – крупнейшей платформы маршрутизации AI-моделей:

Программирование: Qwen занял 84%.

Qwen доминирует в программировании на OpenRouter — 83.7% всех запросов

Не опечатка. 83.7% всех запросов на программирование идут через Qwen. Claude – в хвосте.

Технологии – 67%. Аналитика – 55%. Русский язык – тоже первое место.

Qwen в категории Technology — 67.3% рынка

Qwen лидирует в русскоязычном сегменте OpenRouter

Люди не “пробуют” Qwen. Они переехали. 84% – это миграция, не тест.


Мой текущий стек#

Два слоя. Два провайдера. Ничего лишнего.

Claude Code – хирург#

Claude Code (CLI от Anthropic) – для разработки, починки, SSH-management. Claude Opus 4.6, 1M контекст. Прямой API. Это мой внешний инструмент который чинит всё остальное. Подробнее – в секции “Почему боты не могут чинить себя”.

OpenClaw – операционный партнёр#

AI-платформа, gateway + мультиагент. Работает 24/7 через Telegram + Discord. Модели – только NVIDIA NIM + OpenRouter. Anthropic отключён полностью.

Два провайдера – и хватит#

После экспериментов с 8 провайдерами (Anthropic, OpenAI, Groq, Perplexity, Gemini, DashScope, Baseten, OpenRouter) я пришёл к выводу: двух хватает. Любые два, которые дают diversity of failure domains + достаточный coverage моделей.

ПровайдерЧто даётFree tierRate limit
OpenRouter350+ моделей, unified API, fallback routing~30 free models~20–50 req/min per free model
NVIDIA NIM189 моделей, hosted inference, direct APIВсе бесплатно (personal tier)40 req/min global per key

Зачем именно эти два? OpenRouter – агрегатор с largest free selection и быстрыми моделями (Gemini 3 Flash = 5s TTFT). NVIDIA NIM – совершенно отдельный failure domain с другим auth, другими серверами, другой инфраструктурой. Когда OpenRouter лежит – NVIDIA работает. И наоборот. Вот и вся стратегия.


Бесплатные модели которые реально работают#

Протестировано в production на реальных задачах. Апрель 2026.

Быстрые (TTFT < 20s, для 80% routine задач)#

МодельПровайдерКонтекстTTFTФишка
google/gemini-3-flash-previewOpenRouter1M5sVision + 1M ctx. Чемпион скорости. Мой primary.
minimax/minimax-m2.5:freeOpenRouter196K17–49sСтабильный workhorse, хороший русский.
qwen/qwen3-next-80b-a3b-instruct:freeOpenRouter262K~20sMoE 80B, длинный контекст.

Reasoning (для сложных задач)#

МодельПровайдерКонтекстФишка
nvidia/nemotron-3-super-120b-a12bNVIDIA NIM262KFree, thinking model. Deep research.
deepseek/deepseek-v3.2OpenRouter / NVIDIA164K$0.26/1M – дёшево + strong reasoning.
qwen/qwen3.6-plusOpenRouter1M$0.33/1M, 1M контекст. Мой paid fallback.

Vision (мультимодальные)#

МодельПровайдерКонтекстФишка
google/gemini-3-flash-previewOpenRouter1MFastest vision free. 5s TTFT.
nvidia/nemotron-nano-12b-v2-vlNVIDIA NIM128KМаленькая vision, free, быстрая.

Code#

МодельПровайдерКонтекстФишка
qwen/qwen3-coder:freeOpenRouter262KCode-tuned Qwen. Бесплатно.
nvidia/usdcode-llama-3.1-70b-instructNVIDIA NIMSpecialized code Q&A, 70B.
NOTE

NVIDIA NIM = 189 моделей бесплатно – это не опечатка. Персональный ключ (получить за 30 секунд на build.nvidia.com) даёт доступ ко всему каталогу. Лимит 40 req/min – но для большинства use cases хватает. Yi, Jamba, Llama 4, Mistral Large 3 675B, DeepSeek v3.2 hosted, Kimi K2 Thinking – всё бесплатно.


Архитектура роутинга#

Главная идея: не все задачи требуют premium модель. 80% запросов – рутина (cron health checks, короткие ответы, reminder’ы, simple Q&A). Они прекрасно идут через бесплатную модель. Оставшиеся 20% – deep research, multi-step reasoning, content generation – заслуживают paid Qwen 3.6 Plus.

Primary + Fallback Cascade#

PRIMARY: google/gemini-3-flash-preview ← FREE, 1M ctx, 5s TTFT, vision
Fallback cascade (auto on errors):
FB1: minimax/minimax-m2.5:free ← FREE, 196K, good Russian
FB2: qwen/qwen3-next-80b-a3b:free ← FREE, 262K, MoE
FB3: deepseek/deepseek-v3.2 ← $0.26/1M, strong reasoning
FB4: nvidia/nemotron-3-super-120b-a12b ← DIRECT NVIDIA, free, 120B thinking
FB5: qwen/qwen3.6-plus ← $0.33/1M, 1M ctx, PAID LAST RESORT

Принцип: каждая ступень – другой провайдер/вендор. Gemini (Google) → MiniMax → Qwen (Alibaba) → DeepSeek → NVIDIA → Qwen paid. Пять независимых failure domains. Если один падает – cascade автоматически перепрыгивает.

Специализированные агенты#

Вместо “одна модель для всего” – 4 отдельных агента:

АгентЗадачаМодельСтоимость
fastCron, healthchecks, быстрые ответыminimax-m2.5$0
researchDeep research, OSINT, multi-step reasoningqwen/qwen3.6-plus (1M ctx)$0.33/1M
visionФото, screenshots, image analysisgemini-3-flash-preview$0
codeКод, конфиги, техническая отладкаqwen3-coder$0

Цифры#

Реальные данные из production системы. Измерено 11 апреля 2026.

Стоимость#

СценарийЕсли ВСЁ через Qwen paidС routing (80% free)Экономия
Реальный объём (2.66M tok/день)$29.31/мес$5.86/мес$23/мес ($281/год) – 80%
Средний агент (1M tok/день)$15.60/мес$3.12/мес$12/мес ($150/год) – 80%
Тяжёлый агент (10M tok/день)$156/мес$31.20/мес$125/мес ($1500/год) – 80%

Live benchmark (все tier’ы)#

TierМодельLatencyMath testЦена
default (full context)Gemini 3 Flash63s (32K bootstrap)✅ 33$0
fastMiniMax M2.5 free49s✅ 33$0
research (paid)Qwen 3.6 Plus25s✅ 33$0.33
visionGemini 3 Flash (light ctx)17s✅ 33$0
codeQwen Coder free29s✅ 33$0
NOTE

63s default vs 17s vision – оба используют Gemini 3 Flash. Разница 46 секунд – это “memory tax”: default agent загружает 32K токенов bootstrap (SOUL, MEMORY, HEARTBEAT, skills). Vision – с лёгким контекстом. Если нужно снизить latency default’а до 17s – нужно pruning bootstrap до ~8K.


Красные флаги#

Вещи которые выглядят рабочими, но которые реально сломают production.

Groq llama-3.3-70b free tier. TPM лимит = 12,000 токенов/мин. Bootstrap вашего агента = 32K-60K. 32K > 12K → 413 Request Too Large → cascade failure. Я видел 226 FailoverError’ов за 24 часа из-за этого. Groq free – только для микро-задач без bootstrap.

Anthropic через OpenRouter. Haiku 4.5 через OR = $1.00/1M tokens. MiniMax M2.5= $0. Haiku в 3-10 раз дороже альтернатив сопоставимого качества.

stepfun/step-3.5-flash. Deprecated. Endpoint возвращает 404. 24 ошибки в день если он в вашем cascade.

arcee-ai/trinity-large-preview. Дублирует и переставляет данные в output. Визуально OK, фактически – мусор. Только как последний fallback, если вообще.

WARNING

Secrets в openclaw.json / systemd unit. Команда openclaw gateway install хардкодит ВСЕ env-переменные в systemd unit (Linux) или launchd plist (macOS). Все API ключи видны в journalctl, в systemctl show, в backup’ах. Всегда используйте EnvironmentFile= и ${VAR} substitution.


Agency & Swarm Patterns#

Когда задача слишком сложна для одной модели – используйте агентную архитектуру.

Agency vs Single Agent#

Single agent = одна модель, один контекст, линейное решение. Быстро, дешёво, подходит для 80% задач.

Agency = оркестрация нескольких агентов с разными ролями. Планировщик ставит задачу → исполнители делают → ревьюер проверяет → фиксер чинит. Как настоящая команда. Каждый со своим контекстным окном. Для тяжёлых задач – резко лучше.

Red Team Verification#

“Ломай собственное решение чтобы найти баги.”

Классический dev: “написал – проверил что работает”. Red Team: “написал – попробовал сломать 7 разных способов”. В этой сессии я запускал 3 параллельных Red Team агента, каждый с разным углом: cost analysis, routing health, provider cleanliness. Они нашли реальные проблемы которые single check пропустил бы.

Observer Effect#

Важный урок: diagnostic agents – это тоже нагрузка на систему. Когда я запустил 3 subagent’а параллельно, каждый делал 5-10 LLM calls через gateway. Gateway rate-limit’ился, cascade fallback’ился – и subagent’ы рапортовали “система degraded!” – хотя деградация была ими же вызвана. Урок: строго no-gateway rule для diagnostic agents. Мерь через файлы и external APIs, не через production endpoint.


Почему боты не могут чинить себя сами {#pochemu-boty-ne-mogut-chinit-sebja}#

Это, пожалуй, главный урок из всей работы.

Один из наших операторов попросил своего бота: “проверь что с тобой не так, почини себя”. Бот не смог. Вот почему:

1. Бот получает запрос "почини себя"
2. Gateway загружает bootstrap context = 60,000 tokens
3. Primary модель rate-limited (Anthropic banned)
4. Fallback → Groq llama free tier
5. Groq TPM limit = 12,000 tokens
6. 60K > 12K → 413 Request Too Large → FAIL
7. Next fallback → тоже rate limited → FAIL
8. ∞ retry loop → timeout → session dead

Это рекурсивная ловушка. Чтобы бот мог себя починить, ему надо загрузить свою собственную память. Но если проблема именно в загрузке памяти – он физически не может дойти до этапа диагностики.

Аналогия: пациент пытается оперировать себя под наркозом. Инструмент диагностики – тоже сломан, потому что он часть той же системы.

Решение: внешний хирург. Claude Code (direct Anthropic API, 1M context, не зависит от gateway). SSH прямо на сервер. Не грузит agent memory. Не проходит через cascade. Один робот чинит другого робота.

TIP

Правило: Никогда не просите бота починить себя через себя. Для self-repair используйте внешний инструмент: Claude Code, CLI (systemctl, openclaw doctor), curl, SSH. Бот = ваш operational partner (делает работу). Не support engineer (чинит себя).


Инструменты и ссылки#

  • OpenClaw – мультиагентная AI-платформа. Gateway + роутинг + память.
  • Claude Code – CLI-агент от Anthropic. Opus 4.6, 1M context.
  • NVIDIA NIM – 189 бесплатных моделей. Ключ за 30 секунд.
  • OpenRouter – 350+ моделей, unified API, ~30 free models.

Changelog#

2026-04-11 – Полная переработка статьи. Добавлено: NVIDIA NIM (22 модели), архитектура routing (primary + 5 fallback cascade), 4 специализированных агента (fast/research/vision/code), live benchmark всех tier’ов, секция “самопочинка не работает”, Red Team patterns, Observer Effect, красные флаги (Groq/stepfun/trinity/secrets), реальные цифры стоимости в 3 сценариях.

2026-04-07 – Первая публикация. Anthropic ban, Qwen 3.6 Plus как замена, пошаговая миграция.

Следующее обновление: по мере изменения ландшафта моделей.

Поделиться Share