AI-модели для агентов: живой гайд – что реально работает в 2026

TIP
Это живая статья. Я обновляю её по мере того, как ландшафт меняется – появляются новые модели, меняются цены, падают провайдеры. Последнее обновление: 11 апреля 2026. Заходите периодически – здесь всегда свежая картина.

Я запускаю мультиагентную AI-систему 24/7. Через неё проходит 2-3 миллиона токенов в день. Вот что я использую, что рекомендую, и от чего держусь подальше.

Что произошло с Anthropic#

Четвёртого апреля 2026 года Anthropic отключил доступ к моделям Claude для всех сторонних приложений. OpenClaw, Cursor, OpenCode – всё, что использовало подписку Claude Pro или Max через OAuth, перестало работать.

Работало так: вы платили подписку Claude ($20–$200 в месяц). OpenClaw использовал те же модели через OAuth. Подписка покрывала всё – и чат, и сервер.

Теперь подписка работает только в продуктах Anthropic. Claude.ai, Claude Code, Claude Desktop. Точка.

WARNING
“LLM request rejected: Third-party apps now draw from your extra usage, not your plan limits.”

Почему? Арбитраж. Подписка за 200 долларов покрывала нагрузки на 1,000–5,000 долларов. Агентские петли потребляют в 5–25 раз больше токенов, чем обычный чат. Математика не сходилась.

Но знаете что? Альтернативы к апрелю 2026 стали настолько хороши, что бан Anthropic – это скорее освобождение от vendor lock-in, чем проблема.

Qwen 3.6 Plus вышел за два дня до бана#

2 апреля Alibaba выпустила Qwen 3.6 Plus. Бесплатную модель с миллионом токенов контекста. Четвёртого апреля Anthropic закрыл OAuth. Совпадение? Может быть. Но рынок отреагировал моментально.

Статистика OpenRouter – крупнейшей платформы маршрутизации AI-моделей:

Программирование: Qwen занял 84%.

Qwen доминирует в программировании на OpenRouter — 83.7% всех запросов

Не опечатка. 83.7% всех запросов на программирование идут через Qwen. Claude – в хвосте.

Технологии – 67%. Аналитика – 55%. Русский язык – тоже первое место.

Qwen в категории Technology — 67.3% рынка

Qwen лидирует в русскоязычном сегменте OpenRouter

Люди не “пробуют” Qwen. Они переехали. 84% – это миграция, не тест.

Мой текущий стек#

Два слоя. Два провайдера. Ничего лишнего.

Claude Code – хирург#

Claude Code (CLI от Anthropic) – для разработки, починки, SSH-management. Claude Opus 4.6, 1M контекст. Прямой API. Это мой внешний инструмент который чинит всё остальное. Подробнее – в секции “Почему боты не могут чинить себя”.

OpenClaw – операционный партнёр#

AI-платформа, gateway + мультиагент. Работает 24/7 через Telegram + Discord. Модели – только NVIDIA NIM + OpenRouter. Anthropic отключён полностью.

Два провайдера – и хватит#

После экспериментов с 8 провайдерами (Anthropic, OpenAI, Groq, Perplexity, Gemini, DashScope, Baseten, OpenRouter) я пришёл к выводу: двух хватает. Любые два, которые дают diversity of failure domains + достаточный coverage моделей.

Провайдер	Что даёт	Free tier	Rate limit
OpenRouter	350+ моделей, unified API, fallback routing	~30 free models	~20–50 req/min per free model
NVIDIA NIM	189 моделей, hosted inference, direct API	Все бесплатно (personal tier)	40 req/min global per key

Зачем именно эти два? OpenRouter – агрегатор с largest free selection и быстрыми моделями (Gemini 3 Flash = 5s TTFT). NVIDIA NIM – совершенно отдельный failure domain с другим auth, другими серверами, другой инфраструктурой. Когда OpenRouter лежит – NVIDIA работает. И наоборот. Вот и вся стратегия.

Бесплатные модели которые реально работают#

Протестировано в production на реальных задачах. Апрель 2026.

Быстрые (TTFT < 20s, для 80% routine задач)#

Модель	Провайдер	Контекст	TTFT	Фишка
`google/gemini-3-flash-preview`	OpenRouter	1M	5s	Vision + 1M ctx. Чемпион скорости. Мой primary.
`minimax/minimax-m2.5:free`	OpenRouter	196K	17–49s	Стабильный workhorse, хороший русский.
`qwen/qwen3-next-80b-a3b-instruct:free`	OpenRouter	262K	~20s	MoE 80B, длинный контекст.

Reasoning (для сложных задач)#

Модель	Провайдер	Контекст	Фишка
`nvidia/nemotron-3-super-120b-a12b`	NVIDIA NIM	262K	Free, thinking model. Deep research.
`deepseek/deepseek-v3.2`	OpenRouter / NVIDIA	164K	$0.26/1M – дёшево + strong reasoning.
`qwen/qwen3.6-plus`	OpenRouter	1M	$0.33/1M, 1M контекст. Мой paid fallback.

Vision (мультимодальные)#

Модель	Провайдер	Контекст	Фишка
`google/gemini-3-flash-preview`	OpenRouter	1M	Fastest vision free. 5s TTFT.
`nvidia/nemotron-nano-12b-v2-vl`	NVIDIA NIM	128K	Маленькая vision, free, быстрая.

Code#

Модель	Провайдер	Контекст	Фишка
`qwen/qwen3-coder:free`	OpenRouter	262K	Code-tuned Qwen. Бесплатно.
`nvidia/usdcode-llama-3.1-70b-instruct`	NVIDIA NIM	—	Specialized code Q&A, 70B.

NOTE
NVIDIA NIM = 189 моделей бесплатно – это не опечатка. Персональный ключ (получить за 30 секунд на build.nvidia.com) даёт доступ ко всему каталогу. Лимит 40 req/min – но для большинства use cases хватает. Yi, Jamba, Llama 4, Mistral Large 3 675B, DeepSeek v3.2 hosted, Kimi K2 Thinking – всё бесплатно.

Архитектура роутинга#

Главная идея: не все задачи требуют premium модель. 80% запросов – рутина (cron health checks, короткие ответы, reminder’ы, simple Q&A). Они прекрасно идут через бесплатную модель. Оставшиеся 20% – deep research, multi-step reasoning, content generation – заслуживают paid Qwen 3.6 Plus.

Primary + Fallback Cascade#

1
PRIMARY: google/gemini-3-flash-preview    ← FREE, 1M ctx, 5s TTFT, vision
2

3
Fallback cascade (auto on errors):
4
  FB1: minimax/minimax-m2.5:free          ← FREE, 196K, good Russian
5
  FB2: qwen/qwen3-next-80b-a3b:free      ← FREE, 262K, MoE
6
  FB3: deepseek/deepseek-v3.2             ← $0.26/1M, strong reasoning
7
  FB4: nvidia/nemotron-3-super-120b-a12b  ← DIRECT NVIDIA, free, 120B thinking
8
  FB5: qwen/qwen3.6-plus                 ← $0.33/1M, 1M ctx, PAID LAST RESORT

Принцип: каждая ступень – другой провайдер/вендор. Gemini (Google) → MiniMax → Qwen (Alibaba) → DeepSeek → NVIDIA → Qwen paid. Пять независимых failure domains. Если один падает – cascade автоматически перепрыгивает.

Специализированные агенты#

Вместо “одна модель для всего” – 4 отдельных агента:

Агент	Задача	Модель	Стоимость
`fast`	Cron, healthchecks, быстрые ответы	minimax-m2.5	$0
`research`	Deep research, OSINT, multi-step reasoning	qwen/qwen3.6-plus (1M ctx)	$0.33/1M
`vision`	Фото, screenshots, image analysis	gemini-3-flash-preview	$0
`code`	Код, конфиги, техническая отладка	qwen3-coder	$0

Цифры#

Реальные данные из production системы. Измерено 11 апреля 2026.

Стоимость#

Сценарий	Если ВСЁ через Qwen paid	С routing (80% free)	Экономия
Реальный объём (2.66M tok/день)	$29.31/мес	$5.86/мес	$23/мес ($281/год) – 80%
Средний агент (1M tok/день)	$15.60/мес	$3.12/мес	$12/мес ($150/год) – 80%
Тяжёлый агент (10M tok/день)	$156/мес	$31.20/мес	$125/мес ($1500/год) – 80%

Live benchmark (все tier’ы)#

Tier	Модель	Latency	Math test	Цена
default (full context)	Gemini 3 Flash	63s (32K bootstrap)	✅ 33	$0
fast	MiniMax M2.5 free	49s	✅ 33	$0
research (paid)	Qwen 3.6 Plus	25s	✅ 33	$0.33
vision	Gemini 3 Flash (light ctx)	17s	✅ 33	$0
code	Qwen Coder free	29s	✅ 33	$0

NOTE
63s default vs 17s vision – оба используют Gemini 3 Flash. Разница 46 секунд – это “memory tax”: default agent загружает 32K токенов bootstrap (SOUL, MEMORY, HEARTBEAT, skills). Vision – с лёгким контекстом. Если нужно снизить latency default’а до 17s – нужно pruning bootstrap до ~8K.

Красные флаги#

Вещи которые выглядят рабочими, но которые реально сломают production.

Groq llama-3.3-70b free tier. TPM лимит = 12,000 токенов/мин. Bootstrap вашего агента = 32K-60K. 32K > 12K → 413 Request Too Large → cascade failure. Я видел 226 FailoverError’ов за 24 часа из-за этого. Groq free – только для микро-задач без bootstrap.

Anthropic через OpenRouter. Haiku 4.5 через OR = $1.00/1M tokens. MiniMax M2.5= $0. Haiku в 3-10 раз дороже альтернатив сопоставимого качества.

stepfun/step-3.5-flash. Deprecated. Endpoint возвращает 404. 24 ошибки в день если он в вашем cascade.

arcee-ai/trinity-large-preview. Дублирует и переставляет данные в output. Визуально OK, фактически – мусор. Только как последний fallback, если вообще.

WARNING
Secrets в openclaw.json / systemd unit. Команда openclaw gateway install хардкодит ВСЕ env-переменные в systemd unit (Linux) или launchd plist (macOS). Все API ключи видны в journalctl, в systemctl show, в backup’ах. Всегда используйте EnvironmentFile= и ${VAR} substitution.

Agency & Swarm Patterns#

Когда задача слишком сложна для одной модели – используйте агентную архитектуру.

Agency vs Single Agent#

Single agent = одна модель, один контекст, линейное решение. Быстро, дешёво, подходит для 80% задач.

Agency = оркестрация нескольких агентов с разными ролями. Планировщик ставит задачу → исполнители делают → ревьюер проверяет → фиксер чинит. Как настоящая команда. Каждый со своим контекстным окном. Для тяжёлых задач – резко лучше.

Red Team Verification#

“Ломай собственное решение чтобы найти баги.”

Классический dev: “написал – проверил что работает”. Red Team: “написал – попробовал сломать 7 разных способов”. В этой сессии я запускал 3 параллельных Red Team агента, каждый с разным углом: cost analysis, routing health, provider cleanliness. Они нашли реальные проблемы которые single check пропустил бы.

Observer Effect#

Важный урок: diagnostic agents – это тоже нагрузка на систему. Когда я запустил 3 subagent’а параллельно, каждый делал 5-10 LLM calls через gateway. Gateway rate-limit’ился, cascade fallback’ился – и subagent’ы рапортовали “система degraded!” – хотя деградация была ими же вызвана. Урок: строго no-gateway rule для diagnostic agents. Мерь через файлы и external APIs, не через production endpoint.

Почему боты не могут чинить себя сами {#pochemu-boty-ne-mogut-chinit-sebja}#

Это, пожалуй, главный урок из всей работы.

Один из наших операторов попросил своего бота: “проверь что с тобой не так, почини себя”. Бот не смог. Вот почему:

1
1. Бот получает запрос "почини себя"
2
2. Gateway загружает bootstrap context = 60,000 tokens
3
3. Primary модель rate-limited (Anthropic banned)
4
4. Fallback → Groq llama free tier
5
5. Groq TPM limit = 12,000 tokens
6
6. 60K > 12K → 413 Request Too Large → FAIL
7
7. Next fallback → тоже rate limited → FAIL
8
8. ∞ retry loop → timeout → session dead

Это рекурсивная ловушка. Чтобы бот мог себя починить, ему надо загрузить свою собственную память. Но если проблема именно в загрузке памяти – он физически не может дойти до этапа диагностики.

Аналогия: пациент пытается оперировать себя под наркозом. Инструмент диагностики – тоже сломан, потому что он часть той же системы.

Решение: внешний хирург. Claude Code (direct Anthropic API, 1M context, не зависит от gateway). SSH прямо на сервер. Не грузит agent memory. Не проходит через cascade. Один робот чинит другого робота.

TIP
Правило: Никогда не просите бота починить себя через себя. Для self-repair используйте внешний инструмент: Claude Code, CLI (systemctl, openclaw doctor), curl, SSH. Бот = ваш operational partner (делает работу). Не support engineer (чинит себя).

Инструменты и ссылки#

OpenClaw – мультиагентная AI-платформа. Gateway + роутинг + память.
Claude Code – CLI-агент от Anthropic. Opus 4.6, 1M context.
NVIDIA NIM – 189 бесплатных моделей. Ключ за 30 секунд.
OpenRouter – 350+ моделей, unified API, ~30 free models.

Changelog#

2026-04-11 – Полная переработка статьи. Добавлено: NVIDIA NIM (22 модели), архитектура routing (primary + 5 fallback cascade), 4 специализированных агента (fast/research/vision/code), live benchmark всех tier’ов, секция “самопочинка не работает”, Red Team patterns, Observer Effect, красные флаги (Groq/stepfun/trinity/secrets), реальные цифры стоимости в 3 сценариях.

2026-04-07 – Первая публикация. Anthropic ban, Qwen 3.6 Plus как замена, пошаговая миграция.

Следующее обновление: по мере изменения ландшафта моделей.

AI-модели для агентов: живой гайд – что реально работает в 2026

Что произошло с Anthropic#

Qwen 3.6 Plus вышел за два дня до бана#

Мой текущий стек#

Claude Code – хирург#

OpenClaw – операционный партнёр#

Два провайдера – и хватит#

Бесплатные модели которые реально работают#

Быстрые (TTFT < 20s, для 80% routine задач)#

Reasoning (для сложных задач)#

Vision (мультимодальные)#

Code#

Архитектура роутинга#

Primary + Fallback Cascade#

Специализированные агенты#

Цифры#

Стоимость#

Live benchmark (все tier’ы)#

Красные флаги#

Agency & Swarm Patterns#

Agency vs Single Agent#

Red Team Verification#

Observer Effect#

Почему боты не могут чинить себя сами {#pochemu-boty-ne-mogut-chinit-sebja}#

Инструменты и ссылки#

Changelog#

Читайте также