AI-модели для агентов: живой гайд – что реально работает в 2026
TIPЭто живая статья. Я обновляю её по мере того, как ландшафт меняется – появляются новые модели, меняются цены, падают провайдеры. Последнее обновление: 11 апреля 2026. Заходите периодически – здесь всегда свежая картина.
Я запускаю мультиагентную AI-систему 24/7. Через неё проходит 2-3 миллиона токенов в день. Вот что я использую, что рекомендую, и от чего держусь подальше.
Что произошло с Anthropic
Четвёртого апреля 2026 года Anthropic отключил доступ к моделям Claude для всех сторонних приложений. OpenClaw, Cursor, OpenCode – всё, что использовало подписку Claude Pro или Max через OAuth, перестало работать.
Работало так: вы платили подписку Claude ($20–$200 в месяц). OpenClaw использовал те же модели через OAuth. Подписка покрывала всё – и чат, и сервер.
Теперь подписка работает только в продуктах Anthropic. Claude.ai, Claude Code, Claude Desktop. Точка.
WARNING“LLM request rejected: Third-party apps now draw from your extra usage, not your plan limits.”
Почему? Арбитраж. Подписка за 200 долларов покрывала нагрузки на 1,000–5,000 долларов. Агентские петли потребляют в 5–25 раз больше токенов, чем обычный чат. Математика не сходилась.
Но знаете что? Альтернативы к апрелю 2026 стали настолько хороши, что бан Anthropic – это скорее освобождение от vendor lock-in, чем проблема.
Qwen 3.6 Plus вышел за два дня до бана
2 апреля Alibaba выпустила Qwen 3.6 Plus. Бесплатную модель с миллионом токенов контекста. Четвёртого апреля Anthropic закрыл OAuth. Совпадение? Может быть. Но рынок отреагировал моментально.
Статистика OpenRouter – крупнейшей платформы маршрутизации AI-моделей:
Программирование: Qwen занял 84%.

Не опечатка. 83.7% всех запросов на программирование идут через Qwen. Claude – в хвосте.
Технологии – 67%. Аналитика – 55%. Русский язык – тоже первое место.


Люди не “пробуют” Qwen. Они переехали. 84% – это миграция, не тест.
Мой текущий стек
Два слоя. Два провайдера. Ничего лишнего.
Claude Code – хирург
Claude Code (CLI от Anthropic) – для разработки, починки, SSH-management. Claude Opus 4.6, 1M контекст. Прямой API. Это мой внешний инструмент который чинит всё остальное. Подробнее – в секции “Почему боты не могут чинить себя”.
OpenClaw – операционный партнёр
AI-платформа, gateway + мультиагент. Работает 24/7 через Telegram + Discord. Модели – только NVIDIA NIM + OpenRouter. Anthropic отключён полностью.
Два провайдера – и хватит
После экспериментов с 8 провайдерами (Anthropic, OpenAI, Groq, Perplexity, Gemini, DashScope, Baseten, OpenRouter) я пришёл к выводу: двух хватает. Любые два, которые дают diversity of failure domains + достаточный coverage моделей.
| Провайдер | Что даёт | Free tier | Rate limit |
|---|---|---|---|
| OpenRouter | 350+ моделей, unified API, fallback routing | ~30 free models | ~20–50 req/min per free model |
| NVIDIA NIM | 189 моделей, hosted inference, direct API | Все бесплатно (personal tier) | 40 req/min global per key |
Зачем именно эти два? OpenRouter – агрегатор с largest free selection и быстрыми моделями (Gemini 3 Flash = 5s TTFT). NVIDIA NIM – совершенно отдельный failure domain с другим auth, другими серверами, другой инфраструктурой. Когда OpenRouter лежит – NVIDIA работает. И наоборот. Вот и вся стратегия.
Бесплатные модели которые реально работают
Протестировано в production на реальных задачах. Апрель 2026.
Быстрые (TTFT < 20s, для 80% routine задач)
| Модель | Провайдер | Контекст | TTFT | Фишка |
|---|---|---|---|---|
google/gemini-3-flash-preview | OpenRouter | 1M | 5s | Vision + 1M ctx. Чемпион скорости. Мой primary. |
minimax/minimax-m2.5:free | OpenRouter | 196K | 17–49s | Стабильный workhorse, хороший русский. |
qwen/qwen3-next-80b-a3b-instruct:free | OpenRouter | 262K | ~20s | MoE 80B, длинный контекст. |
Reasoning (для сложных задач)
| Модель | Провайдер | Контекст | Фишка |
|---|---|---|---|
nvidia/nemotron-3-super-120b-a12b | NVIDIA NIM | 262K | Free, thinking model. Deep research. |
deepseek/deepseek-v3.2 | OpenRouter / NVIDIA | 164K | $0.26/1M – дёшево + strong reasoning. |
qwen/qwen3.6-plus | OpenRouter | 1M | $0.33/1M, 1M контекст. Мой paid fallback. |
Vision (мультимодальные)
| Модель | Провайдер | Контекст | Фишка |
|---|---|---|---|
google/gemini-3-flash-preview | OpenRouter | 1M | Fastest vision free. 5s TTFT. |
nvidia/nemotron-nano-12b-v2-vl | NVIDIA NIM | 128K | Маленькая vision, free, быстрая. |
Code
| Модель | Провайдер | Контекст | Фишка |
|---|---|---|---|
qwen/qwen3-coder:free | OpenRouter | 262K | Code-tuned Qwen. Бесплатно. |
nvidia/usdcode-llama-3.1-70b-instruct | NVIDIA NIM | — | Specialized code Q&A, 70B. |
NOTENVIDIA NIM = 189 моделей бесплатно – это не опечатка. Персональный ключ (получить за 30 секунд на build.nvidia.com) даёт доступ ко всему каталогу. Лимит 40 req/min – но для большинства use cases хватает. Yi, Jamba, Llama 4, Mistral Large 3 675B, DeepSeek v3.2 hosted, Kimi K2 Thinking – всё бесплатно.
Архитектура роутинга
Главная идея: не все задачи требуют premium модель. 80% запросов – рутина (cron health checks, короткие ответы, reminder’ы, simple Q&A). Они прекрасно идут через бесплатную модель. Оставшиеся 20% – deep research, multi-step reasoning, content generation – заслуживают paid Qwen 3.6 Plus.
Primary + Fallback Cascade
PRIMARY: google/gemini-3-flash-preview ← FREE, 1M ctx, 5s TTFT, vision
Fallback cascade (auto on errors): FB1: minimax/minimax-m2.5:free ← FREE, 196K, good Russian FB2: qwen/qwen3-next-80b-a3b:free ← FREE, 262K, MoE FB3: deepseek/deepseek-v3.2 ← $0.26/1M, strong reasoning FB4: nvidia/nemotron-3-super-120b-a12b ← DIRECT NVIDIA, free, 120B thinking FB5: qwen/qwen3.6-plus ← $0.33/1M, 1M ctx, PAID LAST RESORTПринцип: каждая ступень – другой провайдер/вендор. Gemini (Google) → MiniMax → Qwen (Alibaba) → DeepSeek → NVIDIA → Qwen paid. Пять независимых failure domains. Если один падает – cascade автоматически перепрыгивает.
Специализированные агенты
Вместо “одна модель для всего” – 4 отдельных агента:
| Агент | Задача | Модель | Стоимость |
|---|---|---|---|
fast | Cron, healthchecks, быстрые ответы | minimax-m2.5 | $0 |
research | Deep research, OSINT, multi-step reasoning | qwen/qwen3.6-plus (1M ctx) | $0.33/1M |
vision | Фото, screenshots, image analysis | gemini-3-flash-preview | $0 |
code | Код, конфиги, техническая отладка | qwen3-coder | $0 |
Цифры
Реальные данные из production системы. Измерено 11 апреля 2026.
Стоимость
| Сценарий | Если ВСЁ через Qwen paid | С routing (80% free) | Экономия |
|---|---|---|---|
| Реальный объём (2.66M tok/день) | $29.31/мес | $5.86/мес | $23/мес ($281/год) – 80% |
| Средний агент (1M tok/день) | $15.60/мес | $3.12/мес | $12/мес ($150/год) – 80% |
| Тяжёлый агент (10M tok/день) | $156/мес | $31.20/мес | $125/мес ($1500/год) – 80% |
Live benchmark (все tier’ы)
| Tier | Модель | Latency | Math test | Цена |
|---|---|---|---|---|
| default (full context) | Gemini 3 Flash | 63s (32K bootstrap) | ✅ 33 | $0 |
| fast | MiniMax M2.5 free | 49s | ✅ 33 | $0 |
| research (paid) | Qwen 3.6 Plus | 25s | ✅ 33 | $0.33 |
| vision | Gemini 3 Flash (light ctx) | 17s | ✅ 33 | $0 |
| code | Qwen Coder free | 29s | ✅ 33 | $0 |
NOTE63s default vs 17s vision – оба используют Gemini 3 Flash. Разница 46 секунд – это “memory tax”: default agent загружает 32K токенов bootstrap (SOUL, MEMORY, HEARTBEAT, skills). Vision – с лёгким контекстом. Если нужно снизить latency default’а до 17s – нужно pruning bootstrap до ~8K.
Красные флаги
Вещи которые выглядят рабочими, но которые реально сломают production.
Groq llama-3.3-70b free tier. TPM лимит = 12,000 токенов/мин. Bootstrap вашего агента = 32K-60K. 32K > 12K → 413 Request Too Large → cascade failure. Я видел 226 FailoverError’ов за 24 часа из-за этого. Groq free – только для микро-задач без bootstrap.
Anthropic через OpenRouter. Haiku 4.5 через OR = $1.00/1M tokens. MiniMax M2.5
stepfun/step-3.5-flash
arcee-ai/trinity-large-preview
WARNINGSecrets в openclaw.json / systemd unit. Команда
openclaw gateway installхардкодит ВСЕ env-переменные в systemd unit (Linux) или launchd plist (macOS). Все API ключи видны в journalctl, в systemctl show, в backup’ах. Всегда используйтеEnvironmentFile=и${VAR}substitution.
Agency & Swarm Patterns
Когда задача слишком сложна для одной модели – используйте агентную архитектуру.
Agency vs Single Agent
Single agent = одна модель, один контекст, линейное решение. Быстро, дешёво, подходит для 80% задач.
Agency = оркестрация нескольких агентов с разными ролями. Планировщик ставит задачу → исполнители делают → ревьюер проверяет → фиксер чинит. Как настоящая команда. Каждый со своим контекстным окном. Для тяжёлых задач – резко лучше.
Red Team Verification
“Ломай собственное решение чтобы найти баги.”
Классический dev: “написал – проверил что работает”. Red Team: “написал – попробовал сломать 7 разных способов”. В этой сессии я запускал 3 параллельных Red Team агента, каждый с разным углом: cost analysis, routing health, provider cleanliness. Они нашли реальные проблемы которые single check пропустил бы.
Observer Effect
Важный урок: diagnostic agents – это тоже нагрузка на систему. Когда я запустил 3 subagent’а параллельно, каждый делал 5-10 LLM calls через gateway. Gateway rate-limit’ился, cascade fallback’ился – и subagent’ы рапортовали “система degraded!” – хотя деградация была ими же вызвана. Урок: строго no-gateway rule для diagnostic agents. Мерь через файлы и external APIs, не через production endpoint.
Почему боты не могут чинить себя сами {#pochemu-boty-ne-mogut-chinit-sebja}
Это, пожалуй, главный урок из всей работы.
Один из наших операторов попросил своего бота: “проверь что с тобой не так, почини себя”. Бот не смог. Вот почему:
1. Бот получает запрос "почини себя"2. Gateway загружает bootstrap context = 60,000 tokens3. Primary модель rate-limited (Anthropic banned)4. Fallback → Groq llama free tier5. Groq TPM limit = 12,000 tokens6. 60K > 12K → 413 Request Too Large → FAIL7. Next fallback → тоже rate limited → FAIL8. ∞ retry loop → timeout → session deadЭто рекурсивная ловушка. Чтобы бот мог себя починить, ему надо загрузить свою собственную память. Но если проблема именно в загрузке памяти – он физически не может дойти до этапа диагностики.
Аналогия: пациент пытается оперировать себя под наркозом. Инструмент диагностики – тоже сломан, потому что он часть той же системы.
Решение: внешний хирург. Claude Code (direct Anthropic API, 1M context, не зависит от gateway). SSH прямо на сервер. Не грузит agent memory. Не проходит через cascade. Один робот чинит другого робота.
TIPПравило: Никогда не просите бота починить себя через себя. Для self-repair используйте внешний инструмент: Claude Code, CLI (
systemctl,openclaw doctor), curl, SSH. Бот = ваш operational partner (делает работу). Не support engineer (чинит себя).
Инструменты и ссылки
- OpenClaw – мультиагентная AI-платформа. Gateway + роутинг + память.
- Claude Code – CLI-агент от Anthropic. Opus 4.6, 1M context.
- NVIDIA NIM – 189 бесплатных моделей. Ключ за 30 секунд.
- OpenRouter – 350+ моделей, unified API, ~30 free models.
Changelog
2026-04-11 – Полная переработка статьи. Добавлено: NVIDIA NIM (22 модели), архитектура routing (primary + 5 fallback cascade), 4 специализированных агента (fast/research/vision/code), live benchmark всех tier’ов, секция “самопочинка не работает”, Red Team patterns, Observer Effect, красные флаги (Groq/stepfun/trinity/secrets), реальные цифры стоимости в 3 сценариях.
2026-04-07 – Первая публикация. Anthropic ban, Qwen 3.6 Plus как замена, пошаговая миграция.
Следующее обновление: по мере изменения ландшафта моделей.
Читайте также
Gnosis OS Gnosis OS

