Hermes 3 8B vs OpenAI: сравнение стоимости и качества для типовых задач
Считаем когда выгодно держать свой Hermes 3 8B на A10 vs платить OpenAI gpt-4o-mini. Реальные цифры на трёх задачах: классификация заявок, генерация саммари, function calling.
Когда на сайте появляется AI-агент, первый вопрос: брать API OpenAI или развёртывать локальную модель. Дальше — расчёт TCO. На малых объёмах OpenAI выгоднее (нет железа, нет devops). На больших — собственный Hermes 3 8B обгоняет в 5-15 раз.
Стоимость владения — реальные цифры 2026
| Модель | Источник | Цена за 1M tokens (in/out) |
| gpt-4o-mini | OpenAI API | $0.15 / $0.60 |
| gpt-4o | OpenAI API | $2.50 / $10.00 |
| Claude 3.5 Sonnet | Anthropic API | $3.00 / $15.00 |
| Hermes 3 8B на A10 (rented) | Selectel/Vast.ai | $0.05-0.12 / $0.05-0.12 |
| Hermes 3 8B на своём 4090 | + электричество | ~$0.01 / ~$0.01 |
Задача 1: классификация заявок (input-heavy)
- Сценарий: 10 000 заявок/мес, каждая ~500 токенов на вход, 50 на ответ
- Объём: 5M input + 0.5M output
- gpt-4o-mini: $0.75 + $0.30 = $1.05/мес
- gpt-4o: $12.50 + $5 = $17.50/мес
- Hermes 3 8B на A10 24/7: аренда $230/мес → невыгодно для этого объёма
- Hermes 3 8B на 4090 (своё): $20-30/мес электричество. Но 4090 уже куплен — выгодно если совмещать с другими задачами
Вывод: при 10K заявок gpt-4o-mini побеждает. Hermes начинает выигрывать с 100K+ запросов в месяц.
Задача 2: генерация саммари по документам (output-heavy)
- Сценарий: 1 000 документов/мес, каждый ~3 000 токенов вход, ~600 токенов саммари
- Объём: 3M input + 0.6M output
- gpt-4o-mini: $0.45 + $0.36 = $0.81/мес
- gpt-4o: $7.50 + $6 = $13.50/мес
- Hermes 3 70B на A100 80GB (rented): $1.20/час × 730 = $876/мес — нерентабельно
- Hermes 3 8B справится с саммаризацией, качество чуть ниже но приемлемо. На своём 4090: ~$30/мес электричества
Вывод: снова gpt-4o-mini, если своего железа нет.
Задача 3: production-агент с function calling и встраиванием в чат-бот
- Сценарий: 50 000 сессий/мес, в среднем 5 турнов с tool call, ~1 500 токенов на сессию суммарно (in+out)
- Объём: ~75M токенов суммарно
- gpt-4o-mini: ~$11-15/мес базово, плюс расход на retry и context. Реально $30-50/мес
- gpt-4o: $300-500/мес
- Hermes 3 8B на своей A10 24/7: $230 аренда + $20 на observability = $250/мес, но даёт свободу делать сколько угодно запросов и обучать на своих данных
Вывод: на 75M токенов gpt-4o-mini всё ещё дешевле, но Hermes уже сопоставим. С 200M+ Hermes выгодней + плюс приватность данных.
Когда Hermes решает
- Конфиденциальные данные. Медкарты, юридические дела, переписка топ-менеджмента — нельзя в облако независимо от цены
- Объём 200M+ токенов/мес. Здесь TCO ломается в пользу собственного железа
- Нет интернета. Закрытый контур, авиация, оборонка
- Кастомное поведение. Дообучение на корпусе компании — на API не получится так же глубоко
- Латенси-критичные сценарии. Локальная модель выдаёт первый токен за 100-200мс. OpenAI — 600-1500мс плюс сетевая задержка
Когда оставаться на OpenAI
- Объём меньше 50M токенов в месяц
- Нужен gpt-4o уровень reasoning (Hermes 8B не дотягивает на сложных задачах)
- Нет devops-ресурса. Свой LLM — это ещё мониторинг, обновления, fallback
- Multimodal (картинки, аудио) — у Hermes 3 только текст
Гибридная схема
Часто оптимально: дешёвые типовые задачи (классификация, routing, простые саммари) — на собственный Hermes 8B. Сложные (длинное reasoning, multimodal, бизнес-критичные ответы) — gpt-4o через API. Получается контроль над 80% объёма + качество там, где оно нужно.