DeepSeek для бизнеса — стоит ли self-host

DeepSeek V3 и R1 дают качество, близкое к топовым моделям, за копейки в API и с открытыми весами. Считаем, когда self-host окупается, какое железо нужно и где подводные камни.

DeepSeek V3 (685B параметров, MoE 37B активных) и R1 (reasoning) — две модели с открытыми весами, по бенчмаркам близкие к GPT-4 и Claude Sonnet, при цене API в 5–10 раз ниже. Возникает соблазн поднять у себя: данные не уходят наружу, цена за токен предсказуема, можно файнтюнить. Считаем, когда self-host окупается, какое железо нужно, и какие грабли ждут на проде.

DeepSeek self-host: окупаемость, GPU-конфигурация, квантизация, лимиты
Self-host начинает иметь смысл от ~10 млрд токенов в месяц или жёстких требований по приватности.

Когда self-host имеет смысл

  • Объём токенов. Аренда API DeepSeek — около $0.27 за 1 млн input / $1.10 output. На 5 млн запросов в месяц по 2K токенов это ~$15K в месяц. Self-host от $8–12K с амортизацией железа и инженером — окупается на 10+ млрд токенов в месяц.
  • Приватность. Медицина, банки, госсектор, юристы — данные не должны уходить в чужой API. Self-host закрывает требование, особенно с учётом 152-ФЗ.
  • Низкая латентность. Внешний API даёт 1.5–3 с на сложный запрос с учётом сети. Локальный inference — 300–800 мс на R1-distill 70B.
  • Кастомизация. Файнтюнинг на доменных данных, LoRA-адаптеры под разные задачи в одной модели, контроль над reasoning-токенами в R1.

Когда не имеет

  • Объём 100K–10M токенов в месяц — API дешевле и проще.
  • Команда без MLOps-инженера. Поднять и забыть не получится: версии, обновления, мониторинг VRAM, retry на OOM.
  • Спайки нагрузки в 100× от средней — capacity придётся держать под пик, GPU будут простаивать.

Варианты моделей

  • DeepSeek V3 (685B / 37B активных). Топ качества, но даже MoE требует ~1.5 ТБ VRAM в FP8. Реально — 8× H200 или 16× A100. На квантизации Q4 — около 400 ГБ VRAM, можно собрать на 8× A100 80GB.
  • DeepSeek R1 (685B reasoning). Те же требования, плюс генерация reasoning-токенов (chain-of-thought до 32K). Дороже по compute, но качество reasoning на уровне o1.
  • R1-Distill 70B (на базе Llama). Дистиллят R1 в Llama 3.3 70B. 140 ГБ VRAM в FP16, 40 ГБ в Q4. Качество — около 80% оригинала R1, цена железа — в 10 раз ниже. Реальный кандидат под self-host.
  • R1-Distill 32B (на Qwen). 64 ГБ FP16, 20 ГБ Q4. Влезает в одну H100 или 2× A100. Качество — для большинства типовых задач достаточно.
  • R1-Distill 7B / 14B. Влезает в одну RTX 4090 / A6000. Подходит для классификации, извлечения сущностей, простых ассистентов.

Железо: что брать

  • RTX 4090 (24 ГБ). Для distill 7B / 14B квантизованных. Дёшево, для PoC и dev. Не для прода с reliability.
  • A100 80GB. Универсал. Одна A100 — distill 32B Q4 или 14B FP16. 4× A100 — distill 70B в нормальной точности.
  • H100 / H200. Для production с высокой пропускной способностью. H200 даёт 141 ГБ VRAM, что упрощает раскладку.
  • Аренда GPU в РФ. Selectel, ImmersIO, Cloud.ru дают почасовую аренду A100 / H100. Закладывайте $3–5 / час за A100 80GB, $7–12 / час за H100.

Стек inference

  • vLLM. Дефолт в 2026. PagedAttention, continuous batching, OpenAI-совместимый API. На MoE V3 — родная поддержка, на R1-Distill — работает идеально.
  • SGLang. Конкурент vLLM, особенно силён на структурированной генерации (JSON, regex-constrained).
  • TensorRT-LLM. От Nvidia, выжимает максимум throughput на H100. Сложнее настройка.
  • Ollama / LM Studio. Для dev и one-off. Не для прода.

Квантизация

FP16 — базовая точность, FP8 — почти без потерь, Q4 (GPTQ / AWQ) — 1–3% деградации, экономия памяти в 4 раза. Для 70B Q4 — 40 ГБ против 140 ГБ FP16. Деградация чувствительна на сложных задачах (математика, длинная цепочка рассуждений), на типовом саппорт-боте незаметна.

Пропускная способность — что ожидать

Ориентир для одной A100 80GB на R1-Distill 32B Q4: 80–120 токенов/с output, 40–60 одновременных коротких запросов. Для batch-обработки — до 800–1200 токенов/с суммарно. Цифры падают вдвое на длинных контекстах (16K+).

Что обычно ломается

  • OOM на длинных контекстах. KV-cache растёт линейно от длины. На 32K контексте — десятки ГБ VRAM. Лимит max_tokens на запрос, иначе один большой промпт убьёт сервис.
  • Throughput vs latency. Continuous batching снижает p50, но p99 страдает. Под SLA — отдельный пул GPU для interactive и отдельный для batch.
  • Холодный старт. Загрузка весов 32B Q4 в VRAM — 60–90 секунд. Любой рестарт = окно простоя. Делать rolling restart на двух репликах.
  • Обновления модели. Новая версия DeepSeek = повторное тестирование RAG-промптов, файнтюнов, оценочной выборки. Закладывать неделю на регрессию.

Чеклист решения «брать или нет»

  1. Месячный объём токенов > 1 млрд? Иначе API дешевле.
  2. Есть ли требование «данные не должны уходить наружу»? Если да — self-host оправдан и при меньшем объёме.
  3. Есть ли MLOps-инженер на 0.5–1 ставки? Без него — не браться.
  4. Какая SLA? Если 99.9% — нужен как минимум 2× резерв железа.
  5. Начать с R1-Distill 70B Q4 на 4× A100 — закроет 80% задач при разумной цене.

Итог: DeepSeek дал реальный self-host вариант, но это не «открыл сайт, нажал deploy». Окупается на больших объёмах или жёстких требованиях. Для типового бизнеса до 5 млн запросов в месяц — API остаётся правильным выбором.