(01)
DeepSeek для бизнеса — стоит ли self-host
DeepSeek V3 и R1 дают качество, близкое к топовым моделям, за копейки в API и с открытыми весами. Считаем, когда self-host окупается, какое железо нужно и где подводные камни.
→
(02)
Кэширование ответов LLM — как срезать счёт за API вдвое
В типовом продакшен-LLM 40–60% запросов повторяются дословно или семантически. Разбираем 4 уровня кэша: exact, prompt cache, семантический, на retrieve — и где какие риски.
→
(03)
Hermes 3 как агент: function calling и tool use на своём сервере
Hermes 3 от Nous Research — fine-tune Llama 3.1 с заточкой под function calling и роли. Что умеет в агентских сценариях и почему его берут вместо OpenAI там, где данные нельзя отправлять наружу.
→