Сколько на самом деле стоит inference

Цена токена падает, счёт растёт

Стоимость inference падает примерно в 10 раз в год — и всё равно счёт за месяц растёт, потому что растёт использование. Единственная защита — бюджет $/запрос с нулевого дня. Мы считаем его на этапе tech-spec и фиксируем в SLA: средний RAG на 10k обращений — $50–150/мес на API, около нуля на локальной модели.

Из чего складывается $/запрос: токены + reranking + ретраи

Self-hosting — не дешевле по умолчанию

Точка безубыточности своей модели — около 500 миллионов токенов в день. Ниже этого API дешевле, как только посчитаешь простой GPU, DevOps и дежурства. Большинство клиентов этого порога никогда не достигают. Мы self-хостим эмбеддинги (разовая батч-операция), но не генерацию.

01.Кэшируй повторяющиеся запросы — самый дешёвый токен тот, что не отправлен
02.Батчинг вместо потока одиночных вызовов
03.Сначала дешёвая модель, дорогая — только на эскалации
04.Лимит на длину контекста — иначе платишь за тишину

««Давайте поставим свою модель» почти всегда дороже, чем «давайте посчитаем $/запрос».»

Что бы сделали иначе

На одном проекте мы слишком рано подняли self-hosted генерацию — GPU простаивал на 8% утилизации. Вернулись на API и срезали счёт за инфраструктуру на 60%. Сначала считаем, потом ставим железо.

Сколько на самом деле стоит inference

Цена токена падает, счёт растёт

Self-hosting — не дешевле по умолчанию

Что бы сделали иначе

Нужен такой же результат?

Подписка на журнал