Цена токена падает, счёт растёт
Стоимость inference падает примерно в 10 раз в год — и всё равно счёт за месяц растёт, потому что растёт использование. Единственная защита — бюджет $/запрос с нулевого дня. Мы считаем его на этапе tech-spec и фиксируем в SLA: средний RAG на 10k обращений — $50–150/мес на API, около нуля на локальной модели.
Self-hosting — не дешевле по умолчанию
Точка безубыточности своей модели — около 500 миллионов токенов в день. Ниже этого API дешевле, как только посчитаешь простой GPU, DevOps и дежурства. Большинство клиентов этого порога никогда не достигают. Мы self-хостим эмбеддинги (разовая батч-операция), но не генерацию.
- 01.Кэшируй повторяющиеся запросы — самый дешёвый токен тот, что не отправлен
- 02.Батчинг вместо потока одиночных вызовов
- 03.Сначала дешёвая модель, дорогая — только на эскалации
- 04.Лимит на длину контекста — иначе платишь за тишину
««Давайте поставим свою модель» почти всегда дороже, чем «давайте посчитаем $/запрос».»
Что бы сделали иначе
На одном проекте мы слишком рано подняли self-hosted генерацию — GPU простаивал на 8% утилизации. Вернулись на API и срезали счёт за инфраструктуру на 60%. Сначала считаем, потом ставим железо.