Привет! Я Артем Бондарь, руководитель всея NLP в Т-Банке.Ребята попросили написать, как считать экономику внутри всех этих страшных слов про «инференсы», «GPU» и токены, поэтому сегодня разберёмся с этим (спойлер: это не так сложно).ПредысторияПредыдущие поколения МЛ были дешёвые как грязь (например, DialogFlow), поэтому фокуса на экономике не было, важно это было лишь для мегамасштабных проектов с миллионами DAU. Но сегодня на последних версиях моделей-ризонеров (например, o3) решение одной задачи может стоить тысячи долларов – это экстремальный пример, но он показывает, что экономика LLM важна даже для небольших продуктов.Что нужно знать про деньги и LLMЕсть 2 ключевые модели ценообразования:1. Покупка облачного решения у вендора: вы платите за токены (объём текста). Генерация текста стоит дороже, чем сам запрос (промт): запрос с промтом в 80 токенов и ответом в 8000 токенов может стоить во много раз дороже, чем наоборот.— Плюсы: нет капитальных затрат, понятная модель оплаты.— Минусы: сложнее прогнозировать расходы, высокая цена генерации, продукт хранится в облаке (не всем подходит с точки зрения безопасности).— Когда использовать: когда нужно быстро протестировать гипотезу, запустить MVP или быть гибким на старте.2. On-premise: вы покупаете серверы, которые выдержат нагрузку пользователей. Это не pay-as-you-go, а капитальные вложения заранее.— Плюсы: контроль инфраструктуры, фиксированные расходы в перспективе.— Минусы: нужен крупный стартовый бюджет, точное планирование.— Когда использовать: когда уверены в продуктовой модели, стабильной нагрузке и планируете долгосрочное развитие.Как считать экономику?Когда модель генерирует ответ на запрос пользователя, это называется инференс. Для инференса нужны мощные серверы с видеокартами — GPU (Graphics Processing Unit), которые быстро обрабатывают большие объёмы данных.Расходы складываются из:– оборудования (свои или облачные GPU)– электричества (для своих серверов)– команды DevOps/ML Ops (настройка и обслуживание)Быстрая математика (на простом примере):Допустим, у вас есть свой сервер с GPU, работающий 24/7:– Электричество: $0.50 × 720 часов = $360– Обслуживание: $500 в месяц– Общий расход: $860 в месяц– Сервер обрабатывает 20 000 запросов в час, 14,4 млн запросов в месяц– Стоимость 1000 запросов при полной загрузке = $0.06Если запросов всего 30 000 в месяц, сервер простаивает, и цена растёт до $28.7 за 1000 запросов (в 480 раз дороже!).Важно заранее оценивать загрузку — иногда дешевле взять API.А если использовать оплату через токены API?Предположим, инструкция «Ты — ассистент. Твоя задача…» содержит 100 токенов, средний ответ 400 токенов, всего 500 токенов за запрос.Стоимость GPT-4o mini сейчас:– Входящие токены: $0.6 за 1 млн токенов– Исходящие токены: $2.4 за 1 млн токеновВходящих → 100 токенов × 1000 = 100 000 токенов (0.1 млн)Исходящих → 400 токенов × 1000 = 400 000 токенов (0.4 млн)Посчитаем стоимость: 1. Вход: 0.1 млн × $0.6 = $0.06 2. Выход: 0.4 млн × $2.4 = $0.96Итого = $0.06 + $0.96 = $1.02(Посчитать токены можно здесь.)Коротко про облако – важно помнить: серверы можно не покупать, а арендовать и экономить, включая их только на нужное время. Но даже при аренде сервера на 12 часов в сутки аренда GPU может выйти дороже, чем собственный сервер.Вместо вывода:— Комбинируйте подходы: начинайте с pay-as-you-go и постепенно переходите на on-premise, когда поймёте реальные потребности.— Регулярно пересматривайте нагрузку и адаптируйте инфраструктуру под текущие задачи, чтобы не переплачивать.Надеюсь, теперь стало понятнее, как подходить к экономике LLM-продуктов. Если остались вопросы — пишите, с радостью отвечу!
Оставить комментарий/отзыв