Аня Подображных [Будни продакта] => Telegram-канал @product

Аня Подображных [Будни продакта]

08 июл., 01:20

Привет! Я Артем Бондарь, руководитель всея NLP в Т-Банке.Ребята попросили написать, как считать экономику внутри всех этих страшных слов про «инференсы», «GPU» и токены, поэтому сегодня разберёмся с этим (спойлер: это не так сложно).ПредысторияПредыдущие поколения МЛ были дешёвые как грязь (например, DialogFlow), поэтому фокуса на экономике не было, важно это было лишь для мегамасштабных проектов с миллионами DAU. Но сегодня на последних версиях моделей-ризонеров (например, o3) решение одной задачи может стоить тысячи долларов – это экстремальный пример, но он показывает, что экономика LLM важна даже для небольших продуктов.Что нужно знать про деньги и LLMЕсть 2 ключевые модели ценообразования:1. Покупка облачного решения у вендора: вы платите за токены (объём текста). Генерация текста стоит дороже, чем сам запрос (промт): запрос с промтом в 80 токенов и ответом в 8000 токенов может стоить во много раз дороже, чем наоборот.— Плюсы: нет капитальных затрат, понятная модель оплаты.— Минусы: сложнее прогнозировать расходы, высокая цена генерации, продукт хранится в облаке (не всем подходит с точки зрения безопасности).— Когда использовать: когда нужно быстро протестировать гипотезу, запустить MVP или быть гибким на старте.2. On-premise: вы покупаете серверы, которые выдержат нагрузку пользователей. Это не pay-as-you-go, а капитальные вложения заранее.— Плюсы: контроль инфраструктуры, фиксированные расходы в перспективе.— Минусы: нужен крупный стартовый бюджет, точное планирование.— Когда использовать: когда уверены в продуктовой модели, стабильной нагрузке и планируете долгосрочное развитие.Как считать экономику?Когда модель генерирует ответ на запрос пользователя, это называется инференс. Для инференса нужны мощные серверы с видеокартами — GPU (Graphics Processing Unit), которые быстро обрабатывают большие объёмы данных.Расходы складываются из:– оборудования (свои или облачные GPU)– электричества (для своих серверов)– команды DevOps/ML Ops (настройка и обслуживание)Быстрая математика (на простом примере):Допустим, у вас есть свой сервер с GPU, работающий 24/7:– Электричество: $0.50 × 720 часов = $360– Обслуживание: $500 в месяц– Общий расход: $860 в месяц– Сервер обрабатывает 20 000 запросов в час, 14,4 млн запросов в месяц– Стоимость 1000 запросов при полной загрузке = $0.06Если запросов всего 30 000 в месяц, сервер простаивает, и цена растёт до $28.7 за 1000 запросов (в 480 раз дороже!).Важно заранее оценивать загрузку — иногда дешевле взять API.А если использовать оплату через токены API?Предположим, инструкция «Ты — ассистент. Твоя задача…» содержит 100 токенов, средний ответ 400 токенов, всего 500 токенов за запрос.Стоимость GPT-4o mini сейчас:– Входящие токены: $0.6 за 1 млн токенов– Исходящие токены: $2.4 за 1 млн токеновВходящих → 100 токенов × 1000 = 100 000 токенов (0.1 млн)Исходящих → 400 токенов × 1000 = 400 000 токенов (0.4 млн)Посчитаем стоимость: 1. Вход: 0.1 млн × $0.6 = $0.06 2. Выход: 0.4 млн × $2.4 = $0.96Итого = $0.06 + $0.96 = $1.02(Посчитать токены можно здесь.)Коротко про облако – важно помнить: серверы можно не покупать, а арендовать и экономить, включая их только на нужное время. Но даже при аренде сервера на 12 часов в сутки аренда GPU может выйти дороже, чем собственный сервер.Вместо вывода:— Комбинируйте подходы: начинайте с pay-as-you-go и постепенно переходите на on-premise, когда поймёте реальные потребности.— Регулярно пересматривайте нагрузку и адаптируйте инфраструктуру под текущие задачи, чтобы не переплачивать.Надеюсь, теперь стало понятнее, как подходить к экономике LLM-продуктов. Если остались вопросы — пишите, с радостью отвечу!

7 970

Аня Подображных [Будни продакта]

07 июл., 02:56

На прошлой неделе я поехала в Питер ради спектакля Яндекса.Таким необычным способом ребята решили рассказать о своих ценностях. Было пять сцен. Две из них мне особенно понравились. Одну записала на видео, а на второй… расплакалась и не думала о телефоне. Возможно, из-за того, что я сама играю в театре, мне интересно не только ЧТО показывают, но и КАК играют актёры. В одной сцене герой разговаривал с мамой по телефону. Сначала по классике: «Ну маам… я не забыл…». Потом неловкое «С днём рождения», а дальше — что-то настоящее: «Приеду на выходных, соскучился. По дому, по лавочке во дворе, по тёте Нине, которая всегда там сидит».Я сижу в зале и в секунду понимаю, что верю. Верю, что он сейчас реально говорит с мамой по телефону, что видит эту лавочку, эту тётю Нину. Конечно, не их конкретно — он видит свой образ, который для него что-то значит и вызывает нужные эмоции. Для меня театр — это всегда про прожить что-то своё в чужой истории. Сейчас я играю в спектакле, где моя роль очень перекликается с тем, что происходит в реальности. И последние недели я буквально живу в репетициях — помогает выплеснуть, прожить и отпустить. И никто не страдает от моего настроения, кроме подушки и сцены :))Играем уже в эту субботу. Один из лучших спектаклей, что мы ставили. Приходите — буду очень вам рада. За инфой о билетах пишите в личку @annapodobrazhnykh А ребятам из Яндекса большой респект за смелость рассказать о себе в таком формате. Творчество не может оставить меня равнодушной )

7 370

Аня Подображных [Будни продакта]

03 июл., 13:05

Ну всё, капец вам, спамеры. Фильтроняша в чате. Навайбкодил @singularityfm

7 670

Аня Подображных [Будни продакта]

02 июл., 15:05

Печенька с предсказаниямиПредсказываю, что тем, кто хотел залететь в ближайший поток симулятора по ллм продуктам, пора поторопиться. Открываем доступ и чат уже сегодня, первый вебинар через неделю. Всем остальным предскажет моя печенька: @Pechenkapechenka_bot(хоть бы она опять не упала! Деплоить — не моё 😁)

7 330

Аня Подображных [Будни продакта]

02 июл., 00:38

Узнала, что реплит можно скачать на телефон. ПФ! Никогда ещё моя поездка на метро не была такой интересной

8 420

Аня Подображных [Будни продакта]

Статистика канала

Последние посты

Оставить комментарий/отзыв

Рекомендации

Принцессы 👸

Камила Цейтлина

TEREZA MURR

🦬Зодд-Химзавод💉

арина не дура

мерими

динара тиловова

Malina ASMR

9impulse(кирчик)

Вика Андриенко