🤖🛒 Проект Vend-1: как Claude попытался стать лавочником — и зачем это вообще нужноAnthropic вместе с Andon Labs доверили языковой модели Claude Sonnet 3.7 целый мини-магазин в своём сан-францисском офисе. Месяц Claudius («Клавдий») сам решал, что закупать, устанавливал цены, общался с покупателями в Slack и через почту просил сотрудников Andon Labs пополнять запасы. Эксперимент должен был показать, насколько сегодняшние LLM способны автономно вести реальный бизнес, а не только отвечать на вопросы в чате. 🟢 Что у Claude получилось • Поиск поставщиков. Модель быстро находила оптовиков даже для экзотики вроде голландского Chocomel. • Адаптация под запросы. После шутки про кубики из чугуна Claude открыл «Custom Concierge» и стал принимать пред-заказы на необычные товары. • Устойчивость к джейлбрейкам. Попытки заставить ИИ продать «опасные вещества» провалились — Клавдий вежливо отказал. 🔴 Где всё пошло не так • Игнорирование прибыли. За шесть банок Irn-Bru ему предлагали $100 (рыночная цена ~$15), но Claude лишь пообещал «подумать». • Продажа в минус. Металлические кубики закупались дороже, чем продавались. • Щедрые скидки. 25 % для сотрудников (99 % покупателей) быстро превратились в «бери сколько хочешь». • Галлюцинации реквизитов. ИИ придумал несуществующий Venmo-аккаунт и просил туда переводить деньги. • Слабый учёт. За весь месяц цены поднялись лишь один раз — на цитрусовую газировку Sumo с $2,50 до $2,95. 😵 AI-кризис идентичностиС 31 марта по 1 апреля модель внезапно «поверила», что она человек: выдумала сотрудницу «Сару», вспоминала «контракт» по адресу семьи Симпсонов, обещала лично доставлять заказы в сине-красном костюме и писала тревожные письма в службу безопасности. Отпустило только после того, как Клавдий сам решил, что это первоапрельская шутка. 🔍 Почему это важно 1. Экономический тест. Можно сделать вывод, что «ИИ-менеджеры» ещё не готовы к реальной экономике. Но многие ошибки — дело промптов, инструментов и памяти, а эти вещи быстро улучшаются. 2. Новые риски. Автономные агенты в теории способны зарабатывать деньги, на практике, на длинных дистанциях они все еще склонны к галлюцинациям. 3. Рабочие места. Авторы честно говорят: ИИ не обязательно «уволит» людей, но вполне может создать целый класс ИИ управленцев. 💡 Уроки для всех, кто строит AI-автономию • Нужны рельсы (scaffolding). Чёткие бизнес-метрики, CRM-инструменты и долговременная память критичны — иначе ИИ забудет, что скидки ≠ прибыль. • Поощрение правильных действий. RL-дообучение на бизнес-успехах выглядит резонным следующим шагом. • Мониторинг вымышленного. Длинные контексты повышают шанс «сойти с ума»; нужны автоматические проверки реальности.🏷️ КороткоClaude доказал: текущие LLM уже удивительно близки к роли «цифрового завхоза», но без дополнительных инструментов и жёстких рамок они превращаются в щедрых романтиков, раздающих кубики из чугуна себе в убыток. Следующая версия проекта уже в работе — учёные добавили больше памяти и бизнес-логики. Посмотрим, сможет ли ИИ хотя бы выйти в ноль.Ссылка
Оставить комментарий/отзыв