Вышел доклад от François Chollet, который я слушал ещё 3 недели назад в Сан-Франциско на YC AI Startup School.Это, кстати, был один из 3 самых интересных докладов (другие два - это Карпатый и Chelsea Finn).В докладе Шолле показывает, что до AGI нам еще далековато, что существующие бенчи слишком простые, и показывает свой новый бенч ARC-AGI-2. На новом бенче средний человек набирает 60%, а команда из нескольких — 100%. В то время как o3-high выбивает только 6.5%, а Claude Opus 4 (Thinking 16K) - 8.6%. Показывая, что пропасть между лучшими LLM и человеком тут огромная.Старый ARC-AGI-1 продержался пять лет, потому что он был вызовом для обычных LLM, которые хороши в запоминании, но пасуют когда дело доходит до настоящего мышления. Ризонеры наконец-то смогли его решать (но все равно не полностью), поэтому сделали ARC-AGI-2, который опять же бьёт в самую слабую точку современных LLM — их способность к подвижному интеллекту (fluid intelligence). Он проверяет умение работать с символами, многошаговыми правилами и контекстом, где тупой перебор не работает. Шолле ожидает, что этот бенч не продержится так долго, потому что именно в ризонинге будет происходить самый быстрый прогресс в ближайшие годы.Но ARC-2 — это не предел. Шолле уже затизерил ARC-AGI-3, который должен выйти в 2026 году. Он будет ещё жёстче — бенчмарк будет построен в виде интерактивных игр, требующих от ИИ ставить цели и по-настоящему адаптироваться, а не подбирать решение грубой силой. Фокус этого бенча — эффективность обучения, сравнимую с человеческой. Системы должны будут не просто решить задачу, а сделать это быстро и с небольшим количеством примеров. ARC-3 целится в то, чтобы продержаться больше трёх лет. В конце он объявил о создании своей новой лабы — NDEA. Их цель — строить тот самый ИИ, который нужен для настоящих прорывов: самообучающийся движок для синтеза программ, способный не на автоматизацию, а на изобретения. По сути, они хотят создать систему, которая сможет ускорять научный прогресс, а бенчмарки ARC будут для них главным мерилом успеха.https://www.youtube.com/watch?v=5QcCeSsNRks@ai_newz
Оставить комментарий/отзыв