Совсем недавно я рассказывал об LLM для математики на митапе CS Space, и вот появилась мощная новость на эту тему. Говорят, новая секретная модель от OpenAI смогла нарешать на золотую медаль Международной математической олимпиады, IMO 2025! Но ведь ещё год назад AlphaProof не хватало одного балла до золота, так что же здесь удивительного? Я написал небольшой пост, здесь выложу только часть о новом результате:Секретная модель OpenAI берёт золото IMO 2025: Proof or Bluff?29 мая появился новый бенчмарк MathArena: Balunovic et al. сравнили o3, o4-mini, Gemini-2.5-Pro, Grok-4 и Deepseek-R1 на разных математических олимпиадах, причём старались делать это с максимальной "силой" модели:— порождали 32 ответа и выбирали лучший самой же моделью (best-of-32); это хороший способ улучшить результат, особенно в задачах на доказательство;— проверяли вручную, участвовали четыре судьи с опытом проверки IMO и других олимпиад.Когда такой эксперимент провели на IMO 2025, у них получилось то, что на рис. 2: огромный прогресс по сравнению с тем, что было в "Proof or Bluff", но далеко не золото. Пост от создателей бенчмарка так и назывался: "Not Even Bronze".А 18-19 июля исследователи из OpenAI объявили, что их новая модель смогла добраться до уровня золота IMO 2025. У нас пока не так много информации: тред Alexander Wei, репозиторий с решениями задач и тред Noam Brown; если честно, мне кажется, что это "пока" ещё надолго, OpenAI ещё очень долго не планируют релиз этой модели.И тем не менее кое-что мы узнали:— это general reasoning LLM, не система вроде AlphaProof или DeepSeek-Prover; иначе говоря, это обычная LLM вроде o3-pro, только лучше, следующая итерация;— очевидно, там было много улучшений, но главное, о чём пишут Wei и Brown — это следующий шаг в масштабировании test-time reasoning; современные модели "размышляют" в течение считанных минут подряд (Deep Research не считается), а эта секретная модель может думать уже в течение пары часов;— кстати, о часах — модель участвовала наравне с людьми, в течение двух четырёхчасовых сессий; это тоже важно, потому что, например, AlphaProof в прошлом году решал задачи, кажется, трое суток;— оценивали тоже наравне с людьми, три судьи с опытом оценки настоящих IMO; в результате модель набрала 35 баллов из 42, решив пять задач из шести; кстати, если это значит, что 5 из 6 решены на 7 баллов, а шестая никак (Wei не уточняет), то это тоже шаг вперёд от текущих LLM, которые всё время чего-то недоговаривают и набирают частичные баллы, даже если идея правильная.Я хотел было обсудить какую-нибудь задачу из IMO 2025 и её решение новой моделью OpenAI... но быстро сдался. Решения хоть и читаемы в целом, но разбираться в них нелегко; на рис. 3 типичный кусочек.Надеюсь, Фёдор Петров, который на митапе рассказывал про LLM и олимпиадные задачи, разберётся. Я готов поверить, что умными людьми уже проверено; достижение в любом случае замечательное.На Manifold был на этот счёт prediction market, на котором отметились даже такие люди, как Пол Кристиано и Элиэзер Юдковский. В 2022 году Кристиано давал 4-8% на золото IMO к 2025 году, а Юдковский был более оптимистичен: "My probability is at least 16%". Конечно, в 2022 предсказать реальную скорость прогресса было очень сложно. Но и сейчас линия этого предсказания выглядит так, как на рис. 4: результат OpenAI был очень неожиданным!Тизер поста — намёк на знаменитый мем о сборной США на IMO. Может быть, скоро роботы превзойдут людей и в математических олимпиадах. Но главное, конечно, не в том, чтобы решать олимпиадные задачки: шахматы не умерли после Deep Blue (а скорее набрали популярность), и математические олимпиады тоже не умрут.Главное в том, сможет ли этот прогресс превратиться не просто в спортивный успех, а в новые математические результаты. А где математические, там и алгоритмические, а там и пресловутый self-improvement, первые шаги которого мы только что видели в AlphaEvolve.И вот это уже очень, очень интересный вопрос.
Оставить комментарий/отзыв