Эти задачи способны решить только признанные эксперты по математике. Их решение может занять от нескольких часов до нескольких дней.
Исследовательская группа компании Epoch AI представила набор математических задач FrontierMath. В их состав входят задачи, которые нейросети не могут решить, а ведущие профессора по математике тратят на их решение несколько часов или дней. Набор FrontierMath планируют использовать для оценки способностей ИИ-моделей и отслеживания динамики их развития.
Инфографика: Epoch AI
Над подготовкой задач работали ведущие профессора математики, авторы Международной математической олимпиады и медалисты Филдсовской премии. В работе над FrontierMath приняли участие более 60 человек. Задачи из этого набора включают в себя такие разделы предмета, как алгебраическая геометрия и вычислительная теория чисел.
«[Эти задачи] чрезвычайно сложны. Я думаю, что в ближайшей перспективе единственный способ решить их, не имея настоящего эксперта в данной области, — это сочетание полуэксперта, например аспиранта в смежной области, в паре с современным ИИ и множеством паков по алгебре».
Согласно исследованию Epoch AI, многие популярные ИИ-модели не способны решить задачи из набора, разработанного компанией. Например, Claude 3.5 Sonnet и Gemini 1.5 Pro смогли правильно решить только 2% задач, а нейросети o1 и GPT-4o — всего лишь 1%. Что касается других математических тестов, таких как GSM-8K и MATH, те же нейросети справляются с 90% их задач.
Инфографика: Epoch AI
Команда исследователей Epoch AI наметила дальнейшие шаги по работе над пакетом задач FrontierMath. Он включает в себя:
- Регулярные оценки — проведение и публикацию постоянных оценок ведущих ИИ-моделей для обеспечения стандартизированного измерения прогресса.
- Расширение бенчмарка — добавление новых задач при сохранении строгих стандартов и текущего распределения типов задач, уровней сложности и математических областей.
- Публичный выпуск задач — команда планирует выпустить дополнительные задачи в ближайшие месяцы для дальнейшего привлечения сообщества и облегчения сравнительного анализа.
- Усиление контроля качества за счёт расширения экспертной оценки, увеличения вознаграждения за обнаруженные ошибки и улучшения процессов рецензирования.