Главная Веб-разработка Исследователи Epoch AI представили набор сложных математических задач для нейросетей

Исследователи Epoch AI представили набор сложных математических задач для нейросетей

от admin

Эти задачи способны решить только признанные эксперты по математике. Их решение может занять от нескольких часов до нескольких дней.

Исследовательская группа компании Epoch AI представила набор математических задач FrontierMath. В их состав входят задачи, которые нейросети не могут решить, а ведущие профессора по математике тратят на их решение несколько часов или дней. Набор FrontierMath планируют использовать для оценки способностей ИИ-моделей и отслеживания динамики их развития.

Инфографика: Epoch AI

Над подготовкой задач работали ведущие профессора математики, авторы Международной математической олимпиады и медалисты Филдсовской премии. В работе над FrontierMath приняли участие более 60 человек. Задачи из этого набора включают в себя такие разделы предмета, как алгебраическая геометрия и вычислительная теория чисел.

«[Эти задачи] чрезвычайно сложны. Я думаю, что в ближайшей перспективе единственный способ решить их, не имея настоящего эксперта в данной области, — это сочетание полуэксперта, например аспиранта в смежной области, в паре с современным ИИ и множеством паков по алгебре».

Согласно исследованию Epoch AI, многие популярные ИИ-модели не способны решить задачи из набора, разработанного компанией. Например, Claude 3.5 Sonnet и Gemini 1.5 Pro смогли правильно решить только 2% задач, а нейросети o1 и GPT-4o — всего лишь 1%. Что касается других математических тестов, таких как GSM-8K и MATH, те же нейросети справляются с 90% их задач.

Читать также:
Энтузиасты сравнили производительность Python 3.13 с Python 3.12 — Tproger

Исследователи Epoch AI представили набор сложных математических задач для нейросетей

Инфографика: Epoch AI

Команда исследователей Epoch AI наметила дальнейшие шаги по работе над пакетом задач FrontierMath. Он включает в себя:

  • Регулярные оценки — проведение и публикацию постоянных оценок ведущих ИИ-моделей для обеспечения стандартизированного измерения прогресса.
  • Расширение бенчмарка — добавление новых задач при сохранении строгих стандартов и текущего распределения типов задач, уровней сложности и математических областей.
  • Публичный выпуск задач — команда планирует выпустить дополнительные задачи в ближайшие месяцы для дальнейшего привлечения сообщества и облегчения сравнительного анализа.
  • Усиление контроля качества за счёт расширения экспертной оценки, увеличения вознаграждения за обнаруженные ошибки и улучшения процессов рецензирования.

Похожие статьи