Главная Веб-разработка Легендарную Super Mario Bros. превратили в бенчмарк для ИИ — Tproger

Легендарную Super Mario Bros. превратили в бенчмарк для ИИ — Tproger

от admin

Исследователи проверили, как ИИ проходит Super Mario Bros. Claude 3.7 справился лучше всех, а GPT-4o и Gemini 1.5 Pro показали слабые результаты

114 открытий14 показов

Исследователи из Hao AI Lab (Калифорнийский университет в Сан-Диего) решили проверить, насколько современные ИИ-модели способны пройти в Super Mario Bros.

Оказалось, что культовая игра 1985 года может стать одним из самых сложных испытаний для нейросетей.

Как ИИ учился играть в Марио?

Эксперимент проводился в эмуляторе с использованием специального фреймворка GamingAgent, который позволил моделям управлять персонажем.

Anthropic Claude 3.7 показал лучшие результаты, за ним следовал Claude 3.5, в то время как Google Gemini 1.5 Pro и OpenAI GPT-4o справились значительно хуже.

ИИ получал:

  • Базовые инструкции, например: «Если рядом препятствие или враг, двигайся/прыгай влево, чтобы увернуться».
  • Скриншоты игры для анализа ситуации.
  • Необходимость генерировать управляющие команды на Python для управления персонажем.

В процессе эксперимента стало ясно, что игра требует сложного планирования.

Что интересно, модели, обладающие развитой логикой и пошаговым мышлением (OpenAI o1), показали худшие результаты, чем те, которые работают без строгой системы рассуждений.

Читать также:
Джейлбрейк: зачем взламывать собственный iPhone и как его после этого восстановить

Почему разумные модели справляются хуже?

По словам исследователей, проблема размышляющих моделей в том, что они слишком долго принимают решения — иногда на это уходят секунды. В Super Mario Bros. время реакции критично: задержка даже на долю секунды может привести к поражению.

Игр как тест для ИИ: показатель или иллюзия?

Игры уже много лет используются как тестовая среда для искусственного интеллекта. Но некоторые эксперты сомневаются, что успех в виртуальном мире отражает реальные достижения в развитии ИИ.

Как отметил Андрей Карпати, один из основателей OpenAI, сейчас наблюдается «кризис оценки ИИ»:

Я не знаю, какие метрики ИИ стоит учитывать. Честно говоря, мне сложно судить, насколько эти модели действительно хороши.Андрей КарпатиСо-основатель OpenAI

Несмотря на это, наблюдать за тем, как нейросети пытаются пройти Super Mario Bros, по крайней мере, увлекательно.

Похожие статьи