Легендарную Super Mario Bros. превратили в бенчмарк для ИИ — Tproger

от admin 04.03.2025

04.03.2025

Исследователи проверили, как ИИ проходит Super Mario Bros. Claude 3.7 справился лучше всех, а GPT-4o и Gemini 1.5 Pro показали слабые результаты

114 открытий14 показов

Исследователи из Hao AI Lab (Калифорнийский университет в Сан-Диего) решили проверить, насколько современные ИИ-модели способны пройти в Super Mario Bros.

Оказалось, что культовая игра 1985 года может стать одним из самых сложных испытаний для нейросетей.

Как ИИ учился играть в Марио?

Эксперимент проводился в эмуляторе с использованием специального фреймворка GamingAgent, который позволил моделям управлять персонажем.

Anthropic Claude 3.7 показал лучшие результаты, за ним следовал Claude 3.5, в то время как Google Gemini 1.5 Pro и OpenAI GPT-4o справились значительно хуже.

ИИ получал:

Базовые инструкции, например: «Если рядом препятствие или враг, двигайся/прыгай влево, чтобы увернуться».
Скриншоты игры для анализа ситуации.
Необходимость генерировать управляющие команды на Python для управления персонажем.

В процессе эксперимента стало ясно, что игра требует сложного планирования.

Что интересно, модели, обладающие развитой логикой и пошаговым мышлением (OpenAI o1), показали худшие результаты, чем те, которые работают без строгой системы рассуждений.

Читать также:

Ошибка SyntaxError: invalid syntax в Python — что это, почему возникает и как её исправить

Почему разумные модели справляются хуже?

По словам исследователей, проблема размышляющих моделей в том, что они слишком долго принимают решения — иногда на это уходят секунды. В Super Mario Bros. время реакции критично: задержка даже на долю секунды может привести к поражению.

Игр как тест для ИИ: показатель или иллюзия?

Игры уже много лет используются как тестовая среда для искусственного интеллекта. Но некоторые эксперты сомневаются, что успех в виртуальном мире отражает реальные достижения в развитии ИИ.

Как отметил Андрей Карпати, один из основателей OpenAI, сейчас наблюдается «кризис оценки ИИ»:

Я не знаю, какие метрики ИИ стоит учитывать. Честно говоря, мне сложно судить, насколько эти модели действительно хороши.Андрей КарпатиСо-основатель OpenAI

Несмотря на это, наблюдать за тем, как нейросети пытаются пройти Super Mario Bros, по крайней мере, увлекательно.

Предыдущая запись

Шестеркин признан первой звездой матча НХЛ против «Айлендерс»

Следующая запись

Легендарную Super Mario Bros. превратили в бенчмарк для ИИ — Tproger

Как ИИ учился играть в Марио?

Почему разумные модели справляются хуже?

Игр как тест для ИИ: показатель или иллюзия?

Шестеркин признан первой звездой матча НХЛ против «Айлендерс»

Долг бойца СВО

Похожие статьи