Исследователи проверили, как ИИ проходит Super Mario Bros. Claude 3.7 справился лучше всех, а GPT-4o и Gemini 1.5 Pro показали слабые результаты
114 открытий14 показов
Исследователи из Hao AI Lab (Калифорнийский университет в Сан-Диего) решили проверить, насколько современные ИИ-модели способны пройти в Super Mario Bros.
Оказалось, что культовая игра 1985 года может стать одним из самых сложных испытаний для нейросетей.
Как ИИ учился играть в Марио?
Эксперимент проводился в эмуляторе с использованием специального фреймворка GamingAgent, который позволил моделям управлять персонажем.
Anthropic Claude 3.7 показал лучшие результаты, за ним следовал Claude 3.5, в то время как Google Gemini 1.5 Pro и OpenAI GPT-4o справились значительно хуже.
ИИ получал:
- Базовые инструкции, например: «Если рядом препятствие или враг, двигайся/прыгай влево, чтобы увернуться».
- Скриншоты игры для анализа ситуации.
- Необходимость генерировать управляющие команды на Python для управления персонажем.
В процессе эксперимента стало ясно, что игра требует сложного планирования.
Что интересно, модели, обладающие развитой логикой и пошаговым мышлением (OpenAI o1), показали худшие результаты, чем те, которые работают без строгой системы рассуждений.
Почему разумные модели справляются хуже?
По словам исследователей, проблема размышляющих моделей в том, что они слишком долго принимают решения — иногда на это уходят секунды. В Super Mario Bros. время реакции критично: задержка даже на долю секунды может привести к поражению.
Игр как тест для ИИ: показатель или иллюзия?
Игры уже много лет используются как тестовая среда для искусственного интеллекта. Но некоторые эксперты сомневаются, что успех в виртуальном мире отражает реальные достижения в развитии ИИ.
Как отметил Андрей Карпати, один из основателей OpenAI, сейчас наблюдается «кризис оценки ИИ»:
Я не знаю, какие метрики ИИ стоит учитывать. Честно говоря, мне сложно судить, насколько эти модели действительно хороши.Андрей КарпатиСо-основатель OpenAI
Несмотря на это, наблюдать за тем, как нейросети пытаются пройти Super Mario Bros, по крайней мере, увлекательно.