Она объединяет в себе человеческую креативность и способность с помощью ИИ выполнять рутинные рабочие процессы.
Университет Джонса Хопкинса в сотрудничестве с компанией AMD разработал Agent Laboratory. В отличие от других ИИ-инструментов, которые самостоятельно генерируют научные идеи, Agent Laboratory предназначен для повышения продуктивности исследовательской работы.
Изображение: Agent Laboratory
Как работает платформа
Деятельность Agent Laboratory организована на основе академических принципов. Основой её работы является анализ научных публикаций, которые собираются и структурируются через API arXiv.
После этого аспиранты и доктора наук формируют исследовательскую команду для планирования проекта. На этапе обсуждения определяются ключевые гипотезы и подходы к их проверке. Затем агент, специализирующийся на машинном обучении, выполняет технические задачи с использованием инструмента mle-solver, разрабатывая и настраивая необходимый код.
Процесс включает три этапа:
- изучение литературы;
- проведение экспериментов;
- написание отчётов.
Каждая роль чётко распределена между учёными и AI-агентами. После завершения экспериментов команда создаёт научный отчёт с помощью инструмента Paper-solver, который упрощает редактирование и делает текст доступным для понимания.
Примеры и результаты
Команда исследователей опубликовала пример дипломной работы, а также описала все использованные в исследовании подсказки.
Рецензенты отметили различия в качестве статей, созданных разными AI-моделями. Так, модель o1-preview от OpenAI показала наилучшие результаты по ясности и достоверности, а модель o1-mini получила высокую оценку за качество экспериментов.
Интересно, что AI-рецензенты оказались более благосклонными, оценивая работы в среднем на 2,3 балла выше, чем люди.
Стоимость и ограничения
Agent Laboratory позволяет создавать статьи с минимальными затратами — около 2,33 доллара за работу с использованием модели GPT-4o. Среди протестированных моделей у GPT-4o наиболее оптимальное сочетание производительности и стоимости. А o1-preview, хотя она и показывала аналогичные успехи, была дороже и требовала больше времени.
Исследователи признают ряд ограничений:
- склонность AI завышать свои результаты;
- риски автоматизации в сложных исследованиях;
- возможность получения некорректной информации.
Время агентских фреймворков
Несмотря на замедление прогресса в развитии языковых моделей, исследователи сейчас больше сосредотачиваются на создании агентских фреймворков, объединяющих несколько моделей и инструментов. Эти фреймворки способны отражать структуру человеческих организаций и использоваться для разнообразных задач — от перевода документов до проведения фокус-групп.