Технологии

ИИ-«сотрудники» провалили реальный офисный тест: что это значит для будущего вашей работы

Generated by DALL·E

Основные выводы нового бенчмарка

Исследование, проведенное компанией Mercor, впервые оценило, насколько современные автономные ИИ-агенты способны выполнять задачи, свойственные высококвалифицированной офисной работе — например, в консалтинге, инвестиционном банкинге или юридической практике. Вместо простых проверок знаний или базовых навыков, новый тест поставил перед моделями реальные профессиональные вопросы, с которыми ежедневно сталкиваются эксперты в своих областях.

Что такое APEX-Agents

APEX-Agents — это первый в своем роде AI Productivity Index, который измеряет способность ИИ-агентов решать долгосрочные задачи, требующие удержания контекста, работы с несколькими приложениями и ориентирования в документообороте. В отличие от традиционных тестов, новых заданий нельзя решить, просто вспоминая факты — они требуют анализа, сопоставления данных из разных источников и междисциплинарного мышления.

Результаты тестирования

По итогам испытаний ни одна из протестированных моделей не показала высокой эффективности:

  • Лидером стал Gemini 3 Flash, который справился только с около 24 % заданий при первой попытке.
  • За ним следовал GPT-5.2 с почти таким же результатом.
  • Другие модели — включая Claude Opus 4.5 и Gemini 3 Pro — завершали задания успешнее примерно в 18 % случаев.

Такие результаты означают, что системы чаще дают неверные ответы или вообще не справляются с задачей, чем выполняют её правильно — реальный предел их практического применения сегодня остается невысоким.

Почему агенты отстают

Глава Mercor объяснил, что самое трудное для ИИ-агентов — это работа в реальных условиях многодоменной деятельности: поиск нужной информации одновременно в разных источниках, понимание связи между разными документами и постепенное выстраивание логики решения. Это ключевой навык, который выделяет человека-профессионала от алгоритма, привыкшего к синтетическим данным.

Новая цель для разработчиков

Авторы исследования подчеркнули, что публикация APEX-Agents должна дать индустрии чёткий ориентир, на что стоит ориентироваться при развитии ИИ-агентов, если те должны стать действительно полезными в экономике. Сам benchmark опубликован открыто, что означает возможность для исследователей и компаний активно работать над улучшением показателей моделей.