ИИ-«сотрудники» провалили реальный офисный тест: что это значит для будущего вашей работы
Новый ориентир APEX-Agents показывает: ИИ-агенты пока не готовы заменить знания в офисной работе
Generated by DALL·E
Основные выводы нового бенчмарка
Исследование, проведенное компанией Mercor, впервые оценило, насколько современные автономные ИИ-агенты способны выполнять задачи, свойственные высококвалифицированной офисной работе — например, в консалтинге, инвестиционном банкинге или юридической практике. Вместо простых проверок знаний или базовых навыков, новый тест поставил перед моделями реальные профессиональные вопросы, с которыми ежедневно сталкиваются эксперты в своих областях.
Что такое APEX-Agents
APEX-Agents — это первый в своем роде AI Productivity Index, который измеряет способность ИИ-агентов решать долгосрочные задачи, требующие удержания контекста, работы с несколькими приложениями и ориентирования в документообороте. В отличие от традиционных тестов, новых заданий нельзя решить, просто вспоминая факты — они требуют анализа, сопоставления данных из разных источников и междисциплинарного мышления.
Результаты тестирования
По итогам испытаний ни одна из протестированных моделей не показала высокой эффективности:
- Лидером стал Gemini 3 Flash, который справился только с около 24 % заданий при первой попытке.
- За ним следовал GPT-5.2 с почти таким же результатом.
- Другие модели — включая Claude Opus 4.5 и Gemini 3 Pro — завершали задания успешнее примерно в 18 % случаев.
Такие результаты означают, что системы чаще дают неверные ответы или вообще не справляются с задачей, чем выполняют её правильно — реальный предел их практического применения сегодня остается невысоким.
Почему агенты отстают
Глава Mercor объяснил, что самое трудное для ИИ-агентов — это работа в реальных условиях многодоменной деятельности: поиск нужной информации одновременно в разных источниках, понимание связи между разными документами и постепенное выстраивание логики решения. Это ключевой навык, который выделяет человека-профессионала от алгоритма, привыкшего к синтетическим данным.
Новая цель для разработчиков
Авторы исследования подчеркнули, что публикация APEX-Agents должна дать индустрии чёткий ориентир, на что стоит ориентироваться при развитии ИИ-агентов, если те должны стать действительно полезными в экономике. Сам benchmark опубликован открыто, что означает возможность для исследователей и компаний активно работать над улучшением показателей моделей.