https://boda.su/posts/id33719-ii-sotrudniki-provalili-realnyj-ofisnyj-test-chto-eto-znachit-dlja-buduschego-vashej-raboty

ИИ-«сотрудники» провалили реальный офисный тест: что это значит для будущего вашей работы

Новый ориентир APEX-Agents показывает: ИИ-агенты пока не готовы заменить знания в офисной работе

ИИ-«сотрудники» провалили реальный офисный тест: что это значит для будущего вашей работы

Новый ориентир APEX-Agents показывает: ИИ-агенты пока не готовы заменить знания в офисной работе

2026-01-27T03:17+03:00

Технологии

/html/head/meta[@name='og:title']/@content

/html/head/meta[@name='og:description']/@content

https://boda.su/uploads/inner/mjv82Toi9ZjZRwS46XPx.jpg

Основные выводы нового бенчмарка Исследование, проведенное компанией Mercor, впервые оценило, насколько современные автономные ИИ-агенты способны выполнять задачи, свойственные высококвалифицированной офисной работе — например, в консалтинге, инвестиционном банкинге или юридической практике. Вместо простых проверок знаний или базовых навыков, новый тест поставил перед моделями реальные профессиональные вопросы, с которыми ежедневно сталкиваются эксперты в своих областях. Что такое APEX-Agents APEX-Agents — это первый в своем роде AI Productivity Index, который измеряет способность ИИ-агентов решать долгосрочные задачи, требующие удержания контекста, работы с несколькими приложениями и ориентирования в документообороте. В отличие от традиционных тестов, новых заданий нельзя решить, просто вспоминая факты — они требуют анализа, сопоставления данных из разных источников и междисциплинарного мышления. Результаты тестирования По итогам испытаний ни одна из протестированных моделей не показала высокой эффективности: Лидером стал Gemini 3 Flash, который справился только с около 24 % заданий при первой попытке. За ним следовал GPT-5.2 с почти таким же результатом. Другие модели — включая Claude Opus 4.5 и Gemini 3 Pro — завершали задания успешнее примерно в 18 % случаев. Такие результаты означают, что системы чаще дают неверные ответы или вообще не справляются с задачей, чем выполняют её правильно — реальный предел их практического применения сегодня остается невысоким. Почему агенты отстают Глава Mercor объяснил, что самое трудное для ИИ-агентов — это работа в реальных условиях многодоменной деятельности: поиск нужной информации одновременно в разных источниках, понимание связи между разными документами и постепенное выстраивание логики решения. Это ключевой навык, который выделяет человека-профессионала от алгоритма, привыкшего к синтетическим данным. Новая цель для разработчиков Авторы исследования подчеркнули, что публикация APEX-Agents должна дать индустрии чёткий ориентир, на что стоит ориентироваться при развитии ИИ-агентов, если те должны стать действительно полезными в экономике. Сам benchmark опубликован открыто, что означает возможность для исследователей и компаний активно работать над улучшением показателей моделей.

boda

info@boda.su

7 4832 33-77-66

boda

2026

Алексей Фёдоров

Статьи

ru-RU

boda

info@boda.su

7 4832 33-77-66

boda

1366

768

true

1366

768

true

boda

info@boda.su

7 4832 33-77-66

boda

Алексей Фёдоров

Технологии

ИИ-«сотрудники» провалили реальный офисный тест: что это значит для будущего вашей работы

Новый ориентир APEX-Agents показывает: ИИ-агенты пока не готовы заменить знания в офисной работе

Алексей Фёдоров

27.01.2026

Generated by DALL·E

Основные выводы нового бенчмарка

Исследование, проведенное компанией Mercor, впервые оценило, насколько современные автономные ИИ-агенты способны выполнять задачи, свойственные высококвалифицированной офисной работе — например, в консалтинге, инвестиционном банкинге или юридической практике. Вместо простых проверок знаний или базовых навыков, новый тест поставил перед моделями реальные профессиональные вопросы, с которыми ежедневно сталкиваются эксперты в своих областях.

Что такое APEX-Agents

APEX-Agents — это первый в своем роде AI Productivity Index, который измеряет способность ИИ-агентов решать долгосрочные задачи, требующие удержания контекста, работы с несколькими приложениями и ориентирования в документообороте. В отличие от традиционных тестов, новых заданий нельзя решить, просто вспоминая факты — они требуют анализа, сопоставления данных из разных источников и междисциплинарного мышления.

Результаты тестирования

По итогам испытаний ни одна из протестированных моделей не показала высокой эффективности:

Лидером стал Gemini 3 Flash, который справился только с около 24 % заданий при первой попытке.
За ним следовал GPT-5.2 с почти таким же результатом.
Другие модели — включая Claude Opus 4.5 и Gemini 3 Pro — завершали задания успешнее примерно в 18 % случаев.

Такие результаты означают, что системы чаще дают неверные ответы или вообще не справляются с задачей, чем выполняют её правильно — реальный предел их практического применения сегодня остается невысоким.

Почему агенты отстают

Глава Mercor объяснил, что самое трудное для ИИ-агентов — это работа в реальных условиях многодоменной деятельности: поиск нужной информации одновременно в разных источниках, понимание связи между разными документами и постепенное выстраивание логики решения. Это ключевой навык, который выделяет человека-профессионала от алгоритма, привыкшего к синтетическим данным.

Новая цель для разработчиков

Авторы исследования подчеркнули, что публикация APEX-Agents должна дать индустрии чёткий ориентир, на что стоит ориентироваться при развитии ИИ-агентов, если те должны стать действительно полезными в экономике. Сам benchmark опубликован открыто, что означает возможность для исследователей и компаний активно работать над улучшением показателей моделей.