Когда системы искусственного интеллекта начали демонстрировать почти идеальные результаты на тестах, которые считались сложными, эксперты начали переживать: не стали ли такие задания слишком лёгкими для всё более продвинутых нейросетей?
Известный экзамен MMLU, который ранее ставил перед машинами сложные задачи, перестал адекватно отражать реальные возможности современных моделей. Для того чтобы вновь оценить пределы ИИ, международная команда из почти тысячи исследователей разработала совершенно новый тест — «Последний экзамен человечества» (Humanity’s Last Exam, HLE).
HLE состоит из 2500 заданий по математике, гуманитарным наукам, естественным наукам, древним языкам и многим узкоспециализированным областям. В числе заданий — перевод древнепальмирских текстов, определение мельчайших анатомических структур у птиц и анализ особенностей произношения библейского иврита. Каждый вопрос имеет единственно верный ответ и сформулирован так, чтобы его нельзя было решить простым поиском в интернете.
Процесс отбора вопросов оказался достаточно строгим: если хотя бы одна ведущая модель ИИ правильно отвечала на вопрос, он исключался из окончательной версии. В результате экзамен оказался за пределами возможностей, которые современные системы способны надёжно решать. На начальных этапах тестирования GPT-4o набрал лишь 2,7% правильных ответов, Claude 3.5 Sonnet — 4,1%, а модель o1 от OpenAI — 8%. Наиболее мощные системы в настоящее время достигают 40−50%.

«Когда ИИ-системы начинают блестяще справляться с тестами, возникает соблазн думать, что они приближаются к человеческому интеллекту, — отмечает один из участников проекта, профессор Техасского университета A&M Тунг Нгуен, создавший 73 вопроса для экзамена. — Но HLE напоминает нам, что интеллект — это не только выявление закономерностей. Это также глубина, контекст и специализированная экспертиза».
Несмотря на драматичное название, экзамен не направлен на доказательство того, что люди «устаревают». Напротив, он подчеркивает, сколько знаний и опыта остаётся исключительным для человека. «Это не соревнование с ИИ, — объясняет Нгуен. — Это инструмент для понимания, в чём эти системы сильны, а в чём они испытывают затруднения. Без точных инструментов оценки работы нейросетей разработчики и пользователи рискуют неверно интерпретировать, что ИИ на самом деле умеет».
Некоторые вопросы опубликованы открыто, но большинство остаётся скрытыми, чтобы модели не могли просто «запомнить» ответы в процессе обучения. «Пока “Последний экзамен человечества” остаётся одной из самых чётких оценок разрыва между ИИ и человеческим интеллектом, — подчеркивает Нгуен, — и, несмотря на стремительный прогресс технологий, этот разрыв всё ещё велик».
Фото: hi-tech.mail.ru
