Исследование Apple: сложности ИИ в сложных рассуждениях
Перед конференцией WWDC Apple опубликовала исследование под названием «Иллюзия мышления: понимание сильных и слабых сторон моделей рассуждений через призму сложности задач». В нем протестировали несколько ИИ-моделей, включая Claude от Anthropic, модели OpenAI, DeepSeek R1 и Thinking от Google. Цель — проверить, насколько хорошо эти системы справляются с задачами, требующими сложных рассуждений.
Проблемы стандартных методов оценки
Исследование критикует стандартные методы оценки Large Reasoning Models (LRM) с помощью математических и кодинговых тестов. По мнению авторов, эти методы страдают от «загрязнения данных» и не дают полного представления о структуре и качестве рассуждений. Вместо них предложили использовать алгоритмические головоломки — более точный способ оценки возможностей ИИ.
Современные модели, такие как o3-mini, DeepSeek-R1 и Claude-3.7-Sonnet-Thinking, показали слабые результаты в решении сложных задач. Их точность падает до нуля при увеличении сложности. Это подчеркивает ключевую проблему: ИИ пока не способен стабильно справляться с комплексными сценариями.
Еще один неожиданный вывод — модели уменьшают усилия на рассуждения по мере роста сложности задачи. Вместо того чтобы тратить больше «мысленных ресурсов» (измеряемых в токенах), они сокращают их использование, что приводит к резкому падению точности.
Что дальше?
Исследование указывает на необходимость пересмотра методов оценки ИИ и понимания фундаментальных ограничений LRM. Возможно, Apple учтет эти данные при разработке будущих стратегий, сосредоточившись на областях, где текущие методы ИИ пока ненадежны.