Apple исследовала слабые места ИИ в сложных задачах. Тесты показали падение точности моделей при увеличении сложности, выявив ключевые ограничения технологий.
Главная » Исследование Apple: сложности ИИ в сложных рассуждениях
| | |

Исследование Apple: сложности ИИ в сложных рассуждениях

Перед конференцией WWDC Apple опубликовала исследование под названием «Иллюзия мышления: понимание сильных и слабых сторон моделей рассуждений через призму сложности задач». В нем протестировали несколько ИИ-моделей, включая Claude от Anthropic, модели OpenAI, DeepSeek R1 и Thinking от Google. Цель — проверить, насколько хорошо эти системы справляются с задачами, требующими сложных рассуждений.

Проблемы стандартных методов оценки

Исследование критикует стандартные методы оценки Large Reasoning Models (LRM) с помощью математических и кодинговых тестов. По мнению авторов, эти методы страдают от «загрязнения данных» и не дают полного представления о структуре и качестве рассуждений. Вместо них предложили использовать алгоритмические головоломки — более точный способ оценки возможностей ИИ.

Современные модели, такие как o3-mini, DeepSeek-R1 и Claude-3.7-Sonnet-Thinking, показали слабые результаты в решении сложных задач. Их точность падает до нуля при увеличении сложности. Это подчеркивает ключевую проблему: ИИ пока не способен стабильно справляться с комплексными сценариями.

Еще один неожиданный вывод — модели уменьшают усилия на рассуждения по мере роста сложности задачи. Вместо того чтобы тратить больше «мысленных ресурсов» (измеряемых в токенах), они сокращают их использование, что приводит к резкому падению точности.

Что дальше?

Исследование указывает на необходимость пересмотра методов оценки ИИ и понимания фундаментальных ограничений LRM. Возможно, Apple учтет эти данные при разработке будущих стратегий, сосредоточившись на областях, где текущие методы ИИ пока ненадежны.

Похожие записи

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *