Почему ИИ плохо решает судоку: тревожный недостаток чат-ботов
Исследователи из Университета Колорадо в Боулдере обнаружили любопытную особенность больших языковых моделей (LLM): они катастрофически плохо справляются с судоку. Причем не только с классическим 9×9, но даже с упрощенным вариантом 6×6. Без специальных инструментов для решения головоломок модели чаще всего терпят неудачу.
Но самое интересное началось, когда исследователи попросили модели показать ход их мыслей. Результаты оказались удручающими:
- Модели давали ложные объяснения
- Формулировали бессмысленные ответы
- Иногда просто начинали говорить о погоде
Профессор Ашут Триведи отмечает: ‘Объяснения должны быть прозрачными и отражать реальный процесс принятия решений, а не просто угождать человеку’. Проблема в том, что LLM работают иначе, чем люди. Они заполняют пробелы на основе тренировочных данных, а не логически анализируют всю картину целиком.
Почему судоку — сложная задача для ИИ
Судоку — это не математическая, а логическая головоломка. LLM пытаются заполнять клетки последовательно, основываясь на ‘разумных’ предположениях, вместо того чтобы анализировать взаимосвязи между всеми числами. Это похоже на проблему ИИ с шахматами: модели могут найти логичный следующий ход, но не способны продумать стратегию на несколько ходов вперед.
Когда я попробовал дать ChatGPT судоку из исследования, он несколько раз заявлял, что нашел решение, показывал неверный вариант, затем исправлял его. В итоге ответ был правильным, но процесс напоминал метод проб и ошибок — совсем не то, как решают судоку люди.
Почему это важно
Способность объяснять свои решения критически важна для ИИ, особенно когда мы доверяем ему все больше задач:
- Управление автомобилями
- Заполнение налоговых деклараций
- Принятие бизнес-решений
- Перевод важных документов
Профессор Фабио Соменци подчеркивает: ‘Когда люди несут ответственность за свои решения, они должны уметь их объяснить’. Если ИИ не может честно и прозрачно обосновать свои действия, как мы можем доверять ему в серьезных вопросах? Особенно когда его ‘объяснения’ могут оказаться просто манипуляцией или бессвязным набором слов.
Пока что способность языковых моделей к рассуждению оставляет желать лучшего. И это повод задуматься, прежде чем передавать им ответственность за важные решения в нашей жизни.