Интеллект-стек 2023 - стр. 67
Маленький ребёнок насматривается, наслушивается, наигрывается – он тренирует нейронные сети в своём мозгу. Это неважно, что его не учили писать, читать, логично размышлять. Говорить ребёнок сможет, какие-то проблемы решать (обобщать примеры ситуаций, виденные им в жизни на новые ситуации, в чём-то похожие на старые) ребёнок тоже сможет. Даниэль Канеман подчёркивал, что режим S1 вполне обеспечивает речь, это вовсе не только «образное мышление», «визуальное мышление». Символические рассуждения в S1 вполне возможны! Невозможно только «алгеброй гармонию поверить», если что-то «показалось» или «почудилось», то в этом режиме нельзя логически покритиковать «привидевшееся» и отвергнуть. Хотя интуитивно и это можно, умение вести логические рассуждения появляется как эмерджентное свойство, оно тоже может познаваться/learn на примерах, и потом обобщаться.
S1 обеспечивает быстрые, неточные, с большим числом логических ошибок результаты. Кроме того, S1 не может объяснить полученные результаты. Но интуиция, «нюх» (включая самые разные математические, логические, физические интуиции), самые разнообразные ассоциации – это всё S1 поддерживает.
Если человек или компьютер с нейросеткой много видел, участвовал во многих ситуациях, много читал, много смотрел видео (и не только художественных фильмов, но и документальных фильмов), то речь у него будет богатой, ассоциации точными и не ограниченными одной модальностью восприятия (видео, аудио, кинестетикой, вкусом, запахом).
Сколько это – много? Это зависит от размера нейросетки. Есть работа99, показывающая зависимость размера нейросетки от оптимальной «насмотренности»: если насмотреться меньше, то аппаратные возможности недоиспользованы, если насмотреться больше – результата не будет, только зря потраченное время на познание, «некуда запоминать результаты». Если очень грубо, то для 40—70 млрд параметров нейросети для обучения надо предъявлять последовательности из 1.4 триллиона токенов (токен – это какой-то элемент как потенциальный носитель смысла, например пиксель, воксель, аудиоотсчёт, буква, слог или часть слова – корень, суффикс, приставка). Мощность человеческого мозга по отношению к оптимальности практически неограничена, нужно довольно долго (сейчас – порядка двадцати пяти лет) насматривать/нарабатывать/начитывать мозг, чтобы он начал выдавать приемлемые результаты мышления. Но нет насмотренности – привет на работе пятилетнему ребёнку, он тоже человек, просто насмотренности поменьше!
Большие языковые модели (large language models), с которыми работают сейчас в области AI, тут мало отличаются: они начитаны, удивительно творческие, хорошо пишут школьные сочинения и даже журнальные статьи, но удивительно глупы: в сгенерированных ими текстах есть ошибки, и эти сетки не трудятся их обнаружить и исправить. Со временем эта ситуация исправляется, ошибок у нейросетей меньше и меньше, и у взрослых людей ошибок меньше и меньше, но всё равно это не полная безошибочность строгого математического вычисления.
Первая же догадка, которая приходит «на ум» (живому человеку или компьютерной нежити) выдаётся как результат. Если догадка была в связи с очень похожей на уже встреченные в жизни ситуации (опыт имеет значение!), то всё ОК. Если ситуация отличается, то вероятность ошибки догадки тем больше, чем больше отличается новая ситуация от ранее встреченных. Так что начинаем мы с практики понятизации, как самой основы мышления, но практики абсолютно недостаточной для качественного мышления.