Образование для образованных. 2021 - стр. 39
Главное направление в обучении AI решению самых разных задач, связанных с пониманием естественного языка – это использование так называемых больших языковых моделей. Берётся огромная нейронная сеть. Насколько огромная? На данный момент речь идёт о единицах триллионов настраиваемых индивидуально в ходе обучения параметров, но уже ожидается и до сотни триллионов параметров. Этой нейронной сети скармливается огромное/gargantuan число самых разных текстов на всех доступных языках (так, для обучения языковой модели GPT-3 вся википедия составила только 3% от использованных текстов). В этих текстах отражены как и какие-то свойства языков в целом (кормят текстами отнюдь не только одного языка, и даже не только естественного языка, но кодами на языках программирования), так и какие-то свойства мира (ибо все эти тексты о чём-то в мире, речь не идёт о фантастике и сказках). В последнее время в обучение добавляют не только тексты, но и фотографии, рисунки, и даже видео. Нейронная сетка выучивает из всех этих описаний мира что-то общее про языки и мир. Это называется pre-train, предобучение. И занимает это предобучение довольно много времени и денег – одна предобученная языковая модель на пару сотен миллиардов параметров на середину 2020 года могла обходиться в десятки миллионов долларов78, и эта ситуация не меняется: стоимость суперкомпьютеров падает, но размеры нейронных сетей растут, и речь идёт уже о триллионах параметров! Бакалавриат для нейронных сетей оказался весьма недешёв, и занимаются созданием универсальных предобученных языковых моделей только несколько очень крупных и богатых фирм мира (в России, например, это Сбер и Яндекс79).
Предобучение даёт нейронной сети какие-то знания о языке и мире, но языковая модель сама по себе не может при этом решать никаких прикладных задач. Про задачи и конкретные предметные области эта сеть ничего не знает. Это сеть-школьник, сеть-бакалавр!
Так что потом идёт fine-tune, прикладная подстройка: берётся эта безумно дорогая предобученная языковая модель и очень быстро и дёшево на небольшом прикладном материале (скажем, несколько книг) доучивается решать одну или даже десять разных прикладных задач в какой-то узкой предметной области. Например, можно быстро доучить такую языковую модель сдавать экзамен MIT по курсу машинного обучения с результатами лучше, чем у студентов80.
Это оказывается экономически эффективно: дорогое и долгое предобучение делается один раз, результат запоминается. Потом подстройка делается легко и быстро каждый раз. За пару последних лет такой подход предобучения+настройки стал мейнстримом в AI81. И чем больше и лучше предобученная языковая модель, тем дешевле и быстрее для неё делать подстройку для какого-то класса задач. Большие деньги на предобучение языковой модели нужно затратить один раз, а на прикладную подстройку много денег не нужно, так что это можно делать много раз для самых разных предметных областей82.
Более того, качественное предобучение часто оказывается достаточным, и подстройки не требуется вообще! Новая парадигма машинного интеллекта связана не с «предобучи, потом подстрой», а с «предобучи, получи приглашение/prompt, предскажи»83 (prompt engineering, иногда называют это Software 3.0).