В последнее время нам каждый день рассказывают в новостях, как нейросетки сегодня оставят лично вас без работы. При этом мало кто понимает – как нейросети работают внутри? В этой статье объясним всё, чтобы поняли все.
Если вы уже недоумеваете, почему мы всё ещё говорим о «предсказании одного следующего слова», тогда как тот же ChatGPT смело отвечает целыми портянками — не ломайте голову. Языковые модели без труда генерируют длинные тексты, но делают они это по принципу «слово за словом». ПОпять же, сильно упрощая, после генерации каждого нового слова, модель заново прогоняет через себя весь предыдущий текст вместе с только что написанным дополнением, и ставит следующее слово, а в результате получается связный текст.
GPT-2 вышла в 2019 году и превосходила GPT-1 и по объему тренировочных текстовых данных, и по размеру самой модели в 10 раз. Такой количественный рост привел к тому, что модель вдруг самообучилась качественно новым навыкам: от сочинения длинных эссе, до решения хитрых задачек, требующих построения картины мира.