Почему LLM – это модели next-token prediction

Вероятности, softmax, контекст.

Несмотря на весь хайп, интерфейсы, "разумность" и разговорный стиль и прочее, о чём вы можете прочитать в Интернете, большие языковые модели вроде OpenAI GPT-4 делают на самом деле одну предельно простую вещь:

Они предсказывают следующий токен.

И всё.

Ни "понимания", ни "мышления" в человеческом смысле в формуле нет. Есть последовательность символов – и задача продолжить её статистически наиболее правдоподобным образом.

Но именно эта простая формулировка, доведённая до гигантских масштабов данных и параметров, и создаёт ту магию, которая сводит с ума любого, кто сталкивался с работой LLM.

Формальная постановка задачи

Пусть у нас есть последовательность токенов:

x1,x2,x3,...,xt1x_1, x_2, x_3, ..., x_{t-1}

Модель должна оценить вероятность следующего токена:

P(xtx1,x2,...,xt1)P(x_t \mid x_1, x_2, ..., x_{t-1})

Это и есть задача next-token prediction.

Если последовательность – это текст:

Модель должна оценить вероятности для:

И выбрать (или сэмплировать) наиболее вероятный вариант.

Разложение вероятности всей последовательности

LLM обучается максимизировать вероятность всей последовательности текста:

P(x1,x2,...,xn)P(x_1, x_2, ..., x_n)

По правилу цепочки вероятностей:

P(x1,...,xn)=t=1nP(xtx1,...,xt1)P(x_1, ..., x_n) = \prod_{t=1}^{n} P(x_t \mid x_1, ..., x_{t-1})

То есть вся "магия текста" – это всего лишь произведение вероятностей каждого следующего токена. Приношу свои извинения, если ненароком разрушил ваши иллюзии относительно того, как работают LLM.

Но вот в чём парадокс: объяснение механизма не уничтожает феномен. Музыка – это колебания воздуха. Картина — пигмент на холсте. Любовь — биохимия. И всё же ни одно из этих описаний не делает переживание менее реальным для того, кто его испытывает.

Так что магия никуда не исчезает. Она просто меняет адрес: не внутри модели, а в столкновении модели и человека. Смысл возникает не в матрицах – а в вашем восприятии.

И если что-то и разрушилось, то, возможно, только иллюзия мистики. А восхищение сложностью – осталось.

Что такое токен?

Важно понимать: модель работает не со словами, а с токенами.

Токен может быть:

  • словом

  • частью слова

  • символом

  • знаком пунктуации

Например:

может разбиться на:

Модель предсказывает именно следующий токен, а не слово целиком.

Архитектура: где появляется вероятность?

Внутри LLM (обычно это Transformer) происходит следующее:

  1. Токены → эмбеддинги

  2. Несколько слоёв self-attention

  3. На выходе – вектор размерности d_model

  4. Линейная проекция в размер словаря

  5. Softmax → вероятности

Схема:

Линейная проекция в словарь

Пусть размер скрытого состояния:

htRdh_t \in \mathbb{R}^{d}

Размер словаря:

V=50000|V| = 50\,000

Последний слой – это просто линейная операция:

z=Wht+bz = W h_t + b

где:

  • WRV×dW \in \mathbb{R}^{|V| \times d}

  • zRVz \in \mathbb{R}^{|V|}

Каждый элемент ziz_i – это logit для ii-го токена.

Softmax – превращаем logits в вероятности

Softmax определён как:

Pi=ezij=1VezjP_i = \frac{e^{z_i}}{\sum_{j=1}^{|V|} e^{z_j}}

Это даёт распределение вероятностей по словарю.

Почему экспонента?

Она:

  • усиливает разницу между значениями

  • гарантирует положительность

  • делает нормировку удобной

28.1 Распределение вероятностей после softmax

Температура и контроль креативности

Перед softmax можно ввести температуру TT:

Pi=ezi/Tjezj/TP_i = \frac{e^{z_i / T}}{\sum_j e^{z_j / T}}
  • T<1T < 1 – распределение становится более "жёстким"

  • T>1T > 1 – более равномерным

Это напрямую влияет на креативность генерации.

Обучение – что именно минимизируется?

Используется cross-entropy loss:

L=logP(xttrue)L = - \log P(x_t^{true})

Если правильный токен имеет высокую вероятность – loss маленький.

Вся тренировка – это:

Максимизировать вероятность правильного следующего токена.

Никаких "ответов", "смыслов" или "истины" в формуле нет.

Контекст – откуда берётся "понимание"?

Модель не хранит знания в явном виде.

Она видит:

x1,...,xt1x_1, ..., x_{t-1}

Self-attention позволяет каждому токену учитывать все предыдущие.

Если раньше было:

то токен France влияет на скрытое состояние последнего токена через attention.

Контекст – это просто информация, закодированная в векторе hth_t.

28.2 Схема внимания на предыдущие токены

Почему это работает так хорошо?

Потому что язык статистически структурирован.

Если обучать модель на миллиардах текстов, она:

  • усваивает грамматику как статистический паттерн

  • усваивает факты как устойчивые последовательности

  • усваивает стиль как распределение вероятностей

То, что выглядит как "понимание", – это устойчивые вероятностные закономерности.

Минимальный пример next-token модели на PHP

Сделаем игрушечную модель на основе n-грамм.

Шаг 1 – подсчёт переходов

Шаг 2 – превращаем в вероятности

Шаг 3 – генерация

Это простейшая модель next-token prediction.

LLM делает то же самое, только:

  • контекст не 1 слово, а тысячи токенов

  • вместо таблицы – миллиарды параметров

  • вместо частот – нейросетевые веса

Важный философский вывод

LLM не "знает" ответ.

Она оценивает:

P(tokencontext)P(token \mid context)

Когда вы задаёте вопрос, модель:

  1. Кодирует его в вектор

  2. Предсказывает наиболее вероятное продолжение

  3. Делает это снова и снова

Ответ – это последовательность наиболее вероятных токенов.

Почему из next-token prediction возникает reasoning?

Потому что:

  • логические цепочки – это тоже устойчивые текстовые паттерны

  • доказательства, рассуждения и шаги решения встречаются в обучающих данных

  • модель учится продолжать их

Она не "думает" – она продолжает текст, который похож на рассуждение.

И этого (о чудо!) оказывается достаточно, чтобы:

  • писать код

  • решать задачи

  • объяснять теорию

  • строить планы

Связь с предыдущими главами

  • Attention объясняет, как учитывается контекст

  • Backpropagation объясняет, как настраиваются веса

  • Перцептрон и линейные комбинации – основа logits

LLM – это просто огромная композиция знакомых нам математических блоков.

Ключевая идея главы

Большая языковая модель – это вероятностный механизм продолжения последовательности.

Всё остальное – масштаб, данные и архитектурные детали.

Если это глубоко понять, становится ясно:

  • почему возникают галлюцинации

  • почему важен контекст

  • почему prompt engineering работает

  • почему temperature меняет стиль

  • почему fine-tuning меняет поведение

И становится понятно главное:

LLM – это не магия.

Это предсказание следующего токена, доведённое до экстремального масштаба.

Last updated