Где LLM ошибаются математически

Галлюцинации, распределения, bias.

LLM не "думают" в привычном для нас смысле. Они оптимизируют вероятность следующего токена:

P(x_t \mid x_{<t})

И минимизируют кросс-энтропию:

\mathcal{L} = - \sum_{t} \log P_\theta(x_t \mid x_{<t})

Математически всё красиво. Но именно из этой формулы вырастают ошибки, которые в человеческом мире выглядят как:

галлюцинации
уверенная ложь
статистические перекосы
игнорирование базовых вероятностей
систематический bias

В этой главе разберём, почему это неизбежно.

Галлюцинация – это максимум вероятности, а не максимум истины

LLM выбирает:

\hat{x}_t = \arg\max_x P(x \mid context)

Она не выбирает "правду". Она выбирает наиболее вероятное продолжение.

Если в обучающем корпусе часто встречается структура:

"Профессор Иванов из Гарварда в 1998 году доказал…"

то при вопросе:

Кто доказал X?

модель может синтезировать правдоподобное имя, даже если такого человека не существует.

Галлюцинация возникает, когда:

\max_x P(x \mid context) \notin \text{множество истинных фактов}

То есть наиболее вероятное ≠ истинное.

Ошибка накопления вероятностей

Представим, что модель генерирует цепочку из 20 токенов. Пусть средняя вероятность каждого токена 0.9.

Тогда вероятность всей последовательности:

0.9^{20} \approx 0.12

То есть уже на 20 шагах вероятность целостного ответа падает драматически.

Чем длиннее рассуждение, тем выше риск накопления ошибки. Это особенно заметно в математике. Если модель ошиблась в промежуточном вычислении, всё дальнейшее логически последовательно – но основано на ложной базе.

Почему LLM плохо считают

LLM – не калькулятор. Они не выполняют арифметику алгоритмически. Они воспроизводят паттерны вычислений.

Если спросить:

347 × 829 = ?

Модель не перемножает числа. Она пытается восстановить вероятный шаблон умножения.

И если подобные примеры были редкими в обучении – возрастает ошибка.

Это связано с тем, что умножение – алгоритмическая задача, а LLM – вероятностная модель.

PHP-демонстрация разницы

function llm_style_multiplication($a, $b) {
    // имитация "угадывания"
    return round($a * $b + rand(-5, 5));
}

function real_multiplication($a, $b) {
    return $a * $b;
}

echo "LLM style: " . llm_style_multiplication(347, 829) . "\n";
echo "Real math: " . real_multiplication(347, 829) . "\n";

Идея в том, что LLM ближе к "статистическому угадыванию", чем к детерминированному вычислению.

Base Rate Neglect – игнорирование базовой вероятности

В статистике есть эффект: игнорирование априорной вероятности.

Формула Байеса:

P(A \mid B) = \frac{P(B \mid A) P(A)}{P(B)}

LLM часто демонстрируют поведение, похожее на игнорирование P(A).

Пример:

1% населения имеет болезнь
тест точен на 99%

Человек с положительным тестом не имеет 99% вероятности быть больным.

Правильный расчёт:

P(\text{болезнь} \mid +) \approx 50\%

Но LLM часто дают интуитивный ответ – 99%.

Почему? Потому что корпус текстов чаще содержит линейные объяснения, чем аккуратные байесовские расчёты.

Distribution Shift – сдвиг распределения

LLM обучаются на распределении данных:

P_{train}(x)

Но работают в среде:

P_{real}(x)

Если:

P_{train}(x) \neq P_{real}(x)

возникают ошибки.

Пример:

модель обучалась на академических текстах
её спрашивают о нишевом стартапе из 2025 года

Она вынуждена интерполировать.

Галлюцинация – это часто попытка заполнить пробел в распределении.

Bias как математическое явление

В машинном обучении bias – это:

\text{Bias} = \mathbb{E}[\hat{y}] - y

Это систематическое отклонение.

У LLM bias проявляется как:

культурный перекос
языковой перекос
частотный перекос
политический перекос

Причина проста:

P(x) \propto \text{частота в корпусе}

Если определённая точка зрения встречается чаще – она получает больший вес.

Temperature усиливает или ослабляет ошибки

Формула softmax с температурой:

P_i = \frac{e^{z_i / T}}{\sum_j e^{z_j / T}}

Если:

$T → 0$ – модель становится детерминированной
$T → ∞$ – распределение выравнивается

Высокая температура усиливает галлюцинации.

Низкая – усиливает повторяемость bias.

PHP-демонстрация температуры

function softmax($logits, $temperature = 1.0) {
    $exp = [];
    $sum = 0;

    foreach ($logits as $logit) {
        $value = exp($logit / $temperature);
        $exp[] = $value;
        $sum += $value;
    }

    return array_map(fn($v) => $v / $sum, $exp);
}

$logits = [2.0, 1.5, 0.5];

print_r(softmax($logits, 0.5));
print_r(softmax($logits, 2.0));

Попробуйте разные температуры и посмотрите, как "уверенность" модели меняется.

Почему логика ≠ гарантия истины

LLM может построить идеально логичную цепочку:

A → B

B → C

C → D

Но если A неверно, всё остальное – аккуратно выстроенная ошибка.

Это называется error propagation.

В длинных chain-of-thought рассуждениях вероятность накопленной ошибки растёт экспоненциально.

Галлюцинация как оптимизация правдоподобия

Важная мысль:

LLM оптимизирует правдоподобие, а не верифицируемость.

Она не проверяет:

существует ли книга
существует ли статья
существует ли цитата

Если шаблон "выглядит правдоподобно" – вероятность высока.

И модель выбирает его.

Что с этим делать разработчику?

Если вы строите LLM-системы на PHP:

Используйте верификацию через внешние источники
Разделяйте генерацию и вычисления
Для математики – подключайте реальные вычислители
Используйте retrieval (RAG)
Снижайте температуру в критичных сценариях
Проверяйте ответы вторичной моделью

Архитектурный паттерн

$llm_answer = askLLM($question);

if (containsMath($llm_answer)) {
    $verified = calculateExternally($llm_answer);
    return $verified;
}

return $llm_answer;

Итог

LLM ошибаются не потому, что "глупые".

Они ошибаются потому, что:

оптимизируют вероятность
обучаются на смещённых распределениях
не имеют встроенного механизма проверки истины
накапливают ошибку в длинных цепочках
чувствительны к temperature
воспроизводят частотный bias

Математически это неизбежно.

И именно понимание этой неизбежности делает вас сильнее как инженера.

PreviousКейс 7. Генерация фишинговых писем как учебный эксперимент NextПрактические кейсы

Last updated 10 days ago

hashtagГаллюцинация – это максимум вероятности, а не максимум истины

hashtagГаллюцинация возникает, когда:

hashtagОшибка накопления вероятностей

hashtagПочему LLM плохо считают

hashtagPHP-демонстрация разницы

hashtagBase Rate Neglect – игнорирование базовой вероятности

hashtagDistribution Shift – сдвиг распределения

hashtagBias как математическое явление

hashtagTemperature усиливает или ослабляет ошибки

hashtagPHP-демонстрация температуры

hashtagПочему логика ≠ гарантия истины

hashtagГаллюцинация как оптимизация правдоподобия

hashtagЧто с этим делать разработчику?

hashtagИтог