Кейс 2: Оценка релевантности объекта

Использование скалярного произведения

Скалярное произведение векторов используется в задачах, где важно не расстояние между объектами и не только направление в пространстве признаков, а вклад каждого признака в итоговый результат. Такой подход лежит в основе линейных моделей, скоринга и большинства систем ранжирования.

Постановка задачи

Рассмотрим задачу оценки релевантности объекта. Пусть у нас есть набор объектов (например, пользователей, товаров или документов), и каждый из них описывается числовыми признаками:

частота использования
уровень активности
недавность взаимодействия

Каждый признак вносит разный вклад в итоговую оценку. Это знание мы кодируем в виде вектора весов.

Объект представляется вектором признаков

\mathbf{x} = (x_1, x_2, \dots, x_n)

А модель — вектором весов

\mathbf{w} = (w_1, w_2, \dots, w_n)

Почему именно скалярное произведение

Скалярное произведение вычисляет взвешенную сумму признаков:

\mathbf{x} \cdot \mathbf{w} = \sum_i x_i w_i

В этом кейсе:

важна сила признаков, а не только их относительные пропорции
масштаб значений имеет смысл
вклад каждого признака явно контролируется весами

Поэтому ни евклидово расстояние, ни косинусное сходство здесь не подходят.

Вариант 1. Реализация на чистом PHP

Скалярное произведение

function dotProduct(array $a, array $b): float {
    $n = count($a);

    if ($n !== count($b)) {
        throw new InvalidArgumentException('Vectors must have the same length');
    }

    $sum = 0.0;

    for ($i = 0; $i < $n; $i++) {
        $sum += $a[$i] * $b[$i];
    }

    return $sum;
}

Пример скоринга объекта

$features = [10, 5, 2];   // активность, сессии, покупки
$weights  = [0.3, 0.5, 1.5];

$score = dotProduct($features, $weights);

echo $score;

// Результат: 8.5
// Объяснение: 10 * 0.3 + 5 * 0.5 + 2 * 1.5 = 8.5

Чем выше значение, тем выше оценка релевантности объекта.

Интерпретация результата

первый признак вносит вклад 3.0
второй – 2.5
третий – 3.0

Результат легко интерпретируется и объясняется, что особенно важно в прикладных задачах.

Вариант 2. Реализация с использованием Rubix ML

В Rubix ML скалярное произведение используется внутри линейных моделей. Рассмотрим пример линейной регрессии без обучения – с заранее заданными весами.

Пример линейного, регрессионного скоринга

use Rubix\ML\Datasets\Labeled;
use Rubix\ML\Datasets\Unlabeled;
use Rubix\ML\Regressors\Ridge;

$samples = [
    [10, 5, 2],   // объект A
    [4, 1, 0],    // объект B
    [20, 8, 5],   // объект C
];

// Фиктивные целевые значения (для примера)
$labels = [8, 2, 15];

$dataset = new Labeled($samples, $labels);

new Ridge(alpha: 1.0);
$model->train($dataset);

// Новый объект
$newSample = [[9, 6, 4]];

$prediction = $model->predict(new Unlabeled($newSample));
print_r($prediction);

// Результат: Array
// (
//     [0] => 8.3
// )

Что происходит внутри

Ridge – это линейная регрессия с L2-регуляризацией (т.е. Ridge = Linear Regression + L2):

\hat y = w_1​x_1​+w_2 x_2​+w_3x_3​ + b

где веса находятся решением:

\mathbf{w} = \left( \mathbf{X}^\top \mathbf{X} + \alpha \mathbf{I} \right)^{-1} \mathbf{X}^\top \mathbf{y}

Связь с линейными моделями

Скалярное произведение — это сердце линейных моделей:

линейная регрессия
логистическая регрессия
линейные классификаторы
нейронные сети (на уровне отдельных нейронов)

Каждый нейрон фактически вычисляет скалярное произведение входов и весов.

Короткий вывод

Важно: скалярное произведение используется в задачах, где важно учитывать вклад каждого признака в результат. Оно позволяет напрямую моделировать влияние признаков и лежит в основе линейных моделей и скоринговых систем.

Эта идея станет ключевой при переходе к обучаемым моделям, где веса вектора ( $\mathbf{w}$ ) подбираются автоматически на данных.

PreviousКейс 1: Сравнение объектов и пользователей NextКейс 3: Сравнение текстов

Last updated 17 days ago

hashtagПостановка задачи

hashtagПочему именно скалярное произведение

hashtagВариант 1. Реализация на чистом PHP

hashtagВариант 2. Реализация с использованием Rubix ML

hashtagСвязь с линейными моделями

hashtagКороткий вывод

Постановка задачи

Почему именно скалярное произведение

Вариант 1. Реализация на чистом PHP

Вариант 2. Реализация с использованием Rubix ML

Связь с линейными моделями

Короткий вывод