Практические кейсы

Во многих задачах машинного обучения объекты представлены в виде векторов признаков. Чтобы сравнивать такие объекты, необходимо формально определить, что значит "похоже" или "непохоже". Именно эту роль и играет мера расстояния или сходства.

Как выбрать меру расстояния

Выбор метрики – это, по сути, способ формализовать ваше представление того, насколько похожи объекты..

  • Если для задачи важна геометрическая близость и масштаб признаков, естественным выбором становится евклидово расстояние. Оно хорошо работает в пространствах, где координаты имеют понятный физический или числовой смысл.

  • Если ключевую роль играет сила взаимодействия признаков и их вклад в результат, используется скалярное произведение (dot product). Оно лежит в основе линейных моделей и позволяет оценивать, насколько два вектора "усиливают" друг друга.

  • Если же важен смысл и направление, особенно в задачах работы с текстами и эмбеддингами, применяется косинусное сходство. Оно сравнивает векторы независимо от их длины и позволяет корректно работать с объектами разного масштаба.

Важно понимать, что алгоритм машинного обучения сам по себе не знает, что такое "похоже". Он оперирует только числами, которые получает на вход. Мера расстояния – это перевод вашей интуиции и знания предметной области на язык математики. От этого выбора напрямую зависит поведение алгоритма, а также качество получаемых результатов.

На следующих страницах мы рассмотрим реальные практические кейсы, в которых эти меры расстояния применяются для решения конкретных задач, – с подробным разбором и примерами кода на PHP:


circle-check

Дополнительные материалы доступны в PRO версии книги

lock-keyhole-open

Получить доступ к PRO кейсам

cc-paypalБезопасная оплата через PayPal

После оплаты вы получите ссылку на PRO материалы.

Last updated