Кейс 1. Поиск похожих документов (чистый PHP)

Сценарий.

Есть набор текстов (статьи, заметки, тикеты). Пользователь вводит запрос, нужно найти самый похожий текст.

Почему BoW / TF–IDF.

Это классическая задача информационного поиска, исторически именно для неё TF–IDF и придумали.

Что делаем.

– строим TF–IDF для всех документов

– строим TF–IDF для запроса

– считаем cosine similarity

– сортируем по убыванию

Практическая польза.

– поиск по базе знаний

– поиск по логам

– FAQ без LLM

Технически.

– TF–IDF: чистый PHP (из примера главы)

– cosine similarity: одна функция

– никаких библиотек

Ключевой вывод.

Даже без нейросетей можно делать осмысленный поиск.

Last updated 2 months ago