Сценарий.
Есть набор текстов (статьи, заметки, тикеты). Пользователь вводит запрос, нужно найти самый похожий текст.
Почему BoW / TF–IDF.
Это классическая задача информационного поиска, исторически именно для неё TF–IDF и придумали.
Что делаем.
– строим TF–IDF для всех документов
– строим TF–IDF для запроса
– считаем cosine similarity
– сортируем по убыванию
Практическая польза.
– поиск по базе знаний
– поиск по логам
– FAQ без LLM
Технически.
– TF–IDF: чистый PHP (из примера главы)
– cosine similarity: одна функция
– никаких библиотек
Ключевой вывод.
Даже без нейросетей можно делать осмысленный поиск.
Last updated 13 days ago