Кейс 2. Поиск похожих записей (deduplication / near-duplicates)

Сценарий

Есть массив текстов (новости, описания товаров, события). Нужно найти дубликаты и «почти дубликаты».

Что демонстрируем

– сравнение всех со всеми

– выбор порога similarity

– практическую геометрию эмбеддингов

Как запустить

Берём список текстов
Считаем эмбеддинги
Сравниваем пары
Выводим группы похожих

Практическая польза

– очистка данных

– агрегация новостей

– борьба со спамом

Инженерный инсайт

ML без правил и without NLP-хака.

PreviousКейс 1. Семантический поиск по текстовым документам (без БД)NextКейс 3. Семантический FAQ / поиск по базе знаний

Last updated 1 month ago