Кейс 2. Поиск похожих записей (deduplication / near-duplicates)

Сценарий

Есть массив текстов (новости, описания товаров, события). Нужно найти дубликаты и «почти дубликаты».

Что демонстрируем

– сравнение всех со всеми

– выбор порога similarity

– практическую геометрию эмбеддингов

Как запустить

  1. Берём список текстов

  2. Считаем эмбеддинги

  3. Сравниваем пары

  4. Выводим группы похожих

Практическая польза

– очистка данных

– агрегация новостей

– борьба со спамом

Инженерный инсайт

ML без правил и without NLP-хака.

Last updated