Сценарий
Есть массив текстов (новости, описания товаров, события). Нужно найти дубликаты и «почти дубликаты».
Что демонстрируем
– сравнение всех со всеми
– выбор порога similarity
– практическую геометрию эмбеддингов
Как запустить
Берём список текстов
Считаем эмбеддинги
Сравниваем пары
Выводим группы похожих
Практическая польза
– очистка данных
– агрегация новостей
– борьба со спамом
Инженерный инсайт
ML без правил и without NLP-хака.
Last updated 11 days ago