Сценарий.
Есть поток текстов (новости, посты, статьи), нужно автоматически раскладывать их по категориям:
«спорт», «технологии», «экономика».
Почему TF–IDF.
– категории определяются лексикой
– интерпретируемость важна
– можно объяснить решение модели
Особенность кейса.
Можно показать важнейшие слова категории через веса TF–IDF.
Практическая польза.
– news-агрегаторы (привет EventumX 😉)
– внутренние порталы
– архивы документов
Ключевой вывод.
TF–IDF не только классифицирует, но и объясняет.
Last updated 15 days ago