Кейс 3. Автоматическая категоризация статей (RubixML)

Сценарий.

Есть поток текстов (новости, посты, статьи), нужно автоматически раскладывать их по категориям:

«спорт», «технологии», «экономика».

Почему TF–IDF.

– категории определяются лексикой

– интерпретируемость важна

– можно объяснить решение модели

Особенность кейса.

Можно показать важнейшие слова категории через веса TF–IDF.

Практическая польза.

– news-агрегаторы (привет EventumX 😉)

– внутренние порталы

– архивы документов

Ключевой вывод.

TF–IDF не только классифицирует, но и объясняет.

Last updated