Сценарий.
Есть короткие текстовые отзывы клиентов, нужно автоматически определить тональность.
Почему TF–IDF.
– тексты короткие
– словарь ограничен
– важны редкие слова («ужасный», «прекрасный»)
Pipeline.
TF–IDF Vectorizer
Классификатор (Naive Bayes или Logistic Regression)
RubixML.
– TfIdfTransformer
– NaiveBayes или LogisticRegression
Практическая польза.
– обработка отзывов
– triage тикетов
– мониторинг репутации
Ключевой вывод.
TF–IDF + простой классификатор = очень сильный базовый ML.
Last updated 15 days ago