Кейс 2. Классификация отзывов: "положительный / отрицательный" (RubixML)

Сценарий.

Есть короткие текстовые отзывы клиентов, нужно автоматически определить тональность.

Почему TF–IDF.

– тексты короткие

– словарь ограничен

– важны редкие слова («ужасный», «прекрасный»)

Pipeline.

  1. TF–IDF Vectorizer

  2. Классификатор (Naive Bayes или Logistic Regression)

RubixML.

– TfIdfTransformer

– NaiveBayes или LogisticRegression

Практическая польза.

– обработка отзывов

– triage тикетов

– мониторинг репутации

Ключевой вывод.

TF–IDF + простой классификатор = очень сильный базовый ML.

Last updated