Кейс 7. Медицинский скрининг
Выявление риска заболевания.
Медицинские задачи – это особая область, где машинное обучение используется очень осторожно. Здесь важно не просто предсказать класс, а правильно интерпретировать результат.
Логистическая регрессия в таких сценариях часто применяется для скрининга – предварительной оценки риска, а не постановки диагноза.
Цель кейса
Оценить вероятность наличия заболевания на основе базовых показателей пациента.
Модель должна:
Оценить риск
Помочь выделить пациентов, которым нужно дополнительное обследование
Работать как инструмент поддержки, а не как замена врачу
Сценарий
Представим, что мы строим систему предварительного медицинского скрининга.
Для каждого пациента доступны простые признаки:
возраст
артериальное давление
индекс массы тела (BMI)
уровень глюкозы
Каждый пациент описывается так:
Целевая переменная:
"high_risk" – есть риск заболевания
"low_risk" – низкий риск
Важно: речь не о диагнозе, а о вероятности риска.
Данные
Учебный пример (в этот раз чуть расширим датасет, но без перегруза – чтобы он оставался читаемым и "учебным", а не шумным):
Мы анализируем пациента:
возраст: 50
давление: 145
BMI: 27
уровень глюкозы: 135
Модель оценивает вероятность того, что пациент находится в группе риска.
Что делает модель
Как и в предыдущих кейсах, логистическая регрессия считает:
Затем:
Здесь p – вероятность того, что пациент попадает в группу риска.
Decision boundary
В трехмерном пространстве признаков decision boundary задается как:
Это плоскость, разделяющая пациентов на:
группу повышенного риска
группу низкого риска
Чем дальше пациент от границы, тем выше уверенность модели.
Как вы понимаете, когда число признаков превышает четыре, границу решений уже невозможно напрямую визуализировать: она превращается в гиперплоскость в многомерном пространстве.
Тем не менее, можно использовать простой приём, позволяющий частично отразить влияние четвёртого признака. Для этого его удобно закодировать через размер точек на графике – так мы сможем наглядно увидеть, как он соотносится с остальными признаками.

Ключевая мысль
Вероятность ≠ диагноз.
Это самый важный момент во всем кейсе.
Модель может сказать:
вероятность риска: 0.91
Но это не означает, что:
у пациента есть заболевание
Но, это означает то, что:
пациенту стоит уделить больше внимания и, возможно, направить на дополнительное обследование
Интерпретация
Логистическая регрессия здесь особенно ценна своей прозрачностью:
возраст может увеличивать риск
высокое давление – сильный фактор
повышенный BMI – дополнительный сигнал
Веса модели можно интерпретировать и обсуждать с врачами, что критически важно в медицине.
Практический смысл
В реальных системах такие модели используются для:
первичного отбора пациентов
раннего выявления рисков
оптимизации нагрузки на врачей
автоматизации скрининговых программ
Модель помогает не заменить врача, а сфокусировать внимание там, где это важно.
Выводы
Этот кейс подчеркивает важное отличие медицинских задач от многих других:
модель работает с вероятностями, а не с окончательными решениями
интерпретация результата критически важна
ошибка может иметь серьезные последствия
И главный вывод:
Вероятность – это сигнал, а не диагноз.
Логистическая регрессия в таких задачах ценится не за сложность, а за прозрачность и предсказуемость.
Чтобы самостоятельно протестировать этот код, воспользуйтесь онлайн-демонстрацией для его запуска.
Last updated