Куда двигаться дальше

Что углублять: математику, системы или практику.

После того как вы прошли базовые главы – линейную и логистическую регрессию, метрики, эмбеддинги, NER, RAG, нейросети – возникает естественный вопрос: что дальше?

Учить больше математики?

Погружаться в архитектуру и продакшен?

Или просто продолжать делать проекты?

Правильный ответ зависит от того, кем вы хотите стать. ML – это не одна профессия, а несколько разных траекторий развития.

В этой главе разберем три направления развития:

  • углубление в математику

  • развитие инженерных системных навыков

  • расширение практического опыта

И главное – как понять, что именно вам нужно сейчас.

Если углублять математику

Математика – это фундамент. Без нее можно работать, но с ней вы начинаете понимать, почему все работает.

Что именно углублять

Если говорить практично, то не "всю высшую математику", а конкретные блоки:

Линейная алгебра:

  • векторы и пространства

  • матрицы и операции

  • собственные значения и разложения

Без линейной алгебры невозможно по-настоящему понять эмбеддинги, матричную факторизацию и нейронные сети.

Теория вероятностей:

Формула Байеса:

P(AB)=P(BA)P(A)P(B)P(A \mid B) = \frac{P(B \mid A) \cdot P(A)}{P(B)}

Если вы интуитивно понимаете, как обновляется вероятность при поступлении новых данных – вы уже начинаете мыслить как специалист по машинному обучению.

Оптимизация:

  • градиент

  • частные производные

  • функции потерь

  • регуляризация

Например, при обучении логистической регрессии минимизируется log loss:

L=1N[ylog(p)+(1y)log(1p)]L = -\frac{1}{N} \sum \left[ y \log(p) + (1 - y)\log(1 - p) \right]

Это стандартная функция потерь бинарной классификации (binary cross-entropy), которая используется в логистической регрессии и нейронных сетях. Понимание того, как эта функция оптимизируется и почему градиентный спуск находит хороший минимум, дает уверенность, что модель обучается стабильно.

Когда стоит идти в математику глубже:

  • если вам интересно, почему модель ведет себя именно так

  • если вы хотите работать с нестандартными алгоритмами

  • если вы планируете заниматься исследованиями

  • если хотите создавать свои методы, а не только применять чужие

Если же вы строите RAG-системы, настраиваете инференс и разворачиваете ONNX-модели, то глубокая математика на ранних этапах может быть вторичной.

Если углублять системную инженерию

Это путь ML-инженера продакшена.

Здесь главный вопрос не "как работает формула", а:

  • как модель обновляется

  • как она масштабируется

  • как контролируется drift

  • как измеряется качество в реальном времени

Что изучать

Архитектура ML-систем:

  • пайплайны

  • feature store

  • versioning моделей

  • A/B тестирование

MLOps:

  • CI/CD для моделей

  • мониторинг

  • retraining

  • rollback

Инференс и оптимизация:

  • батчевый vs онлайн-инференс

  • квантизация

  • ONNX

  • ускорение на CPU / GPU

Во многих прикладных системах модель – лишь часть общей инженерной конструкции, а основная сложность находится в инфраструктуре и интеграции.

Где это особенно важно

  • e-commerce

  • fintech

  • SaaS

  • news-агрегаторы

  • рекомендательные системы

С учетом того, что вы уже строите архитектурные и прикладные кейсы (например, RAG для внутренней документации или оценку вероятного чека клиента), именно системный слой может дать максимальный рост.

Если углублять практику

Практика – это самый быстрый способ роста. Именно проекты превращают теорию в реальный инженерный навык.

Не чтение 300 страниц, а:

  • взять датасет

  • поставить задачу

  • построить baseline

  • улучшить модель

  • задеплоить систему

Иногда этого достаточно. А затем сделать это ещё раз – уже лучше.

Хотя, конечно, есть и более сложный путь – написать книгу про машинное обучение.

Что дает практика

  1. Вы начинаете видеть реальные ограничения данных

  2. Учитесь выбирать метрики

  3. Понимаете trade-offs

  4. Осваиваете пайплайн от идеи до продакшена

Например:

Кейс: "Подпишется ли пользователь на рассылку?"

Вы можете:

  • построить логистическую регрессию

  • сравнить accuracy и log loss

  • добавить регуляризацию

  • внедрить A/B тест

И именно на практике станет ясно, что улучшение log loss на 0.02 может быть важнее роста accuracy на 1%.

Три траектории развития

На практике специалисты по машинному обучению редко идут по абсолютно одинаковому пути. Однако большинство карьер в ML можно условно описать через несколько типичных ролей.

32.1 Карта направлений развития

Упрощенно можно выделить три роли:

1. ML-исследователь

Фокус – математика и новые алгоритмы.

Инструменты – Python + PyTorch (как индустриальный стандарт исследований), статьи, оптимизация. PHP в этой роли используется редко.

Цель: новые алгоритмы.

2. ML-инженер продакшена (в том числе на PHP)

Фокус – внедрение моделей в реальные системы.

Инструменты:

  • пайплайны

  • PHP

  • REST / gRPC

  • ONNX

  • Docker

  • внешние ML-сервисы

  • RAG

  • эмбеддинги

  • inference-серверы

  • мониторинг

Цель: стабильность и масштабируемость.

И это абсолютно полноценная траектория.

3. Прикладной инженер / продуктовый ML

Фокус: быстрая проверка гипотез и влияние на бизнес-результат

Инструменты: быстрые прототипы, A/B тесты

Цель: бизнес-результат

Ни одна из этих ролей не лучше другой. Они просто разные. Но в реальной индустрии эти роли редко существуют изолированно. Обычно они соединяются в одной архитектуре ML-систем.

Чтобы понять, как это выглядит на практике, важно посмотреть на типичную архитектурную схему современных ML-систем.

Архитектурная реальность

В большинстве современных систем архитектура выглядит так:

То есть:

Модель обучена в PyTorch → экспортирована в ONNX → инференс вызывается из PHP → результат используется в продукте.

Это нормальная инженерная схема. И именно поэтому слой исследований и обучения моделей чаще всего реализуется на Python.

Почему в research доминирует Python

Если открыть статьи на arXiv или репозитории state-of-the-art моделей, то почти все эксперименты публикуются на базе:

  • PyTorch

  • TensorFlow

Причины этому исторические и экосистемные:

1. Python – простой синтаксис → быстрее прототипирование 2. Огромное количество научных библиотек 3. Большое комьюнити исследователей 4. Стандарт де-факто для публикации reproducible research

Но если исследования почти полностью сосредоточены вокруг Python, возникает логичный вопрос: означает ли это, что PHP не подходит?

Нет. Просто роли разные.

Тем не менее, если говорить честно:

  • PHP почти не используется для research (во всяком случае пока что)

  • Однако PHP отлично подходит для интеграции, продакшена и бизнес-логики

И это две совершенно разные задачи.

Ключевой момент

Эта книга не про то, чтобы заменить Python.

Она про то, чтобы:

  • понимать ML

  • уметь интегрировать ML

  • строить ML-системы на PHP

И если вы не планируете писать новые оптимизаторы или публиковать исследовательские статьи, вам Python может быть вообще не нужен (или же достаточно базового понимания языка без глубокой исследовательской практики).

Как понять, что вам нужно сейчас

Задайте себе три вопроса.

  1. Вам больше интересно доказательство формулы или то, что она работает?

  2. Вас больше увлекает архитектурная схема или график функции потерь?

  3. Вам важнее точность модели или скорость ее внедрения?

Ответы обычно очевидны.

Ошибка, которую совершают многие

Они пытаются углублять все сразу.

В итоге:

  • математика недоучена

  • системное мышление поверхностное

  • практики мало

Лучше выбрать доминирующее направление на 6–12 месяцев. Остальные направления не исчезают – они просто временно становятся вторичными.

Например:

Год 1 – практика + продакшен

Год 2 – системная глубина

Год 3 – математика

Или наоборот.

Минимальный план развития

Если вы работаете в PHP и строите ML-решения, разумная последовательность может быть такой:

Сначала:

  • довести до автоматизма регрессию, классификацию, метрики

  • реализовать 3–5 полноценных кейсов

Затем:

  • построить полноценный ML-пайплайн

  • внедрить мониторинг

  • оптимизировать инференс

И только потом:

  • глубже уйти в линейную алгебру

  • разобрать градиентный спуск математически

  • понять регуляризацию через призму оптимизации

Главный принцип

В индустрии ML в первую очередь проявляется как инженерная дисциплина.

Даже если вы уходите в математику, конечная цель – работающая система.

Даже если вы делаете только практику, важно понимать базовые принципы вероятностей.

И даже если вы строите инфраструктуру, нужно понимать, что именно модель оптимизирует.

Итог

Вопрос "что углублять" – это не вопрос правильности. Это вопрос стратегии.

Если коротко:

  • Хотите создавать новые методы – идите в математику.

  • Хотите строить масштабируемые системы – идите в архитектуру.

  • Хотите быстро расти и давать бизнес-результат – делайте больше практики.

Лучший путь – тот, который вы выбираете осознанно.

И, возможно, самый зрелый этап развития – это когда вы начинаете видеть связь между формулой, кодом и продакшен-системой как частью одной инженерной системы.

Пусть этот путь будет не хаотичным, а осознанным. Пусть каждый следующий шаг – в математику, в системы или в практику – будет выбран не потому, что "так модно", а потому, что это усиливает вас как инженера.

И самое главное – пусть вы получаете удовольствие от того, что создаете.

Желаю вам успехов на вашем пути!

Last updated