АНАЛИТИКА ПЛЮС
Профессиональные услуги в сфере BI

Дрейф данных в машинном обучении. Как отследить?

Прогностические модели в машинном обучении изучают закономерности в обучающих данных и используют эту информацию для прогнозирования целевых значений для новых данных.

В этом процессе используются два набора данных: данные обучения и скоринговые данные вывода. Модель будет хорошо работать (т.е. давать точные прогнозы в соответствии с ожиданиями), когда новые данные вывода будут аналогичны данным обучения. Однако когда эти два набора данных отличаются, наша модель может стать менее точной и привести к неожиданным результатам. К счастью, у нас есть шанс выявить эти проблемы.

Когда данные обучения и данные на выходе изменяются с течением времени настолько, что модель теряет способность предсказывать, говорят, что данные дрейфуют. Дрейф данных может происходить по разным причинам:

— включая проблемы с качеством данных,
— изменения в составе объектов
— и даже изменения в контексте целевой переменной.

Если вы считаете, что дрейф данных влияет на точность модели, вам нужно принять меры для переобучения или перестройки модели. Эти действия являются дорогостоящими для большинства компаний, поскольку потребуется отложить в сторону все проекты и заняться переобучением и тестированием модели. Помимо того, что все «силы» брошены только на одну проблемы, при этом еще и используются вычислительные ресурсы, которые могли бы работать над другими задачами.

Мониторинг для машинного обучения — важный момент. Но когда команды регулярно получают предупреждения, которые не имеют смысла или основаны на ложных срабатываниях, то они быстро начнут игнорировать эти предупреждения. И в итоге — приведет к проблеме, когда возникнет действительно критическая ситуация. Поэтому важно убедиться, что вы не только обнаруживаете проблемы, но и определяете те проблемы, которые действительно имеют значение в данной ситуации.

Диаграмма дрейфа. Обратите внимание на различия между данными для обучения и скоринговыми данными.
Диаграмма дрейфа. Обратите внимание на различия между данными для обучения и скоринговыми данными.

Обнаружение дрейфа данных показывает, что одна или несколько функций/признаков в вашей модели существенно изменились (в сравнении между обучающими и данными вывода). Однако прежде чем что-то предпринимать, нужно узнать, является ли рассматриваемая функция существенной для точности вашей модели.

Важность объекта показывает, какие объекты в вашей модели являются наиболее важными при составлении прогноза. У вас могут быть сотни функций, но только некоторые из них окажут существенное влияние на результаты.

Существует множество методов определения того, какие функции являются существенными для вашей модели. Эти методы обычно проходят через итерационный процесс:

— для определения отношений между объектами,
— для отношения каждого объекта к целевой переменной,
— а также для вероятного вклада каждого объекта в предсказания модели.

Хотя этот процесс требует больших вычислительных затрат, он ясно покажет, как каждый элемент влияет на общую точность модели.

Вес важности объекта имеет значение — особенно в нашем случае с дрейфом данных. Человеческие и временные ресурсы стоят дорого. И, конечно, не хочется тратить время и силы высококвалифицированных сотрудников на рутинные (почти) задачи.

Вот здесь как раз на помощь приходит DataRobot MLOps — который позволяет компаниям развертывать, контролировать и управлять производственными моделями, построенными с использованием различных ведущих языков программирования и фреймворков (таких как Python, R, Java, Go и Scala).

Для каждой из этих моделей DataRobot MLOps обеспечивает надежный мониторинг дрейфа данных и вычисляет вес важности функции/признака с использованием проверенных методов.

А чтобы получить доступ к этому набору возможностей, все, что нужно сделать пользователю, — это перетащить или импортировать обучающие данные в систему. Не нужно программировать и не нужно обладать специальными знаниями о каких-либо необходимых расчетах или методах! Если вы будете учитывать как дрейф данных, так и важность объекта, то ваша оперативная группа сможет быстро увидеть дрейф производственных данных для объекта, который, вероятно, повлияет на точность прогнозов.

Вес важности объекта и дрейф в MLOps DataRobot
Вес важности объекта и дрейф в MLOps DataRobot

Такое сочетание дрейфа данных и важности объекта имеет несколько преимуществ.

Во-первых, команда получает оповещения тогда, когда есть вероятность возникновения реальных проблем.

Во-вторых, когда действительно понадобится перестроить модель, то такая работа (как на рисунке выше) окажется полезной и позволит использовать ресурсы правильно.

Источник: blog.datarobot.com

ЦИФРЫ О НАС

Мы, компания АНАЛИТИКА ПЛЮС, с 2012 года помогаем нашим клиентам работать с данными — находить полезные инсайты и использовать эту информацию для увеличения прибыли компании.

За это время мы разработали и внедрили решения для компаний из разных сфер бизнеса: ритейл, дистрибуция, логистика, e-commerce, банки и финансы, маркетинг, телеком, производство, логистика, транспорт.

Мы помогаем начать работу с инструментами BI, предоставляем услуги «под ключ» — от сбора данных до установки ПО и предоставления финального интерактивного отчета. И конечно — проводим обучение: наши клиенты ни от кого не зависят и умеют работать со своими данными самостоятельно!

Как мы помогаем в работе с данными? >>

x

Этот сайт использует файлы cookies, чтобы облегчить вам пользование нашим веб-сайтом.

Продолжая использовать этот веб-сайт, вы даете согласие на использование файлов cookies.