Искусственный интеллект на финансовых рынках. Часть 4

30.09.2020

«Провести исторический ретроспективный тест с высоким коэффициентом Шарпа — тривиально, попробовав тысячи альтернативных спецификаций модели. […] В результате такой систематической ошибки отбора большинство опубликованных открытий в области финансов ложны ». — Проф. Маркос Лопес де Прадо, « Достижения в области финансового машинного обучения»

Хроника управления инвестициями полны историй об инвестиционных инструментах ученых-финансистов, которые не смогли монетизировать очень многообещающие «открытия», так как они не смогли воспроизвести свои бумажные «открытия» в реальном мире с реальными деньгами.

В то же время важно, чтобы мы не путали интеллектуальный анализ данных (плохой и, вероятно, обманет нас случайностью) с процессом повторяющейся итеративной калибровки, которая обычно необходима для того, чтобы модель машинного обучения работала хорошо.

Даже самое сложное решение для автоматизированного машинного обучения может потребовать некоторых изменений, прежде чем оно будет готово к использованию.

Итак, как нам это избежать, продолжая при этом создавать надежные и работоспособные модели? Важно подойти к проблеме вдумчиво и прагматично.

Что вы тестируете на самом деле?

Будьте как можно более конкретными и не используйте подход «У меня есть куча данных, давайте посмотрим, что я могу найти».

Выдвиньте одну или несколько гипотез. «Акции, которые испытывают снижение ожиданий по прибыли и слабую динамику цен, будут лучше работать в течение следующих трех месяцев» — хорошая гипотеза для проверки, «в тексте отчетов о прибылях и убытках должно быть что-то, что позволит нам прогнозировать будущую доходность» — плохая гипотеза.

Помните о простой теории вероятностей и не позволяйте себя обмануть случайностью: если предположить, что шансы успешного бэктеста 50/50, выполнение всего лишь восьми различных постановок задач в трех бэктестах, скорее всего, вернет ту задачу, которая выглядит хорошо только на основе случайного совпадения.

2. Невидимые данные — ваш лучший друг

Когда вы оцениваете или калибруете несколько вариантов одной и той же гипотезы или сравниваете несколько подходов к машинному обучению, вам нужно быть очень осторожным, чтобы случайно не превратить ваши «невидимые» данные в «видимые» (это может произойти очень легко и может плохо закончиться).

Проверьте стабильность производительности вашей предпочтительной модели, открыв ее для большего количества ранее невидимых данных после того, как вы ее выбрали. DataRobot сохраняет дополнительный набор задержек специально для этой цели и позволяет пользователям при желании дополнительно оценивать стабильность по «внешним» невидимым данным.

3. «Одна модель на все времена года» — это не актуально

Экономика со временем развивается, ожидания в отношении бизнес-цикла развиваются еще быстрее, как и финансовые рынки. Не ждите, что ваши модели будут работать долгое время. Лучше иметь возможность быстро определять, когда на горизонте будут изменения, и быстро на них реагировать.

Автоматизированное машинное обучение дает вам возможность эффективно разрабатывать целый арсенал моделей, подходящих для определенных рыночных режимов, и / или быстро создавать новые модели в ответ на изменения на финансовых рынках.

Функция отслеживания дрейфа данных MLOps от DataRobot позволяет пользователям определять фазовые сдвиги во входных данных развернутых моделей еще до того, как станут известны результаты прогнозов (фактические данные).

4. Бэктест на стабильность

Смоделируйте, как процесс обслуживания и обновления вашей модели будет выглядеть в производственной среде.

Используйте симуляции, чтобы понять, как часто вам нужно будет переобучать модель (т.е. насколько быстро ее производительность снизится после обучения и какая запланированная частота обновления вам нужна).

Мощная интеграция DataRobot с Python и R API позволяет пользователям добавить еще один уровень автоматизации в автоматизированный процесс машинного обучения, чтобы очень эффективно выполнять подобные виды моделирования. После развертывания модели DataRobot MLOps отслеживает точность модели и смещение данных, а также отмечает, когда незапланированное обновление может потребоваться из-за неожиданного ухудшения производительности или изменения данных.

5. Иногда меньше данных — лучше; Иногда больше данных — лучше, но это происходит гораздо реже, чем вы думаете.

Иногда уменьшение объема данных, с которыми вы обучаете свою модель, путем сокращения промежутка времени, используемого при обучении, может дать лучшие результаты, особенно в задачах временных рядов и других областях, где поведение нестабильно с течением времени.

Чтобы определить период, в течение которого наблюдаемое поведение является наиболее сильным, протестируйте несколько различных длительностей обучения модели и оцените, как они влияют на производительность модели. Как и прежде, используйте автоматизацию API, чтобы сделать этот процесс максимально безболезненным.

6. Важность знания предметной области

Если что-то выглядит великолепно, но вы не можете полностью понять или объяснить лежащее в основе поведение, скорее всего, вы обнаружили статистический артефакт, который вы не сможете воспроизвести в производственной среде.

Конечно, поведение на многих финансовых рынках сложное и на первый взгляд может показаться нелогичным, но всегда спрашивайте себя, имеют ли ваши выводы интуитивный смысл — или, по крайней мере, можно ли их объяснить.

7. Алгоритмическое разнообразие полезно для проверки смысла

Мы уже упоминали, что не существует такой вещи, как алгоритм, который мог бы волшебным образом создать «сигнал» из воздуха или случайных данных. И наоборот, если вы нашли что-то, что хорошо моделируется при использовании одного семейства моделей машинного обучения, но не дает никаких перспектив при любом другом подходе — да, вы, вероятно, обнаружили еще один статистический артефакт.

Чтобы этого избежать, используйте автоматизированное машинное обучение, для того, чтобы опробовать как можно больше различных подходов машинного обучения к данной проблеме. Продолжайте только в том случае, если вы можете повторить свой успех моделирования, по крайней мере, до некоторой степени, с помощью нескольких различных методов машинного обучения. (Как ранее упоминалось, автоматизированное машинное обучение DataRobot позволяет пользователям оценивать широкий спектр алгоритмов машинного обучения на основе примерно десятка библиотек с открытым исходным кодом)

8. Наивность — это добродетель

Раз уж мы заговорили о проверке смысла: не забывайте сравнивать модели, которые вы строите, с наивными базовыми показателями. Это, попросту говоря, «глупые модели» — всегда предсказывающие одно и то же, например, среднее значение целевой переменной. При моделировании временных рядов базовый уровень — это самое последнее значение целевой переменной. Для них важно рассчитать метрики ошибок и сравнить их с вашими моделями-кандидатами, если у вас не получится превзойти их, это верный признак того, что вам нужно еще немного поработать, прежде чем у вас действительно будет что-то готовое и хорошо работающее.

9. Не ждите, что погаснет свет

Финансовые рынки шумят, данные финансовых рынков тем более. Как и в случае с другими инвестиционными решениями, стоит быть реалистичным в отношении того, какой результат является хорошим. Хорошим результатом может быть оценка R 2 от 0,2 до 0,3, при этом 0,4 или 0,5 достаточно высоки и в тоже время подозрительны. (Мы отложим обсуждение того, почему R 2, как правило, не является хорошей метрикой для моделей машинного обучения, в другой раз.)

10. Хорошее понимание данных имеет решающее значение

Эта удивительная сверхточная модель, которую вы только что построили, заставляет вас выглядеть гением в области квантового инвестирования и позволит вам выйти на пенсию до того, как вам исполнится 30?

Извините, но гораздо более вероятно, что вы на самом деле не Эйнштейн: признайте это и ищите ошибки в своей модели — вероятно, у вас случилась какая-то утечка данных. Если это выглядит слишком хорошо, чтобы быть правдой, обычно так оно и есть.

Удивительно часто, но вы в конечном итоге будете тратить время на то, чтобы активно ухудшать характеристики вашей модели, но при этом реалистично и воспроизводимо. Хорошее понимание данных имеет решающее значение, так как может быть трудно обнаружить первопричины этих типов ошибок (утечка данных и утечка цели с течением времени).

Возможности автоматического обнаружения утечек и сложная аналитика DataRobot подтверждают это, указывая, где искать такую утечку.

Преимущества автоматизированного машинного обучения

Одно из больших преимуществ автоматизированного машинного обучения заключается в том, что, многое из того, что составляет передовой опыт, можно включить в автоматизированный рабочий процесс.

Философия дизайна продукта DataRobot воплощает это: DataRobot предоставляет корпоративную платформу искусственного интеллекта, в которой используются большой опыт, лучшие практики и ограничения. Это может быть особенно полезно в тех случаях, когда вы просто не знаете, что делаете вещи, которые не являются хорошей идеей, или у вас нет времени подробно разбираться в том, что составляет лучшую практику для данного машинного обучения.

Клиенты DataRobot по количественному управлению инвестициями говорят, что им нравится в DataRobot то, что он позволяет им сосредоточиться на добавленной стоимости — их глубоком опыте работы на финансовых рынках и понимании финансовых данных — за счет автоматизации большей части разработки данных для конкретных моделей, обучения и процессы отбора.

Встроенные средства защиты DataRobot, такие как автоматическое обнаружение утечки цели, проверка качества данных, обнаружение избыточных функций и сокращение функций, среди многих других, дополняют картину.

Между прочим, пока вы это делаете, передайте на аутсорсинг свою рабочую нагрузку по документации соответствия. DataRobot автоматически формирует нормативную документацию; наши клиенты говорят о сокращении накладных расходов на 50% -70%. И это еще до того, как мы начнем говорить о необходимости моделей претендентов, которые автоматически создаются в DataRobot как побочный продукт процесса автоматизированного машинного обучения.

Машинное обучение на финансовых рынках: не чудо на Уолл-стрит и не панацея, а универсальное и полезное дополнение к традиционному набору математических и статистических методов квантовых инструментов. Используемое с некоторой долей здравого смысла и осознанием передовой практики в сочетании с реалистичными ожиданиями (и, возможно, с некоторым кодом Python), автоматизированное машинное обучение может действовать как множитель силы для аналитиков.

Мы надеемся, что эта серия статей проиллюстрировала, почему и как, несмотря на ажиотаж, все большее количество профессионалов на стороне продавца и покупателя используют возможности автоматизированного машинного обучения в своей повседневной работе и используют DataRobot для создания, развертывания и мониторинга модели, которые ежегодно приносят миллионы долларов.

ИСТОЧНИК: https://www.datarobot.com/blog/ai-in-financial-markets-part-4-best-practice-makes-perfect/

Хотите узнать, как провести анализ и сделать отчеты быстро?

Получить консультацию

Нам доверяют:

Посмотреть все записи: