Alteryx как инструмент для Data Science
Что такое Alteryx и зачем он нужен?
Всегда важно следить за инструментами и сервисами, которые используют те, кто работает с данными. И если про Python уже все слышали и понимают его возможности, то Alteryx пока остается недооцененным. Хотя эта программа может стать одним из основных инструментов в работе с данными.
Alteryx уже не первый год является одним из лидеров Magic Quadrant for Data Science and Machine-Learning Platforms (Магический Квадрант для компаний из сферы Data Science и Machine-Learning) от компании Gartner.
Если кратко, Alteryx предлагает повторяемую аналитику «без кодирования» методом «перетаскивания» (drag-and-drop). Это мощный и быстрый, простой в освоении и использовании инструмент, которым уже пользуются Vodafone, Dell, Tesco, Deloitte, Mastercard и Experian и многие другие. Alteryx поможет сэкономить время и ускорить масштабируемость.
Например?
Давайте рассмотрим возможности пространственной аналитики Alteryx. Пример ниже показывает, как Alteryx поможет дать ответ за минуты, а не за часы или даже дни.
В Эдинбурге есть несколько почтовых отделений в нескольких минутах ходьбы друг от друга. При этом другим районам страны не так повезло, нужно выяснить — где именно есть проблема с почтой и почему. Найдем открытые данные о местоположении отделений почты и загружаем CSV-файл в Alteryx.
И вот результат: красные области — это места, расположенные более чем в 10 милях (по прямой) от почтового отделения. Не удивительно, что это отдаленные, в основном высокогорные районы, где плотность населения низка и, по-видимому, потребность в почтовых отделениях невелика. Но главное — мы выяснили это за минуты и сразу же нашли подтверждение своей гипотезе.
Как это сделать?
Рабочий поток (workflow), с помощью которого мы получили наши результаты, смотрим на картинке ниже. Рабочие потоки строятся быстро и легко: просто перетаскиваем нужные модули на «холст», соединяем их вместе, а затем нажимаем Run (Выполнить). И наблюдаем за результатом. Ничего сложного, только drag-and-drop. Конечно, можно создавать макросы или свои кастомные инструменты с помощью R, но для начала стандартных возможностей вполне хватает.
Этот рабочий поток занимает 10 секунд и при этом его можно бесконечно редактировать и повторять снова и снова.
Шесть синих цифр на картинке выше (в рабочем потоке) соответствуют шести промежуточным этапам обработки на рисунке ниже:
— Импорт всех полей в CSV-файл (INPUT, FILTER, SELECT)
— Использование полей LAT и LON для создания пространственных точек из координат (TRADE AREA)
— Hbcetv 10-мильный буфер вокруг каждой почтовой точки (всего 11 142)… (TRADE AREA)
— И объединяем накладывающиеся буфферы, чтобы создать один на почтовое отделение.
— Обрезаем области по контуру до полигона (APPEND FIELDS, SPATIAL PROCESS)
— Пересекаем результаты еще раз, чтобы определить (красным цветом) область в более 10 миль от ближайшего почтового отделения (OUTPUT)
Можно ли повторно использовать рабочий поток для чего-то другого?
Конечно! Рабочие потоки Alteryx легко настроить и легко использовать повторно или обмениваться с коллегами. Нам потребовалось менее 5 минут, чтобы адаптировать приведенный выше анализ для почтовых ящиков, извлеченных из OpenStreetMap (вместо почтовых отделений выше).
На этот раз мы использовали радиус в 5 миль, чтобы определить области в более 5 миль от ближайшего почтового ящика. Затем объединили это с полигонами страны, чтобы получить следующую разбивку по площади:
Интересно, что 17% территории Шотландии находится более чем в 5 милях от ближайшего почтового ящика. А в Англии этот показатель составляет всего 0,3%.
Вот так, за считанные минуты Alteryx помогает превратить необработанные данные в (потенциально!) полезную информацию.
Источник: www.thedatalab.com
Мы, компания АНАЛИТИКА ПЛЮС, с 2012 года помогаем нашим клиентам работать с данными — находить полезные инсайты и использовать эту информацию для увеличения прибыли компании.
За это время мы разработали и внедрили решения для компаний из разных сфер бизнеса: ритейл, дистрибуция, логистика, e-commerce, банки и финансы, маркетинг, телеком, производство, логистика, транспорт.
Мы помогаем начать работу с инструментами BI, предоставляем услуги «под ключ» — от сбора данных до установки ПО и предоставления финального интерактивного отчета. И конечно — проводим обучение: наши клиенты ни от кого не зависят и умеют работать со своими данными самостоятельно!
Хотите узнать, как провести анализ и сделать отчеты быстро?
Нам доверяют: