АНАЛИТИКА ПЛЮС
Профессиональные услуги в сфере BI

Продвинутая аналитика с Tableau — сравнение инструментов

Что такое продвинутая аналитика? Странный термин, но понятный большинству. Это не только сбор всех показателей на единой площадке, но и их быстрый анализ — за разные периоды, в разных разрезах, с разных точек зрения — с использованием современных инструментов. Продвинутая аналитика, как правило, позволяет быстрее найти ответы и при правильном использовании может показать причины тех или иных ситуаций в прошлом.

Поэтому все больше компаний используют BI-инструменты. Сегодня поговорим о Tableau (как ни странно :).

Tableau продолжает расширять свои возможности для продвинутой аналитики, предоставляя встроенные функции, а также интеграцию со сторонними пакетами для data science. Рассмотрим различные методы продвинутой аналитики (встроенные функции Tableau, языки программирования, интегрированные с Tableau, автономные языки программирования для аналитики, а также корпоративные программы), их плюсы и минусы.

Выбор инструмента для продвинутой аналитики в Tableau

Встроенные в Tableau функции

Tableau включает в себя несколько функций для продвинутой аналитики. Эти функции находятся на вкладке «Analytics» и позволяют пользователям довольно просто создавать линии тренда, прогнозы и использовать алгоритм кластеризации для выявления разнородных групп в данных.

«-» Нет возможности сделать «под себя2 — используем только, что встроено..

«+» Уровень сложности — простой.

Это самый начальный уровень продвинутой аналитики. Что можно сделать еще?

Интеграция c Tableau

Для расширения возможностей продвинутой аналитики Tableau позволяет интегрироваться с R и Python, популярными средами с открытым исходным кодом, благодаря чему пользователи могут создать вычисляемые поля, которые используют R или Python.

Для обработки вызовов от Tableau, R и Python нуждаются в промежуточном сервере. R использует приложение Rserve, а Python использует TabPy. Они могут работать на вашем локальном компьютере или на отдельном сервере для обслуживания нескольких пользователей, а также на разных операционных системах.

«-» Следует отметить, что в ОС Windows сервер Rserve одновременно может поддерживать только одну пользовательскую сессию, и Tableau может быть настроен для работы одновременно только с одной внешней службой. Таким образом, хотя изменить эту настройку в Tableau несложно, проще всего сосредоточиться на одном инструменте.

«+» Уровень сложности — средний.

Автономные языки программирования

И Python, и R могут использоваться независимо от Tableau. В этом случае анализ данных выполняется непосредственно с помощью языков программирования. Результаты выводятся в файлы или базу данных, которые затем могут быть использованы в Tableau, как и любой другой источник данных.

«-» Уровень сложности — для продвинутых. Пользователи должны уметь программировать на этих языках, поэтому для тех, кто не имеет опыта программирования, кривая обучения может быть довольно крутой.

«+» Поскольку оба языка имеют открытый исходный код, разработано большое количество передовых аналитических методов в виде пакетов или модулей, которые можно добавить для работы.

Платформы корпоративного уровня для data science

Платформы корпоративного программного обеспечения, такие как Alteryx Designer и IBM SPSS Modeler, также работают независимо от Tableau. Они разработаны для предоставления продвинутой аналитики предприятиям и обеспечивают все, что может потребоваться крупным организациям:

  • простоту использования,
  • масштабируемость,
  • безопасность
  • и автоматизацию.

«+» Они являются автономными по своей функциональности: пользователи получают прямой доступ к источникам данных, выполняют любые необходимые манипуляции с данными, используют продвинутые аналитические функции и затем выводят результаты либо в виде нового набора данных для Tableau, либо в виде таблицы, которую можно объединить (join) с существующей информацией.

«+» Хотя Alteryx не предоставляет полную интеграцию с Tableau, были приложены значительные усилия, чтобы добавить возможность сохранения данных из Alteryx в виде родного для Tableau файла экстракта данных (.tde), а также публикации отчетов на Tableau Server или Tableau Online, и даже сохранения данных в виде web data source для Tableau.

«-» Уровень сложности — профи.

Сравнительная таблица инструментов

Следующая матрица описывает основные типы функциональных возможностей, которые могут потребоваться предприятию при развертывании программного обеспечения для продвинутой аналитики, а также несколько инструментов, которые соответствуют этим требованиям. Этот список инструментов ни в коем случае не является исчерпывающим. Например, класс корпоративного программного обеспечения для data science довольно большой, поэтому здесь приводится лишь несколько хороших примеров, которые предоставляют более широкие функциональные возможности. Несмотря на тщательность, с которой была составлена таблица и проставлены рейтинги вдоль каждой функции, иногда могут встречаться исключения.

Моментальные расчеты и визуализация таблиц

Пользователям Tableau нравится возможность перетаскивать элементы в рабочую область и сразу же видеть результаты расчетов или изменения в визуализации. Рейтинги в матрице для этой функции показывают, сколько требуется предварительной подготовки для реализации этих функций и можно ли это сделать с помощью одного только Tableau.

  • Естественно, встроенные функции есть там, где они нужны, и, немного потрудившись с настройкой и получив немного дополнительных знаний, вы можете создать вычисляемое поле, которое использует интеграцию с R или Python, и результат не заставит себя ждать.
  • Исключая необходимость писать полноценную программу, интеграция с R и Python предоставляет возможность быстро использовать продвинутые аналитические концепции и даже быстрые и простые преобразования данных, которые могут отсутствовать в Tableau. И все это без какой-либо разработки.
  • Аналитические языки программирования и корпоративное программное обеспечение могут фактически создавать форматы данных, которые Tableau будет ловко принимать в качестве dimensions или measures, как и любые другие наборы данных, и это будет даже быстрее, чем при использовании интеграций. Но эти методы медленнее реализуются.
  • Alteryx Designer получает хороший рейтинг по скорости использования, потому что он позволяет опубликовать результат работы на Tableau Server, который может использоваться в Tableau как web data source.

Требования к программированию и сложности обучения

  • Встроенные функции Tableau просты в использовании, для их работы требуется чуть больше, чем перетаскивание или выбор из меню. С другой стороны, интеграция Tableau со сторонними утилитами может быть немного сложней. Поищите в интернете пошаговые руководства и примеры. Большинство примеров относительно просты и могут быть изменены под конкретные нужды.
  • Поскольку Tableau начало поддержку интеграции с R раньше, чем с Python, то для R существует больше примеров, но ситуация может измениться. Поскольку для их работы требуется хотя бы минимальное программирование (и иногда устранение неполадок), пакеты интеграции ранжируются с умеренной кривой обучения. Следует отметить, что некоторые чрезвычайно сложные действия могут быть реализованы посредством интеграции, но, как мы увидим позже, это может быть не лучшим подходом.
  • Самая крутая кривая обучения скорее всего получится при разработке кода на R или Python без какой-либо интеграции. Пользователи этих платформ должны изучать проприетарный язык программирования, от доступа к данным и их очистки до построения и оценки моделей и обработки выходных данных. Эти инструменты обладают большой мощностью и гибкостью.
  • Два примера корпоративной платформы для data science, Alteryx Designer и IBM SPSS Modeler, получают умеренную оценку за кривую обучения. Оба имеют чрезвычайно мощные возможности, но каждый из них был спроектирован так, что практически не требовал программирования. Каждый из них предоставляет визуальные интерфейсы «drag and drop» (перетащи и отпусти), которые позволяют пользователям управлять сложными процедурами и алгоритмами, выбирая соответствующие действия и настройки для процесса.Благодаря этой простоте опытные пользователи аналитики могут приступить к созданию жизнеспособных моделей продвинутой аналитики с умеренным количеством часов обучения и опыта. Что еще радует в этих инструментах, так это их широкий спектр возможностей для потребностей как начинающего аналитика, так и специалиста в data science.

Широта возможностей для оценки и моделирования

Здесь рассматривается множество доступных методов, которые могут быть использованы для анализа.

  • Интеграция Tableau c R и Python позволяет достичь гораздо более глубокого понимания, но такое решение может оказаться громоздким в случае больших наборов данных и сложного анализа, как, например, анализ настроений, представленных в виде ответов в опросах.
  • Использование языков программирования или корпоративного программного обеспечения предоставляет пользователям полную мощь.

Масштабируемость

  • Встроенные функции Tableau достаточно хорошо масштабируются благодаря своей простоте. И наоборот, интеграция со сторонними продуктами в этом отношении менее выигрышна.
  • Принимайте во внимание, как осуществляется интеграция. Tableau пытается создать вычисляемое поле, отправляя пакет данных в R или Python, которые обрабатывают информацию построчно. Посчитанные данные передаются обратно в Tableau и помещаются в рабочую область. Из-за узких мест в этом процессе, мощность вычислительной техники не может реально сделать его более эффективным. Этот процесс может быть очень медленным и занимать много времени, и аналитикам Tableau придется долго ждать обновления длинной таблицы после обработки вне Tableau каждый раз, когда они вносят изменения в рабочий лист. Если для обработки требуется много данных и/или выполняются сложные действия, более целесообразно перенести работу из Tableau наружу и использовать аналитические языки программирования или корпоративное программное обеспечение.
  • Два языка аналитического программирования получают умеренный ранг в этой области. Такой рейтинг отражает их встроенные возможности, хотя эти возможности постоянно улучшаются. На текущий момент, эти инструменты могут комбинироваться с другими технологиями для работы с очень большими наборами данных.

Централизация скриптов и моделей

Рейтинги этого пункта связаны с управлением сложными аналитическими процессами.

Два аналитика Tableau, работающие независимо друг от друга, могут создать процесс, пытающийся достичь одного и того же, но из-за разных методологий они могут получить немного разные результаты. Когда команда должна совместно использовать и реализовывать базовые аналитические сценарии, необходимо стандартизировать, а также управлять изменениями и улучшениями в работе.

Когда предприятие видит, что создание метрик приносит пользу, имеет смысл стандартизировать использование статистического анализа и продвинутой аналитики для обеспечения единообразия их применения. Это означает переход работы на аналитические языки программирования, управляемые в централизованном порядке, или на корпоративные программные платформы.

Хранение с контролем доступа, хранение версий и расписаний

Эта область тесно связана с обоснованием централизации работы. Как только работа по продвинутой аналитике становится тесно связанной с деятельностью предприятия, управление и защита активов становятся приоритетом.

Хотите убедиться, что кто-то имеет доступ только к определенным результатам анализа, основанным на конфиденциальных данных? Нужно вернуться к модели или методу анализа, который использовался три ревизии назад? Хотите легко планировать развертывание процессов? Ответ на все эти вопросы заключается в использовании корпоративных программных платформ.

Стоимость развертывания

  • Использование встроенных функций или интеграция с языками программирования с открытым исходным кодом, R и Python, очень недорогой вариант. С другой стороны, для построения процесса вокруг R или Python за пределами Tableau требуются навыки программиста и опытного аналитика.
  • Корпоративные платформы изначально дороже, но могут дать гораздо более быстрый возврат инвестиций, особенно если учесть ценность других функций, которые могут быть важны для вашего бизнеса.

ЗАКЛЮЧИТЕЛЬНЫЕ МЫСЛИ И ЛУЧШИЕ ПРАКТИКИ

Попробуйте интеграцию с R или Python. Найдите несколько примеров и проработайте их, подумайте, как их можно применять в вашей работе.

Проработайте вопросы масштабируемости интеграций:

  • Используйте меньший набор данных для оценки усилий и результатов.
  • Как только у вас будет готов необходимый рабочий лист, попробуйте поработать с полными данными.
  • Решите, стоит ли результат этих временных затрат, или более целесообразно использовать внешние программы.
  • В настоящее время Tableau Online и Tableau Public не поддерживают возможности R или Python.
  • Визуализации, созданные в R или Python, не могут быть импортированы непосредственно в Tableau с помощью интеграции; однако файлы с изображениями визуализаций или URL-адреса, указывающие на них, можно использовать на дашбордах Tableau.

Перевод — Владимир Ермаков, Tableau эксперт
Источник: senturus.com

x

Этот сайт использует файлы cookies, чтобы облегчить вам пользование нашим веб-сайтом.

Продолжая использовать этот веб-сайт, вы даете согласие на использование файлов cookies.