АНАЛИТИКА ПЛЮС
Профессиональные услуги в сфере BI

Как Alteryx поможет справиться с сэмплированием данных в Google Analytics?

В Alteryx предусмотрен специальный инструмент для подключения к данным Google Analytics. Сервис поискового гиганта хранит данные по сессиям, в которые он собирает все события, полученные с сайта (pageviews и различные клики и переходы). Но когда мы пытаемся выгрузить из Google Analytics данные, то возникает ограничение — если в выдаче участвует больше 50 000 сессий, то возвращаются не все значения, а только некоторые из них: причем механизм выбора не вполне ясен, а значит, непредсказуем и не подлежит коорекции. Это называется «сэмплирование» (вместо всех сессий мы получаем только их сэмпл — образец, выборку).

Часто этого достаточно, чтобы получить представление о работе сайта. Особенно, если в сэмпл входит почти вся информация (80% или 90% данных). Если мы работаем только в Google Analytics, без привлечения внешних инструментов, то этот предел преодолевается только покупкой платного аккаунта. Однако с привлечением сторонних инструментов визуализации данных, например, Alteryx, есть способ это ограничение обойти.

Перенос данных

Логика работы для переноса хранилищ данных будет такая: мы пытаемся выгрузить всю информацию за интересующий период. Если мы видим, что данные сэмплированные, то делим период на 2 части. Далее для каждого фрагмента мы снова пытаемся выгрузить данные, и если и они опять сэмплированы, то делим еще раз пополам период. Делить нужно до момента, пока мы не получим исчерпывающую информацию.

Схема не будет работать, если данных окажется так много, что Google Analytics начнет сэмплирование в пределах одного дня. Напомним, что семплирование начинается от 50 000 сессий в день. При таком трафике делить данные на более короткие отрезки смысла нет, так как данные сессионные. Другими словами, если сессия переходит через границу периодов деления (например, через границу часа), то она будет учитываться 2 раза, что наверняка повлияет на точность данных. Это справедливо и для деления по дням, но по ночам обычно сессий мало, так что это слабо влияет на точность.

Как перенос данных выглядит в Alteryx

Для начала нужно аутентифицировать пользователя. Для этого у нас есть соответствующие макросы (функционал Alteryx, который позволяет “прятать” некоторые участки workflow под общий интерфейс), благодаря которым можно аутентифицировать пользователей.

После аутентификации нужно получить данные. Это происходит в инструменте Download, в котором Alteryx связывается с Google Analytics через API. На рисунке ниже за это отвечают инструменты под зелёным прямоугольником.

Загрузка данных осуществляется другим макросом, итерационным, это значит, что у макроса есть 2 выхода: один составляет выход, другой подается на вход этого макроса, таким образом “закольцовывая” его. На рисунке представлен вид этого макроса с двумя выходами.

Первый, в правом верхнем углу — это вывод конечных несэмлированных данных. Перед выводом данные парсятся, переводятся из JSON в табличный вид (за это отвечает ряд инструментов под красным прямоугольником). Второй вывод, внизу, используется в случае, если сэмплирование все-таки есть. Тогда мы подготавливаем следующий вход для второй итерации, для этого мы делим временной отрезок на 2 части.

Разделение на потоки, на какой вывод выводить информацию, происходит в инструменте Filter — под фиолетовым прямоугольником на рисунке.

 

Получить консультацию

 

Нам доверяют: 

 

x

Этот сайт использует файлы cookies, чтобы облегчить вам пользование нашим веб-сайтом.

Продолжая использовать этот веб-сайт, вы даете согласие на использование файлов cookies.