АНАЛИТИКА ПЛЮС
Профессиональные услуги в сфере BI

Зачем аналитику специальные базы данных? Oracle недостаточно?

Сегодня мы побеседовали с нашим экспертом в работе с данными — Вячеславом Ериным. Узнали, зачем нужны базы данных аналитического типа и что это вообще такое.

Хотелось бы поговорить о системах управления базами данных, которые в настоящий момент используются в том числе и для аналитики.

В настоящий момент работа с базами данных стала обычной работой при создании любой системы. Любая система операционного управления имеет в своем составе базу данных. Это может быть Oracle, DB2 и другие базы данных, например, на основе SQL, которые используются для хранения операционной информации. Кроме того, сейчас создано много баз данных, работа которых заточена именно на работу с аналитикой и для построения аналитического хранилища.

Одна и та же база данных для всего — не выход!

Но нужно понимать, что одна и та же база данных не может работать и как операционное хранилище, и как аналитическая система — потому что у них абсолютно разные задачи.

Задачи операционной базы данных – это управление транзакциями, получение транзакций и сохранение целостности данных. Задача аналитической базы данных – это обработка больших массивов данных за минимальное время и выдача результата.

При этом целостность данных отходит на второй план. Да, конечно, целостность должна поддерживаться на каком-то уровне, но при этом наличие ошибок в данных аналитического хранилища на уровне 1% никоим образом не скажется на результатах аналитики.

Какие базы данных нужны?

Мой опыт показывает, что интересно применять базы данных, среди характеристик которых есть как минимум 3 пункта:

1) Базы данных, устроенные на технологии MPP (параллельная обработка процессов) – это кластер, который имеет n количество машин, среди которых распределяются задачи.

2) Использование колоночного хранения. Часто база данных хранит информацию ровно в том виде, в каком она в нее и поступила – то есть единичными записями. С точки зрения аналитики такое хранение является неправильным, так как обычно мы анализируем данные по столбцам. Нам же неинтересно смотреть коррелляцию, сравнивать штуки с цветом, мы сравниваем подобное с подобным. И мы сравниваем количество штук в каждой записи. Поэтому наличие колоночного хранения является приоритетным показателем при выборе аналитической базы данных.

3) Использование денормолизации. Для обычной базы данных часто используется нормолизация. Для аналитических баз данных используется обратный процесс – денормализация. В большинстве аналитических баз данных используются «звезды-снежинки» для организации витрины представления данных конечному пользователю, эти объекты денормализованы. Поэтому нам важно, чтобы к этой базе данных был максимально быстрый доступ. Такой доступ осуществляется с помощью разработки стандартных интерфейсов. В настоящий момент наиболее востребованные доступы к базам данных – это JDBC и ODBC.

Для аналитической базы данных важно, чтобы оба эти элемента присутствовали. Для чего? Чтобы к этой базе данных могли обратиться инструменты BI для окончательной обработки данных и получения конкретных результатов аналитики.

И вот одной из таких баз данных, отвечающих всем трем требованиям, является Vertica, база данных аналитического типа. Именно ее мы используем в своих проектах – для построения BI-решений.

x

Этот сайт использует файлы cookies, чтобы облегчить вам пользование нашим веб-сайтом.

Продолжая использовать этот веб-сайт, вы даете согласие на использование файлов cookies.