АНАЛИТИКА ПЛЮС
Профессиональные услуги в сфере BI

Зачем аналитику специальные базы данных? Oracle недостаточно?




Сегодня мы побеседовали с нашим экспертом в работе с данными — Вячеславом Ериным. Узнали, зачем нужны базы данных аналитического типа и что это вообще такое.

Хотелось бы поговорить о системах управления базами данных, которые в настоящий момент используются в том числе и для аналитики.

В настоящий момент работа с базами данных стала обычной работой при создании любой системы. Любая система операционного управления имеет в своем составе базу данных. Это может быть Oracle, DB2 и другие базы данных, например, на основе SQL, которые используются для хранения операционной информации. Кроме того, сейчас создано много баз данных, работа которых заточена именно на работу с аналитикой и для построения аналитического хранилища.

Одна и та же база данных для всего — не выход!

Но нужно понимать, что одна и та же база данных не может работать и как операционное хранилище, и как аналитическая система — потому что у них абсолютно разные задачи.

Задачи операционной базы данных – это управление транзакциями, получение транзакций и сохранение целостности данных. Задача аналитической базы данных – это обработка больших массивов данных за минимальное время и выдача результата.

При этом целостность данных отходит на второй план. Да, конечно, целостность должна поддерживаться на каком-то уровне, но при этом наличие ошибок в данных аналитического хранилища на уровне 1% никоим образом не скажется на результатах аналитики.

Какие базы данных нужны?

Мой опыт показывает, что интересно применять базы данных, среди характеристик которых есть как минимум 3 пункта:

— Базы данных, устроенные на технологии MPP (параллельная обработка процессов) – это кластер, который имеет n количество машин, среди которых распределяются задачи.

— Использование колоночного хранения. Часто база данных хранит информацию ровно в том виде, в каком она в нее и поступила – то есть единичными записями. С точки зрения аналитики такое хранение является неправильным, так как обычно мы анализируем данные по столбцам. Нам же неинтересно смотреть коррелляцию, сравнивать штуки с цветом, мы сравниваем подобное с подобным. И мы сравниваем количество штук в каждой записи. Поэтому наличие колоночного хранения является приоритетным показателем при выборе аналитической базы данных.

—  Использование денормолизации. Для обычной базы данных часто используется нормолизация. Для аналитических баз данных используется обратный процесс – денормализация. В большинстве аналитических баз данных используются «звезды-снежинки» для организации витрины представления данных конечному пользователю, эти объекты денормализованы. Поэтому нам важно, чтобы к этой базе данных был максимально быстрый доступ. Такой доступ осуществляется с помощью разработки стандартных интерфейсов. В настоящий момент наиболее востребованные доступы к базам данных – это JDBC и ODBC.

Для аналитической базы данных важно, чтобы оба эти элемента присутствовали. Для чего? Чтобы к этой базе данных могли обратиться инструменты BI для окончательной обработки данных и получения конкретных результатов аналитики.

И вот одной из таких баз данных, отвечающих всем трем требованиям, является Vertica, база данных аналитического типа. Именно ее мы используем в своих проектах – для построения BI-решений.

Хотите узнать, как провести анализ и сделать отчеты быстро?

 

Нам доверяют: 

 

x

Этот сайт использует файлы cookies, чтобы облегчить вам пользование нашим веб-сайтом.

Продолжая использовать этот веб-сайт, вы даете согласие на использование файлов cookies.