Аналитика плюс
Профессиональные услуги в сфере BI

Big Data и Vertica: что это, зачем и для кого?

Micro Focus (объединенная с HPE Software) — одна из крупнейших компаний-производителей программного обеспечения в мире. Micro Focus стремится поместить клиентов в центр инноваций и предоставить высококачественное масштабируемое программное обеспечение корпоративного уровня, которым можно гордиться.

В настоящее время все большей популярностью пользуются проекты создания так называемых «корпоративных хранилищ». Это и понятно, за 20 лет активного использования вычислительной техники в бизнесе и жизни мы накопили огромный объем информации. И если раньше все усилия были направлены на то, чтобы обеспечить быстрый ввод и последующее извлечение нужных данных, то в настоящий момент все больше компаний и их руководителей, особенно ответственных за коммерцию, обращают свое внимание, что неплохо бы получить «дивиденды с накопленного капитала». Причем об этом задумываются уже не только крупные и средние предприятия, но и небольшие.

Собственно, что же может тут предложить рынок? Но сначала нужно сделать небольшое пояснение.

Что такое Big Data?

Сейчас весь мир говорит о «больших данных». Что же это такое? Это, скорее, философский термин, чем технический. Это такое количество разнообразной информации, при котором уже невозможен принцип ее обработки известными методами. Причем причина этого может крыться не только в объеме, но и в разнородности информации. Скажем, помимо некоторого количества структурированных данных, которые мы худо-бедно умеем обрабатывать, есть огромный массив текстов и изображений, к которым наши методы поиска и извлечения уже неприменимы. И здесь на помощь приходят так называемые «аналитические» хранилища или СУБД, которые способны предложить новые методы обработки в дополнение к уже имеющимся и кардинально изменить имеющиеся методы обработки для их ускорения.

Тем, кому интересно, что же можно использовать в качестве таких систем, рекомендуем прочитать небольшую, но обстоятельную статью на «Хабре» (Просто и доступно о аналитических БД), где автор анализирует существующие решения. От себя хочу заметить, что в большинстве предлагаемые решения – аппаратно-программные комплексы, то есть помимо ПО необходимо купить и еще достаточно дорогую “железку”, что не всегда возможно, особенно для небольших компаний. У нас же дальше пойдет речь о перспективном решении в данной области, которое подходит для компаний любого размера — это СУБД Vertica.

Vertica. Зачем и для кого?

Vertica – это аналитическая СУБД от компании Micro Focus. Почитать про нее можно например здесь: Vertika «DRAGLINE», а уж совсем подробно, но гораздо дольше по времени — здесь: Vertica Analytics Platform.

Если вкратце, то от обычной СУБД ее отличают несколько признаков:

  1. Колоночное хранение данных и их сжатие. В отличие от традиционных баз, хранящих данные в формате строк, Vertica хранит данные в виде колонок в сжатом виде. Такое хранение позволяет иметь большую степень сжатия, освобождая при этом много дискового пространства.
  2. MPP (massive parallel processing) архитектура. СУБД Vertica разработана для работы в кластере MPP, поэтому ее отличают низкие затраты на оборудование. Vertica позволяет легко масштабировать свой кластер с помощью добавления стандартных серверов общего применения, таким образом до определенной степени сокращая аппаратные расходы.
  3. Проекции – оптимизированное хранилище данных. В Vertica нет понятия индексов, а «таблица» — это логическая структура хранения, а не физическая. Данные хранятся в виде проекций. Проекция — это некий аналог материализованного представления, которое является единицей физического хранения данных в Vertica, информация в проекциях может дублироваться для обеспечения быстрого доступа к данным.
  4. Помимо прочего, в Vertica существуют двухкомпонентное хранилище данных, состоящие из:
    — WOS (write optimized storage) – хранилище в оперативной памяти
    — ROS (read optimized storage) – хранилище на диске
  5. Асинхронный процесс, осуществляющий перемещение данных между хранилищами (Tuple Mover).
  6. Ну и в еще одно отличие — это Flex-таблицы, возможность хранения неструктурированных или полуструктурированных данных в отдельном хранилище.
x

Этот сайт использует файлы cookies, чтобы облегчить вам пользование нашим веб-сайтом.

Продолжая использовать этот веб-сайт, вы даете согласие на использование файлов cookies.