Что такое Data Engine и как с ним работать?

Основная проблема при анализе большого объема загрузки данных – это время, затрачиваемое на их загрузку, обработку и обновление. Но прогресс не стоит на месте и у аналитиков, использующих Tableau Online, появилась технология Data Engine — это технология big data для анализа больших данных, информации и работы с данными, которую разработали Tableau Software совместно с учеными из Стэнфордского Университета. Data Engine хранит отчет и данные экстрактов (это тип базы данных, оптимизированный для работы с Tableau) и отвечает на запросы.
Данные в процессе Data Engine порождаются запросами от VizQL Process Server — это компонент, который загружает экстракты в память и выполняет запросы к ним. И в результате — визуализирует big data для анализа больших данных мгновенно —одновременно с действиями аналитика.
Проще говоря, основная задача Data Engine – работать с данными: обрабатывать их, сжимать, фильтровать, обновлять. Но главное преимущество технологии Data Engine – она помогает делать это быстро.
В 2018 году Tableau сделала большой шаг в этом направлении и представила миру Hyper – новую технологию Data Engine, оптимизированную для работы с большими объемами хранилища данных. Hyper используется и работает в Tableau Server 10.5, Tableau Desktop 10.5, Tableau Online, и Tableau Public.
Начиная с версии Tableau 10.5, технология Hyper интегрирована в Tableau Data Engine, а пользователи получили следующие преимущества:
- Более быстрое создание экстрактов.
- Объем экстрактов – еще больше: раньше не рекомендовалось выгружать все свои данные в один экстракт, теперь это можно сделать без проблем.
- Анализ экстрактов – еще быстрее: при использовании версии 10.5 многие пользователи отмечают, что процесс анализа данных в экстрактах стал проходить значительно быстрее, система обрабатывает запросы практически моментально.
- Быстрое обновление данных в экстракте: теперь в распоряжении пользователей всегда будут самые актуальные данные.
А сейчас – несколько технических пояснений, почему вместе с Hyper все работает быстро:
- В отличие от предыдущих версий, теперь Data Engine не делает постобработку: с Hyper процессы постобработки, такие как сортировка, просто не нужны, это высвобождает ресурсы для работы с большими экстрактами.
- При необходимости все данные могут размещаться в памяти, а значит время доступа к ним сокращено до минимума.
- Теперь Data Engine выполняет несколько запросов параллельно и оптимизирует и распределяет нагрузку на процессор в соответствии с количеством ядер.
- Запросы компилируются в машинный код, что позволяет Data Engine использовать производительность современного железа по максимуму.
- Инновационные методы обработки запросов повысили производительность и масштабируемость новой технологии Data Engine.
Импортирование данных в Data Engine
Часто пользователи задают вопрос:
Если при настройке связи с источником данных выбрать «Импорт всей информации в Data Engine», то насколько будет высока нагрузка на ресурсы компьютера? Существуют ли какие-то формулы для расчета требований к ОЗУ и процессору для заданного объема данных и количества пользователей?
Как происходит процесс импорта данных в Tableau Data Engine? Сначала вы загружаете данные из файла или базы данных в оперативную память (ОЗУ) – в случае базы данных для этого используется SQL-запрос. Если данным хватает места в ОЗУ, отлично. Если нет, то необходимо загружать меньше данных, например, фильтровать их. И только потом из данных в ОЗУ создаете экстракт – они сжимаются и сохраняются на жестком диске.
Для справки:
экстракт данных на жёстком диске обычно получается приблизительно в 10 раз меньше, чем объём исходных данных.
Нужно понимать, что экстракты сохраняют подмножество данных вашего источника информации. Поэтому технические требования будут лишь к объему вашего жесткого диска, где этот экстракт будет храниться.
Таким образом, нельзя однозначно ответить на вопрос, насколько высокой окажется загрузка ресурсов компьютера. Все очень индивидуально и зависит от количества данных. Полные технические требования к компьютеру (машинам), предъявляемые для работы с продуктами Tableau, можно посмотреть вот здесь: https://www.tableau.com/products/techspecs.
Если у вас остались вопросы по Data Engine или по работе с Tableau, его внедрению в своей компании, звоните и пишите нам. Мы любим отвечать на вопросы и знаем все про Tableau, Alteryx и Vertica 🙂
Наш телефон: +7 499 391-2984.
Или просто напишите нам — и мы проведем вам презентацию и расскажем о продукте подробнее.