Что такое Data Engine и как с ним работать?
Основная проблема при анализе большого объема загрузки данных – это время, затрачиваемое на их загрузку, обработку и обновление. Но прогресс не стоит на месте и у аналитиков, использующих Tableau Online, появилась технология Data Engine — это технология big data для анализа больших данных, информации и работы с данными, которую разработали Tableau Software совместно с учеными из Стэнфордского Университета. Data Engine хранит отчет и данные экстрактов (это тип базы данных, оптимизированный для работы с Tableau) и отвечает на запросы.
Данные в процессе Data Engine порождаются запросами от VizQL Process Server — это компонент, который загружает экстракты в память и выполняет запросы к ним. И в результате — визуализирует big data для анализа больших данных мгновенно —одновременно с действиями аналитика.
Проще говоря, основная задача Data Engine – работать с данными: обрабатывать их, сжимать, фильтровать, обновлять. Но главное преимущество технологии Data Engine – она помогает делать это быстро.
В 2018 году Tableau сделала большой шаг в этом направлении и представила миру Hyper – новую технологию Data Engine, оптимизированную для работы с большими объемами хранилища данных. Hyper используется и работает в Tableau Server 10.5, Tableau Desktop 10.5, Tableau Online, и Tableau Public.
Начиная с версии Tableau 10.5, технология Hyper интегрирована в Tableau Data Engine, а пользователи получили следующие преимущества:
— Более быстрое создание экстрактов.
— Объем экстрактов – еще больше: раньше не рекомендовалось выгружать все свои данные в один экстракт, теперь это можно сделать без проблем.
— Анализ экстрактов – еще быстрее: при использовании версии 10.5 многие пользователи отмечают, что процесс анализа данных в экстрактах стал проходить значительно быстрее, система обрабатывает запросы практически моментально.
— Быстрое обновление данных в экстракте: теперь в распоряжении пользователей всегда будут самые актуальные данные.
А сейчас – несколько технических пояснений, почему вместе с Hyper все работает быстро:
— В отличие от предыдущих версий, теперь Data Engine не делает постобработку: с Hyper процессы постобработки, такие как сортировка, просто не нужны, это высвобождает ресурсы для работы с большими экстрактами.
— При необходимости все данные могут размещаться в памяти, а значит время доступа к ним сокращено до минимума.
— Теперь Data Engine выполняет несколько запросов параллельно и оптимизирует и распределяет нагрузку на процессор в соответствии с количеством ядер.
— Запросы компилируются в машинный код, что позволяет Data Engine использовать производительность современного железа по максимуму.
— Инновационные методы обработки запросов повысили производительность и масштабируемость новой технологии Data Engine.
Импортирование данных в Data Engine
Часто пользователи задают вопрос: Если при настройке связи с источником данных выбрать «Импорт всей информации в Data Engine», то насколько будет высока нагрузка на ресурсы компьютера? Существуют ли какие-то формулы для расчета требований к ОЗУ и процессору для заданного объема данных и количества пользователей?
Как происходит процесс импорта данных в Tableau Data Engine? Сначала вы загружаете данные из файла или базы данных в оперативную память (ОЗУ) – в случае базы данных для этого используется SQL-запрос. Если данным хватает места в ОЗУ, отлично. Если нет, то необходимо загружать меньше данных, например, фильтровать их. И только потом из данных в ОЗУ создаете экстракт – они сжимаются и сохраняются на жестком диске.
Для справки: экстракт данных на жёстком диске обычно получается приблизительно в 10 раз меньше, чем объём исходных данных.
Нужно понимать, что экстракты сохраняют подмножество данных вашего источника информации. Поэтому технические требования будут лишь к объему вашего жесткого диска, где этот экстракт будет храниться.
Таким образом, нельзя однозначно ответить на вопрос, насколько высокой окажется загрузка ресурсов компьютера. Все очень индивидуально и зависит от количества данных. Полные технические требования к компьютеру (машинам), предъявляемые для работы с продуктами Tableau, можно посмотреть вот здесь: https://www.tableau.com/products/techspecs.
Если у вас остались вопросы, мы проконсультируем вас по всем вопросам бесплатно!
Нам доверяют: