АНАЛИТИКА ПЛЮС
Профессиональные услуги в сфере BI

Задачи и технологии анализа данных

Прежде чем говорить о задачах анализа данных, важно определить его цель. Цель любого анализа данных – поиск и выявление закономерностей среди какого-то набора данных. В бизнесе эта цель ставится еще шире – руководству компании важно не только найти эти закономерности, но и определить их причины и сделать выводы или построить прогнозы для развития своего бизнеса.

В данной статье мы бы хотели остановиться на задачах интеллектуального анализа хранилищ данных (или data mining – дословно «добыча данных»). Именно такой тип бизнес-анализа набирает популярность в последнее время. Сегодня в мире накапливаются большие объемы данных, которые требуют соответствующей обработки – быстрой и результативной. Для обработки таких объемов уже недостаточно человека и к процессу подключилась машина, или компьютер. Такой «машинный» анализ и называют интеллектуальным анализом. Чтобы найти взаимосвязи между объектами и явлениями, нужны знания в области искусственного интеллекта, математической статистики, базы данных.

Задачи анализа данных

Для начала нужно сказать, что задачи именно интеллектуального анализа данных по способу обучения можно разделить на обучение:

— без учителя (когда машине предлагается любой объем данных для анализа и она самостоятельно ищет закономерности – например, та же зависимость продаж некого набора продуктов в зависимости от праздничных дней)

— и с учителем (когда машине предлагается обучающая выборка данных, она на нем учится и далее применяет модель к другим данным)

Кроме того, по цели задачи анализа можно разделить на описательные (лишь констатируют ту или иную закономерность и взаимосвязь) и предсказательные (как понятно из названия, не только находят определенные закономерности, но и прогнозируют их наступление в будущем)

Итак, собственно задачи анализа данных:

— Задача классификации: для каждой переменной в объеме данных назначается категория или класс, любое значение может принадлежать к какой-то категории. Простейший пример: любой продукт в продуктовом магазине можно отнести к овощам/фруктам, бакалее, молочной или мясной продукции. Единственная сложность – количество классов нужно определить заранее.

— Задача регрессии очень похожа на классификацию, но здесь исследуется число из непрерывного диапазона. В ходе исследования (решения задачи) проходит поиск шаблонов для определения этого числового значения.

— Задача прогнозирования: здесь все просто – система на основе последовательностей значений, которые уже есть, прогнозирует новые значения (в том числе ищет и выстраивает взаимосвязи). При этом могут учитываться сопутствующие факты – время года, месяц. Например, рост продаж канцтоваров перед 1 сентября.

— Задача кластеризации (или сегментации): распределение объектов по группам (в отличии от классификации число групп и их параметров может быть заранее не известно).

— Задача определения взаимосвязей (находим регулярно встречающиеся наборы данных среди других таких же наборов – так, например, можно узнать наиболее часто встречающуюся комбинацию продуктов в заказе и положить эти товары рядом).

— Анализ отклонений сообщает о событиях, которые несвойственны данному объему данных. Так, например, выявляются мошеннические действия в банках.

Технологии анализа данных

С точки зрения типа данных, которые используются для анализа, сегодня можно выделить:

— Data Mining,

— Text Mining (текстовый анализ),

— Visual Mining (визуальный анализ),

— OLAP,

— анализ процессов (Process Mining),

— анализ Web-ресурсов (Web mining)

— и анализ в режиме реального времени (Real-Time Data Mining).

Учитывая такие разные алгоритмы, типы данных и их представления, big data для анализа больших данных можно проводить при помощи специальных программных решений. Сейчас интенсивно разрабатываются программные решения для автоматизации процесса анализа – это требование рынка: грамотный, полезный и понятный анализ отчетов и данных необходим уже не только крупным компаниям-лидерам рынка. Небольшие и средние бизнесы тоже стремятся анализировать и прогнозировать, но при этом обладают меньшими бюджетами и меньшим пулом специалистов (а иногда и вообще отсутствием специалистов в области IT или статистики).

На запрос рынка откликнулись производители программных решений автоматизации анализа. И сегодня простые решения для анализа и визуализации данных (типа Tableau) доступны каждой компании (вне зависимости работает в ней 1 человек или более 500).

В чем плюсы таких решений, как Tableau:

— не нужны специалисты

— легкость, простота и быстрота внедрения

— невысокая стоимость (от 2000 руб. в месяц на март 2018 года)

 

Получить консультацию

 

Нам доверяют: 

 

x

Этот сайт использует файлы cookies, чтобы облегчить вам пользование нашим веб-сайтом.

Продолжая использовать этот веб-сайт, вы даете согласие на использование файлов cookies.