Задачи и технологии анализа данных
Прежде чем говорить о задачах анализа данных, важно определить его цель. Цель любого анализа данных – поиск и выявление закономерностей среди какого-то набора данных. В бизнесе эта цель ставится еще шире – руководству компании важно не только найти эти закономерности, но и определить их причины и сделать выводы или построить прогнозы для развития своего бизнеса.
В данной статье мы бы хотели остановиться на задачах интеллектуального анализа хранилищ данных (или data mining – дословно «добыча данных»). Именно такой тип бизнес-анализа набирает популярность в последнее время. Сегодня в мире накапливаются большие объемы данных, которые требуют соответствующей обработки – быстрой и результативной. Для обработки таких объемов уже недостаточно человека и к процессу подключилась машина, или компьютер. Такой «машинный» анализ и называют интеллектуальным анализом. Чтобы найти взаимосвязи между объектами и явлениями, нужны знания в области искусственного интеллекта, математической статистики, базы данных.
Задачи анализа данных
Для начала нужно сказать, что задачи именно интеллектуального анализа данных по способу обучения можно разделить на обучение:
— без учителя (когда машине предлагается любой объем данных для анализа и она самостоятельно ищет закономерности – например, та же зависимость продаж некого набора продуктов в зависимости от праздничных дней)
— и с учителем (когда машине предлагается обучающая выборка данных, она на нем учится и далее применяет модель к другим данным)
Кроме того, по цели задачи анализа можно разделить на описательные (лишь констатируют ту или иную закономерность и взаимосвязь) и предсказательные (как понятно из названия, не только находят определенные закономерности, но и прогнозируют их наступление в будущем)
Итак, собственно задачи анализа данных:
— Задача классификации: для каждой переменной в объеме данных назначается категория или класс, любое значение может принадлежать к какой-то категории. Простейший пример: любой продукт в продуктовом магазине можно отнести к овощам/фруктам, бакалее, молочной или мясной продукции. Единственная сложность – количество классов нужно определить заранее.
— Задача регрессии очень похожа на классификацию, но здесь исследуется число из непрерывного диапазона. В ходе исследования (решения задачи) проходит поиск шаблонов для определения этого числового значения.
— Задача прогнозирования: здесь все просто – система на основе последовательностей значений, которые уже есть, прогнозирует новые значения (в том числе ищет и выстраивает взаимосвязи). При этом могут учитываться сопутствующие факты – время года, месяц. Например, рост продаж канцтоваров перед 1 сентября.
— Задача кластеризации (или сегментации): распределение объектов по группам (в отличии от классификации число групп и их параметров может быть заранее не известно).
— Задача определения взаимосвязей (находим регулярно встречающиеся наборы данных среди других таких же наборов – так, например, можно узнать наиболее часто встречающуюся комбинацию продуктов в заказе и положить эти товары рядом).
— Анализ отклонений сообщает о событиях, которые несвойственны данному объему данных. Так, например, выявляются мошеннические действия в банках.
Технологии анализа данных
С точки зрения типа данных, которые используются для анализа, сегодня можно выделить:
— Data Mining,
— Text Mining (текстовый анализ),
— Visual Mining (визуальный анализ),
— OLAP,
— анализ процессов (Process Mining),
— анализ Web-ресурсов (Web mining)
— и анализ в режиме реального времени (Real-Time Data Mining).
Учитывая такие разные алгоритмы, типы данных и их представления, big data для анализа больших данных можно проводить при помощи специальных программных решений. Сейчас интенсивно разрабатываются программные решения для автоматизации процесса анализа – это требование рынка: грамотный, полезный и понятный анализ отчетов и данных необходим уже не только крупным компаниям-лидерам рынка. Небольшие и средние бизнесы тоже стремятся анализировать и прогнозировать, но при этом обладают меньшими бюджетами и меньшим пулом специалистов (а иногда и вообще отсутствием специалистов в области IT или статистики).
На запрос рынка откликнулись производители программных решений автоматизации анализа. И сегодня простые решения для анализа и визуализации данных (типа Tableau) доступны каждой компании (вне зависимости работает в ней 1 человек или более 500).
В чем плюсы таких решений, как Tableau:
— не нужны специалисты
— легкость, простота и быстрота внедрения
— невысокая стоимость (от 2000 руб. в месяц на март 2018 года)
Нам доверяют: