АНАЛИТИКА ПЛЮС
Профессиональные услуги в сфере BI

Задачи и технологии анализа данных

Прежде чем говорить о задачах анализа данных, важно определить его цель. Цель любого анализа данных – поиск и выявление закономерностей среди какого-то набора данных. В бизнесе эта цель ставится еще шире – руководству компании важно не только найти эти закономерности, но и определить их причины и сделать выводы или построить прогнозы для развития своего бизнеса.

В данной статье мы бы хотели остановиться на задачах интеллектуального анализа хранилищ данных (или data mining – дословно «добыча данных»). Именно такой тип бизнес-анализа набирает популярность в последнее время. Сегодня в мире накапливаются большие объемы данных, которые требуют соответствующей обработки – быстрой и результативной. Для обработки таких объемов уже недостаточно человека и к процессу подключилась машина, или компьютер. Такой «машинный» анализ и называют интеллектуальным анализом. Чтобы найти взаимосвязи между объектами и явлениями, нужны знания в области искусственного интеллекта, математической статистики, базы данных.

Задачи анализа данных

Для начала нужно сказать, что задачи именно интеллектуального анализа данных по способу обучения можно разделить на обучение:

  • без учителя (когда машине предлагается любой объем данных для анализа и она самостоятельно ищет закономерности – например, та же зависимость продаж некого набора продуктов в зависимости от праздничных дней)
  • и с учителем (когда машине предлагается обучающая выборка данных, она на нем учится и далее применяет модель к другим данным)

Кроме того, по цели задачи анализа можно разделить на описательные (лишь констатируют ту или иную закономерность и взаимосвязь) и предсказательные (как понятно из названия, не только находят определенные закономерности, но и прогнозируют их наступление в будущем).
Итак, собственно задачи анализа данных:

  1. Задача классификации: для каждой переменной в объеме данных назначается категория или класс, любое значение может принадлежать к какой-то категории. Простейший пример: любой продукт в продуктовом магазине можно отнести к овощам/фруктам, бакалее, молочной или мясной продукции. Единственная сложность – количество классов нужно определить заранее.
  2. Задача регрессии очень похожа на классификацию, но здесь исследуется число из непрерывного диапазона. В ходе исследования (решения задачи) проходит поиск шаблонов для определения этого числового значения.
  3. Задача прогнозирования: здесь все просто – система на основе последовательностей значений, которые уже есть, прогнозирует новые значения (в том числе ищет и выстраивает взаимосвязи). При этом могут учитываться сопутствующие факты – время года, месяц. Например, рост продаж канцтоваров перед 1 сентября.
  4. Задача кластеризации (или сегментации): распределение объектов по группам (в отличии от классификации число групп и их параметров может быть заранее не известно).
  5. Задача определения взаимосвязей (находим регулярно встречающиеся наборы данных среди других таких же наборов – так, например, можно узнать наиболее часто встречающуюся комбинацию продуктов в заказе и положить эти товары рядом).
  6. Анализ отклонений сообщает о событиях, которые несвойственны данному объему данных. Так, например, выявляются мошеннические действия в банках.

Технологии анализа данных

С точки зрения типа данных, которые используются для анализа, сегодня можно выделить:

  • Data Mining,
  • Text Mining (текстовый анализ),
  • Visual Mining (визуальный анализ),
  • OLAP,
  • анализ процессов (Process Mining),
  • анализ Web-ресурсов (Web mining)
  • и анализ в режиме реального времени (Real-Time Data Mining).

Учитывая такие разные алгоритмы, типы данных и их представления, анализ данных можно проводить при помощи специальных программных решений. Сейчас интенсивно разрабатываются программные решения для автоматизации процесса анализа – это требование рынка: грамотный, полезный и понятный анализ отчетов и данных необходим уже не только крупным компаниям-лидерам рынка. Небольшие и средние бизнесы тоже стремятся анализировать и прогнозировать, но при этом обладают меньшими бюджетами и меньшим пулом специалистов (а иногда и вообще отсутствием специалистов в области IT или статистики).

На запрос рынка откликнулись производители программных решений автоматизации анализа. И сегодня простые решения для анализа и визуализации данных (типа Tableau) доступны каждой компании (вне зависимости работает в ней 1 человек или более 500).

В чем плюсы таких решений, как Tableau:

  • не нужны специалисты
  • легкость, простота и быстрота внедрения
  • невысокая стоимость (от 2000 руб. в месяц на март 2018 года)

Узнать больше о Tableau можно в разделе Обучение — почитайте нашу Базу знаний.

  • Или просто напишите нам — и мы проведем вам презентацию и расскажем о продукте подробнее.
  • Еще можно изучить Tableau самостоятельно — скачайте бесплатную версию и получите обучающие материалы:
Скачайте Tableau бесплатно
и получите обучающие материалы
x

Этот сайт использует файлы cookies, чтобы облегчить вам пользование нашим веб-сайтом.

Продолжая использовать этот веб-сайт, вы даете согласие на использование файлов cookies.