Data mining

Data mining – понятие неоднозначное. Дословно с английского – «добыча данных». Но что конкретно означает это понятие? Какие данные нужно «добывать»? Сбор данных – это уже data mining или нет? Какие действия, цели, задачи скрываются за data mining? Давайте разбираться.
Data mining – это…
Любая компания собирает и хранит огромные объемы данных. С каждым месяцем и годом деятельности предприятия данных становится все больше. И если раньше было достаточно собрать данные в табличный файл и построить диаграмму, то с большим объемом информации такой фокус уже не пройдет. В этом случае из всего объема данных нужно выгрузить только необходимые (для ответа на какой-то конкретный вопрос) и уже работать с ними.
Что значит «работать с данными»? Анализировать, искать взаимосвязи, строить гипотезы и проверять их. Именно такая работа по анализу данных и называется data mining. Это не просто сбор всех-всех данных, это интерпретация данных, их анализ с целью поиска ответа на какой-то свой вопрос.
Уровни информации
Немного теории… В целом, все данные можно разделить на несколько уровней – в зависимости от типа информации, которую они предоставляют:
- Просто данные – мы их собираем из разных источников и бережно храним, но пока они не несут никакой ценности – это просто набор цифр.
- Полезные данные – с помощью специального программного обеспечения (причем с небольшими объемами справляется даже Excel) мы обрабатываем данные, ищем и выгружаем только необходимые нам данные (например, не объем продаж за все года, а только за май каждого года).
- И наконец, значащие данные (или знания) – мы исследуем выгруженные данные, классифицируем, ищем взаимосвязи, строим гипотезы и проверяем их. Именно этот уровень работы с данными и есть data mining – «добыча» знания, «копание» в данных, или интеллектуальный анализ данных.
Цели Data mining
Data mining применим в любой сфере – наука, образование, государственные компании. Важную роль data mining играет в бизнес-анализе. Такой анализ помогает спрогнозировать тренды и решать такие вопросы:
- Анализ складских запасов
- Сегментация клиентов
- Прогнозирование продаж
- Привлечение новых клиентов
- Определение размера скидки для разных клиентов
- И многое-многое другое.
Вы можете ответить на все эти вопросы сами! У вас есть исходные данные, их нужно просто проанализировать.
Какие методы используются при data mining? Стандартные для любого анализа:
- Кластеризация
- Классификация
- Ассоциация
- Прогнозирование
- Визуализация
- И другие.
Data mining и визуализация
Очевидно, что когда данных много, то результаты их анализа в табличной форме просматривать неинтересно: бесконечные колонки цифр неудобно «читать», а сделать по ним выводы достаточно сложно и затратно. В этом случае нам поможет визуализация – или представление важной информации в графическом виде. Давно известно, что человеческий мозг воспринимает визуальную информацию намного быстрее, чем текстовую, цифровую и пр.
В помощь тем, кто занимается анализом данных, разработаны аналитические программные решения big data для анализа больших данных, которые фактически выполняют большую часть работы – анализируют и строят графики, таблицы и диаграммы. Вам, как пользователю, остается только загрузить в эту программу данные (например, из Excel-файла).
Сегодня таких программ – более 300. В 2018 году лидером рейтинга BI-решений от известной исследовательской компании стало Tableau. В чем преимущество таких программ?
- Легко устанавливать
- Просто освоить
- Невысокая стоимость (от 2000 руб. в месяц на март 2018 года)
Интересно попробовать Tableau? Делайте свою аналитику — быстро и красиво!
Наша необычная коллекция обоев для рабочего стола!
Выбирай картинку и скачивай абсолютно бесплатно>>