Анализ качественных данных
Нужно ли объяснять, что для принятия верных бизнес-решений руководителю подразделения или всей компании нужно проводить анализ качественных данных? Но как убедиться в том, что полученная информация точна и ее можно безопасно использовать в работе?
Недостоверные данные
Порой мы даже не задумываемся о качестве собираемой информации, по умолчанию мы уверены в том, что все входящие данные подходят для бизнес-анализа. Но это заблуждение. Вот хороший пример: компания создала мобильное приложение для сбора заказов. Среди прочих полей пользователи должны указать свой пол, но вместо выпадающего списка разработчики добавили текстовое поле, в котором пользователь должен указывать свой пол в произвольной форме. Таким образом, в базе данных пользователей у нас появляется бесконечное количество вариантов: м, ж, мужчина, женщина, муж, жен. И если бы пользователи указывали только эти варианты, проблема бы не стояла остро. Но в базу данных будут попадать ответы панды, белки, рыки, зайки и другие шутки пользователей.
Теперь предположим, что приложение рекламируется в социальной сети и каждый день компания получает от 500 до 1000 новых регистраций. Исправить такие ошибки руками будет невозможно. Конечно, можно просто удалить строки с неправильным значением, но тогда как проводить аналитику?
Анализ качественных данных предполагает наличие всей информации, так как ограниченное количество данных ведет к искажению отечности и принимаемых потом на ее основе решений.
Исправление и точность
Пример со свободным текстовым полем условный. Конечно, такой изъян, если он был бы допущен, почти сразу дал о себе знать и тогда разработчик должен оперативно внести исправления. Но бывают и более «тонкие» ошибки. Такие могут дать о себе знать значительно позже, когда база данных будет содержать уже тысячи, а то и десятки тысяч строк. Что делать в этом случае?
Простое решение — использовать Alteryx. Программа собирает данные из разных источников, проверяет их и при необходимости преобразует. В нашем примере Alteryx автоматически заменил бы всех м, ж, муж, жен, парней и девчат на заданных «мужчину» и «женщину». Но с такой задачей справится даже Excel. А что сделать с более сложными строками?
Alteryx справится и с животными. Правилами русского языка пользоваться никто не запрещал. А значит, можно «научить» программу по окончаниям фамилий заменить животных на род человеческий. Еще вариант: скачать базу имен и сопоставляя в спорных строках указанное пользователем имя с загруженной подборкой и автоматически заменять пол. Теперь база данных готова к анализу качественных данных, ошибок быть не должно.
Наш пример очень простой. Мы использовали его для наглядности. Alteryx можно использовать и в более сложных ситуациях. Вопрос лишь в том — какой вопрос для анализа работы компании задать. Думайте над вопросами, а не над тем, как технически реализовать слияние и упорядочивание информации.
Узнать больше о возможностях Alteryx можно на наших вебинарах и практикумах. Календарь ближайших мероприятий — по этой ссылке.