АНАЛИТИКА ПЛЮС
Профессиональные услуги в сфере BI

Анализ текста в Tableau? Например, вот так!

Если вам необходимо визуализировать результаты опроса, то часто оказывается, что почти каждый вопрос был открытым. Практически не было вопросов с множественным выбором или числовым ответом. То есть нужен качественный, а не количественный анализ данных.

Например, можно использовать Voyant Tools. После подключения к нему необходимо загрузить свой текст, а затем выполнить некоторый базовый анализ этого текста.

Инструмент предоставляет множество различных способов визуализации текстовых данных, включая:

  • облака слов,
  • счетчики слов,
  • пузырьковые диаграммы
  • и многое другое.

Но в результате использования были выявлены недостатки.

Во—первых, данные были табличными — в них была строка для каждого ответа на вопрос, а также десятки столбцов для каждого отдельного вопроса. Voyant не может загрузить такой файл данных — в него можно загрузить только большой кусок текста.

Во-вторых, инструмент не имеет возможности создавать пользовательские диаграммы. Но это очень важно. Поэтому Ken Flerlage придумал способ визуализировать текст в Tableau. И назвал это Tableau Text Analysis Starter Kit.

Важно!

Хотим предупредить, что анализ текста — это большая и сложная область. Эта статья включает в себя только самые основные возможности. Наша цель — просто предоставить некоторые инструменты, которые позволят вам начать работу с анализом текста в Tableau. А также вы найдете примеры диаграмм, которые вы можете создать, если у вас есть данные в удобном формате.

Подготовка данных

Если у вас чистые данные, то вам повезло — у вас практически нет никаких ограничений, вы можете создать в Tableau все, что угодно. Но самая большая проблема нашего примера — разбить большие куски текста на более мелкие, которые затем могут быть контекстуализированы и, в определенной степени, проанализированы с использованием количественных методов.

Для подготовки данных можно использовать несколько различных методов, включая традиционные инструменты подготовки данных — например, ETL и онлайн-инструмент Wheaton College под названием Lexos. Но, конечно, у этих вариантов оказалось несколько недостатков, поэтому мы будем писать код с использованием Python.

Итак, в итоге у нас есть скрипт Python, который делает следующее:

1) Разбивает каждое текстовое поле на отдельные слова (строка для каждого слова).
2) Отмечает стоп-слова — очень часто используемые слова, такие как а, и, но и т. д.
3) Идентифицирует стебель каждого слова-своего рода корневое слово, которое разделяется несколькими похожими словами.
4) Разбивает каждое текстовое поле на n-грамм-сегменты из n-смежных слов (количество слов, n, может быть задано пользователем).
5) Осуществляет анализ базовых настроений для каждого слова и каждой n-граммы.
6) Группирует слова и n-граммы в разделы, чтобы вы могли видеть, как слова и фразы используются с течением времени.
7) Выводит файл для отдельных слов и файл для n-граммов. Каждый файл связывается с исходным файлом с помощью ключа (так что вы можете присоединиться к нему в таблице). Кроме того, каждый файл присваивает уникальный последовательный идентификатор каждому слову/n-грамму, чтобы вы могли упорядочить их в своем анализе.

Выходные файлы будут выглядеть примерно так.

Пример для файла N-Gram:

Пример для файла со словами:

Переходим к Tableau

Теперь данные структурированы и подготовлены и их легче визуализировать в Tableau. Поскольку файлы word и n-gram содержат только текстовые поля, которые были проанализированы, можно начать с их присоединения к исходному файлу. Оттуда вы можете довольно легко построить свои диаграммы.

Например, мы можем создать облака слов (как для отдельных слов, так и для n-граммов).

Примечание: все приведенные ниже образцы были получены из текста Конституции США.

Вместо облаков слов можно использовать простую отсортированную гистограмму. Ниже пример такой гистограммы: можно нажать на слово, затем выделить это слово с текстом и увидеть, где оно используется.

Если потратить время на подготовку дополнительных данных, можно создать более продвинутые диаграммы. Например, древовидную.

Или сетевую диаграмму (net diagram).

Или создать своего рода «круговую диаграмму связи» (circular link diagram), которая показывает соединения слов по всему тексту.

Пример загруженной книги можно посмотреть по ссылке на Tableau Public — https://public.tableau.com/profile/ken.flerlage#!/vizhome/TextAnalysisStarterKit/00ChartMenu

Источник: www.kenflerlage.com

ЦИФРЫ О НАС

Мы, компания АНАЛИТИКА ПЛЮС, с 2012 года помогаем нашим клиентам работать с данными — находить полезные инсайты и использовать эту информацию для увеличения прибыли компании.

За это время мы разработали и внедрили решения для компаний из разных сфер бизнеса: ритейл, дистрибуция, логистика, e-commerce, банки и финансы, маркетинг, телеком, производство, логистика, транспорт.

Мы помогаем начать работу с инструментами BI, предоставляем услуги «под ключ» — от сбора данных до установки ПО и предоставления финального интерактивного отчета. И конечно — проводим обучение: наши клиенты ни от кого не зависят и умеют работать со своими данными самостоятельно!

Как мы помогаем в работе с данными? >>

x

Этот сайт использует файлы cookies, чтобы облегчить вам пользование нашим веб-сайтом.

Продолжая использовать этот веб-сайт, вы даете согласие на использование файлов cookies.