Данные: визуализируй, расскажи, используй. Сторителлинг в аналитике - Коул Нассбаумер Нафлик
Визуализация данных и вопрос этики
Но что, если изменение масштаба или любая другая манипуляция с графическим представлением данных усиливает ту точку зрения, которую вы выражаете? Вводить аудиторию в заблуждение с помощью некорректной визуализации неэтично. Кроме того, это довольно рискованно. Стоит лишь одному внимательному участнику из аудитории заметить манипуляцию (например, что ось Y начинается не с нуля, а с другого значения), вас не захотят слушать, а ваша репутация будет погублена.
Поговорим и о ширине столбцов. Здесь нет четкого правила, но обычно она больше пустого пространства между ними. Не стоит делать их настолько широкими, чтобы у аудитории возникла мысль сравнить их по площади, а не по высоте. Ниже приведены примеры (почти как в сказке про Машу и трех медведей), когда столбцы слишком узкие, слишком широкие и в самый раз.
Рис. 2.14 Ширина столбцов
Перейдем к рассмотрению разных типов диаграмм. Они дают вам гибкость в решении разных проблем визуализации данных. Разберем наиболее распространенные типы диаграмм, которые наверняка вам знакомы.
Гистограмма (столбчатая диаграмма)
Один из самых распространенных типов диаграмм – гистограмма, или столбчатая диаграмма (vertical bar chart). Как и график, она может быть с одним, двумя или несколькими рядами данных. При добавлении дополнительных рядов сфокусироваться на них сложнее, так что используйте такие диаграммы осторожно. Также учтите, что в них происходит визуальная группировка данных, в результате становится важным относительный порядок категорий. Подумайте, что именно должна сравнивать аудитория, и структурируйте иерархию категорий, чтобы провести сравнение было максимально легко.
Рис. 2.15 Гистограммы
Гистограмма с накоплением
Гистограммы с накоплением (vertical stacked bar chart) используются нечасто. Они позволяют сравнить общие значения по категориям, а также проанализировать составляющие в отдельной категории. К сожалению, такая гистограмма часто становится сложной для восприятия, особенно учитывая разнообразие цветовых схем, которые по умолчанию есть в большинстве графических приложений (подробнее об этом поговорим далее). Относительно легко справиться с задачей сравнения отдельных компонентов по разным категориям, когда они расположены вдоль оси Х. Но чем выше по столбцам вы поднимаетесь, тем сложнее становится задача. Наглядно это проиллюстрировано на рис. 2.16.
Рис. 2.16 Сравнение компонентов по категориям с помощью гистограммы с накоплением
Структурировать гистограмму с накоплением можно на основе абсолютных значений (как на рис. 2.16) или процентного соотношения – тогда все значения в каждом столбце в сумме должны составлять 100% (указывается процентное соотношение каждого вертикального сегмента, пример такой гистограммы мы разберем в главе 9). Выбор за вами, и он зависит от того, что вы хотите донести до аудитории. При использовании гистограммы с накоплением на основе процентного соотношения подумайте, стоит ли указать абсолютные суммарные значения для каждой категории (либо включив их в диаграмму, либо в примечании или ссылке). Это поможет аудитории интерпретировать данные.
Каскадная диаграмма
Каскадная диаграмма (waterfall chart) используется, чтобы выделить отдельные элементы гистограммы с накоплением и сфокусироваться на каждом из них или чтобы показать начальную точку, динамику (рост/спад) и итоги.
Лучше всего проиллюстрировать применение такой диаграммы на конкретном примере. Представьте, что вы – бизнес-партнер по управлению персоналом и вам нужно понять и визуализировать данные о том, как за последний год изменилась численность сотрудников в отделе по работе с клиентами. Каскадная диаграмма, отображающая эти данные, может выглядеть как на рис. 2.17.
Рис. 2.17 Каскадная диаграмма
Слева мы видим численность сотрудников отдела на начало года. Далее мы отмечаем ее рост за счет найма и перехода из других отделов организации. Затем происходит снижение численности из-за того, что люди переходят в другие отделы или увольняются. В последнем столбце отображена численность сотрудников отдела на конец года.
Создание каскадной диаграммы
Если в вашем графическом приложении нет встроенной функции для создания каскадной диаграммы, не расстраивайтесь. Просто сформируйте гистограмму с накоплением и сделайте первые ячейки (которые ближе всех к оси Х) невидимыми. Придется потрудиться, но результат того стоит. Публикация в блоге на эту тему и версия (в Excel) диаграммы из предыдущего примера вместе с рекомендациями, как создать ее для ваших целей, есть на storytellingwithdata.com/waterfall-chart.
Линейчатая диаграмма
Если бы мне пришлось выбирать единственную диаграмму для визуального представления данных по категориям, я без колебаний остановилась бы на линейчатой (horizontal bar chart), или горизонтальном варианте гистограммы. Почему? Потому что она очень легко читается. Она идеально подойдет вам, если у вас длинные названия категорий. Мы обычно читаем слева направо, и аудитории будет легко изучить вашу диаграмму. Кроме того, обычно человек обрабатывает информацию начиная с левого верхнего угла и скользит глазами по странице или слайду по траектории буквы Z[23]. Структура линейчатой диаграммы такова, что глаз человека видит названия категорий еще до самих данных. К тому моменту, когда он знакомится с данными, он уже знает, что они означают (вместо того чтобы перескакивать взглядом с них на название категории, как в случае с гистограммой).
Как и гистограмма, линейчатая диаграмма может быть с одним, двумя и несколькими рядами данных (рис. 2.18).
Рис. 2.18 Линейчатые диаграммы
Логический порядок категорий
При создании любой диаграммы, отображающей категории данных, уделите отдельное внимание вопросу логической последовательности категорий. Если у них есть естественный порядок, придерживайтесь его. Например, если ваши категории – возрастные группы (0 – 10 лет, 11 – 20 лет и т. д.), расположите их в порядке возрастания. Если естественного порядка нет, подумайте, как структурировать диаграмму наиболее логичным для аудитории способом. Так вы облегчите процесс интерпретации данных.
Ваша аудитория (в отсутствие других визуальных подсказок) обычно начинает рассматривать диаграмму с левого верхнего угла и движется по контуру буквы Z. Это означает, что в первую очередь пользователи увидят верхнюю часть диаграммы. Если важнее всего самая крупная категория, расположите ее в самом верху, а под ней в порядке убывания все остальные. Если важнее самая маленькая категория, ее тоже можно разместить в самом верху, а под ней в порядке возрастания значений остальные.
Конкретный пример логического упорядочивания данных рассматривается в примере 3 в главе 9.
Линейчатая диаграмма с накоплением
Аналогично гистограмме с накоплением линейчатую диаграмму с накоплением (horizontal stacked bar chart) можно использовать для отображения совокупных значений для разных категорий, а также отображения