Данные: визуализируй, расскажи, используй. Сторителлинг в аналитике - Коул Нассбаумер Нафлик
Чаще всего я использую два типа графиков: линейный и слоупграф.
Линейный график
Линейные графики могут быть с одним рядом данных (одной кривой), двумя и несколькими, как показано на рис. 2.8.
Рис. 2.8 Линейные графики
Обратите внимание: при обозначении времени на горизонтальной оси Х интервалы должны быть одного порядка. Недавно я видела график, где сначала, с 1900 г., значения по оси Х изменялись с шагом в десять лет (1910, 1920, 1930 и т. д.), а затем, с 2010 г. – с шагом в год (2011, 2012, 2013, 2014). При этом расстояние между точками, обозначающими десятилетия, и между точками, обозначающими годы, было одинаковым. Это сбивает зрителей с толку.
Как показать среднее в диапазоне
Иногда кривая линейного графика может представлять статистическую сводку, например среднее значение, или точечную оценку прогноза. Если вы хотите дать представление о диапазоне (или уровне значимости, в зависимости от ситуации), это можно сделать непосредственно на графике. Например, на рис. 2.9 показаны минимальное, среднее и максимальное значения времени прохождения паспортного контроля в аэропорту за период 13 месяцев.
Рис. 2.9 Среднее в диапазоне на линейном графике
Слоупграф
Слоупграф (slopegraph) также называют диаграммой наклона. Его можно использовать для сравнения значений, например, в двух периодах, поскольку он наглядно отражает увеличение или снижение показателей по разным категориям между двумя точками данных.
Легче всего объяснить преимущества слоупграфа на примере. Предположим, вам надо проанализировать и представить результаты недавнего опроса сотрудников об уровне их удовлетворенности своей работой. Чтобы показать относительные изменения по категориям, упоминавшимся в опросе, за период с 2014 по 2015 г., можно создать слоупграф, как на рис. 2.10. Он содержит много информации. Помимо абсолютных значений (точек), линии, соединяющие их, дают наглядное представление о динамике изменений – увеличении или снижении, – без необходимости дополнительных пояснений.
Рис. 2.10 Слоупграф
Шаблон слоупграфа
Создание слоупграфа требует терпения, поэтому он редко входит в число стандартных графиков в специализированных приложениях. Шаблон в Excel и инструкции по индивидуальной настройке параметров можно скачать на storytellingwithdata.com/slopegraph-template.
Полезность слоупграфа в конкретной ситуации зависит от самих данных. Когда много линий частично накладываются друг на друга, эффективность графика невелика, хотя иногда удается успешно выделить один ряд данных, подчеркнув его динамику во времени. Так, в нашем примере можно сфокусировать внимание на одной категории, значения в которой со временем снижались.
При изучении рис. 2.11 внимание сразу привлекает снижение в категории «Карьерный рост», а остальные данные сохранены ради контекста, но не конкурируют за внимание. Мы поговорим о стратегии, на которой строится этот прием, при обсуждении привлекающих атрибутов в главе 4.
Рис. 2.11 Измененный слоупграф
Линейные графики эффективно отображают данные за определенный период. Если же необходимо графически представить данные, организованные в группы или категории, чаще прибегают к диаграммам.
Столбчатые диаграммы
Часто к недостаткам столбчатых и линейчатых диаграмм относят их простоту. Это ошибка. Скорее наоборот: преимущество такой диаграммы в том, что она простая, а значит, аудитория направит интеллектуальные усилия на анализ представленных данных, а не на попытки разобраться в элементах.
Диаграммы хорошо воспринимаются визуально. Нам легко сравнить столбцы: какая категория самая большая, какая – самая маленькая, какова разница между ними. Обратите внимание: в силу особенностей нашего восприятия (того, как человеческий глаз сравнивает относительную высоту столбцов) в диаграмме обязательно должна быть нулевая (базовая) линия – где ось Х пересекается с осью Y. Иначе визуальное сравнение будет искаженным и ошибочным.
Рассмотрим в качестве примера рис. 2.12 – столбчатую диаграмму, которая была представлена на телеканале Fox News.
Рис. 2.12 Диаграмма Fox News
Представим, что сейчас осень 2012 г. Нас интересует, что произойдет, когда срок действия сокращения налогов, проведенного при Джордже Буше, закончится. Столбец слева отражает текущий верхний уровень ставки – 35%, а столбец справа показывает, каким он будет с 1 января будущего года: 39,6%.
Что вы чувствуете, глядя на эту диаграмму? Тревогу из-за значительного роста? Разберемся подробнее.
Обратите внимание, что значения по оси Y начинаются не с нуля, а с 34. Это означает, что теоретически столбцы диаграммы должны продолжаться вниз за границы экрана. В том виде, как показано на диаграмме, визуальное увеличение составляет 460% (высота каждого из столбцов 35 – 34 = 1 и 39,6 – 34 = 5,6; таким образом (5,6 – 1) / 1 = 460%). Если бы диаграмма начиналась с нулевой линии и высота столбцов была отображена правильно (35 и 39,6), визуальное увеличение составило бы 13% ((39,6 – 35) / 35). Сравним две диаграммы на рис. 2.13.
Рис. 2.13 В диаграмме должна быть нулевая линия
Из рисунка 2.13 очевидно, что разница между столбцами на левой диаграмме кажется значительной, а на правой – небольшой. Возможно, тема роста налоговой нагрузки не так страшна, как ее пытаются представить. В силу особенностей нашего восприятия для точного сравнения нужен контекст.
Возможно, вы заметили, что в дизайн второй диаграммы внесены еще несколько изменений. Ось Y, которая в оригинальной диаграмме находилась справа, перенесена влево, чтобы мы понимали, как интерпретировать данные, до того, как увидим их. Значения, которые в оригинальной диаграмме располагались над столбцами, помещены внутрь последних, чтобы снизить уровень информационного шума. Если бы я использовала эту диаграмму для своих целей, а не как пример, возможно, я бы убрала ось Y и оставила только значения данных внутри столбцов, чтобы исключить избыточную информацию. Однако здесь я решила сохранить эту ось, чтобы было ясно, что она начинается с нулевого значения.
Оси диаграмм или значения данных
Стандартное решение, которое приходится принимать при построении любой диаграммы, – сохранить ли оси и шкалы или указать значения данных рядом с соответствующими элементами. Для этого оцените уровень детализации, который важен для аудитории. Если вы хотите представить общие тенденции, возможно, стоит сохранить оси, но сделать их серыми, чтобы они не отвлекали внимание. Если важно сфокусировать внимание на конкретных числах, стоит указать значения. Тогда лучше убирать оси диаграммы, чтобы избавиться от лишней информации. Всегда учитывайте, как аудитория, по вашей задумке, должна использовать визуализацию данных, и структурируйте визуализацию соответственно.
Правило, которое мы только что проиллюстрировали: «В диаграмме всегда должна быть нулевая линия». К линейным графикам оно не применяется. Там важно относительное расположение кривой в пространстве, а не расстояние от нее до нулевой линии или оси, так что последнюю можно опустить. Однако пользуйтесь этой возможностью благоразумно: