Мы используем файлы cookie для того, чтобы сделать наш сайт максимально удобным для вас
Ок, скройся

Часть 3. Визуализация данных

3.1. Типы диаграмм

В процессе работы учёный обычно получает огромные таблицы с данными из которых может быть мало что понятно. Поэтому важно перевести эти первичные данные во что-то более читаемое и приятное глазу, например в диаграммы. При этом разные типы данных могут быть представлены по-разному. Для удобства я разделила диаграммы на две категории: под количественные и качественные данные. Если говорить просто, то количественные данные - это данные, с которыми можно совершать арифметические действия (рост, вес, количество клеток), а качественные описывают некоторый признак (пол, цвет).

Количественные данные

  • Столбчатая диаграмма (column chart) — один из самых популярных способов визуализации данных. Столбик строится по выбранной мере центральной тенденции (среднее, мода, медиана), а планки погрешностей — по мерам разброса (размах, стандартное отклонение, квартили, процентили) или доверительным интервалам. Чаще используют сочетание «среднее ± стандартное отклонение» (mean ± SD) для количественных непрерывных данных, распределённых нормально. Или «медиана ± 1 и 3 квартиль» (median±Q1,Q3 или median(IQR*)) для дискретных данных или данных с асимметричным распределением.

IQR - interquartile range, интерквартильный размах, разница между 3-м и 1-м квартилем.

В материалах и методах или в легенде рисунка обязательно нужно указывать, как представлены данные: среднее и стандартное отклонение, медиана и интерквартильный размах или иной способ.
  • Иногда встречается вариант столбчатых диаграмм с накоплением (stacked bar chart), когда один столбик надстраивается над предыдущим. Так удобно видеть сумму по выборке и структуру данных.

На мой взгляд, столбчатые диаграммы стоит строить с индивидуальными значениями или вообще отказаться от рисования столбиков, обозначив только индивидуальные значения, центр и разброс. Некоторые журналы (например, Stem cells) настаивают на том, чтобы индивидуальные значения были отражены.

На графиках также обычно приводится статистическая значимость различий. Можно рисовать звёздочки над отдельными столбиками или отмечать квадратной скобкой конкретные группы и указывать значимость. Если есть расшифровка, например, одна звёздочка — p<0.05, две — p<0.01 и т.д., то её нужно обязательно дать в легенде.
  • Ящик с усами (box plot, box and whisker plot) — хорошая альтернатива столбчатым диаграммам. В центре ящика находится медиана, границы ящика — 1-й и 3-й квартили, а «усы» — максимум и минимум. Отдельной точкой на графике может добавляться среднее значение. Также можно нарисовать ящик с усами с индивидуальными значениями. По ящику с усами можно предположить форму распределения: если ящик симметричен относительно медианы и среднее находится по центру, то, скорее всего, распределение данных нормальное.

Здесь линией в середине ящика обозначена медиана, а крестиком — среднее. Кружочки показывают индивидуальные значения. Иногда точки оказываются за границей усов: так обычно обозначают выбросы.
  • Скрипичная диаграмма (violin plot) — ещё более информативна, чем ящик с усами, и часто используется для больших выборок. Ширина графика отражает, как много данных находится в той или иной области.

Достаточно часто используется скрипичная диаграмма, на которой обозначены медиана (непрерывная линия) и квартили (пунктирные линии).
Часто встречаются красивые диаграммы, сочетающие скрипичную и ящик с усами

  • Точечная диаграмма или диаграмма рассеивания (scatter plot) используется для иллюстрации взаимосвязи между двумя переменными. По оси X находится независимая переменная, а по Y — зависимая. Такие диаграммы встречаются в корреляционном и регрессионном анализе.

  • Тепловая карта (heatmap) — часто используется для корреляционных матриц, где цвет отражает степень корреляции. Тепловые карты применяют и для описания уровня экспрессии генов; здесь цвет означает относительную экспрессию гена. Эти данные можно кластеризовать и выявлять закономерности.

  • Линейный график (line chart) обычно используется для отображения динамичных процессов. Линиями принято соединять связанные выборки. Для лучшего описания данных на каждой точке стоит отразить меры разброса. Чаще всего используется сочетание среднего и стандартного отклонения или медианы с квартилями. Разновидностью линейного графика может быть диаграмма с областями: закрашивается область под графиком

Лепестковая диаграмма (radar chart) хорошо подходит для сравнения объектов по нескольким параметрам. Несколько осей, выходящих из одного центра, представляют переменные (чаще всего дискретные). Для каждого объекта расставляются значения всех параметров. Очень часто лепестковые диаграммы используются для визуализации степени освоения каких-то навыков.

Качественные данные
Качественные данные обычно представляются в виде процентов от общего количества случаев. Для отображения процентов можно использовать как уже упомянутые диаграммы, так и дополнительные варианты.
  • Круговая диаграмма (pie chart): Информация в таком формате обычно понятна и не требует дополнительного представления. Важно отметить, что хорошим тоном считается указание точных чисел и общего количества случаев. Например, 50% может означать как 1 из 2 случаев, так и 100 из 200. Точные числа повышают доверие к данным.

  • Вафельная диаграмма (waffle chart): Это ещё один способ визуализации процентов. В отличие от круговой диаграммы, где площадь круга делится на секции, вафельная диаграмма использует сетку из 100 квадратиков. При необходимости вместо квадратиков можно использовать другие фигуры, например, кружочки или стилизованные изображения людей.

  • Диаграмма с накоплением: Эти диаграммы, упомянутые ранее, также подходят для качественных данных. Однако, в данном случае они используются не в абсолютных значениях (которых у качественных данных нет), а в процентах от общего числа. В результате сумма всех сегментов всегда составляет 100%

Шурик:
Все эти картинки в таких разных стилях, какой лучше?
АД:
Вы можете скопировать чей-то или сделать собственный, давайте посмотрим на основные правила

3.2. Оформление и читаемость

Для того, чтобы диаграммы хорошо считывались читателем, важно придерживаться простых правил в их оформлении. На мой субъективный взгляд, в Excel очень некрасивое стандартное оформление. Я пользуюсь GraphPad Prism. Более продвинутые в точных науках коллеги используют MatLab, OriginLab, R или Python. Более молодое поколение предпочитает Canva или Tableau.
Примеры не самого удачного оформления диаграмм

3.3. Рисунки и графический абстракт

Иногда помимо диаграмм и фотографий для статьи требуется нарисовать визуальную схему или рисунок. Даже если старательно избегать этого в тексте, то графического абстракта избежать не получится, последние годы его стали требовать многие даже не самые высокорейтинговые журналы. Поэтому разберёмся с ним и на его примере поймём, где и как рисовать другие картинки

Графический абстракт — это визуальная схема, которая в сжатой форме показывает ключевые выводы исследования. Хорошо оформленный графический абстракт способен рассказать суть работы и привлечь читателя, как хорошо оформленная обложка видео на YouTube.
Чтобы собрать графический абстракт
  • Выделите основной вывод работы

    Он должен укладываться в 1-2 предложения, не больше. Как правило, это ответ на научную гипотезу, и если вы правильно подошли к написанию статьи, то вы уже знаете эту мысль.
  • Прочитайте требования журнала к графическому абстракту

    В первую очередь — соотношение сторон
  • Возьмите бумажку и нарисуйте этот вывод в виде схемы на ней, соблюдая это самое соотношение.

    А еще лучше использовать маркерную доску, чтобы иметь возможность стирать написанное. Пока пропишите результат просто блок-схемой. Схема должна быть линейной или, в крайнем случае, в форме цикла, без более сложных траекторий. Но важно не перегружать абстракт деталями, а всё же выделить самое-самое основное
  • Подумайте, какие визуальные элементы можно добавить на эту схему

    Например, можно нарисовать крысу, ее органы, какие-то рецепторы на мембране клетки, формулы химических соединений — в общем, постарайтесь заменить слова на иллюстрации.
  • Приступайте к рисованию

    Если у вас есть талант, то можно попробовать самостоятельно отрисовать все элементы, а если нет - то можно воспользоваться базами с рисунками, которые можно копировать и вставлять себе. Ниже перечень таких сервисов
  • BioRender содержит огромную базу различных векторных изображений из которых можно собирать очень разные иллюстрации во встроенном редакторе. Одна беда - бесплатная версия имеет ограниченный функционал и запрет на публикацию. Так что можно пользоваться другими базами с векторными научными изображениями, которые можно копировать уже в любой другой графический редактор.
  • NIH BioArt - большая база векторных изображений от National Institutes of Health, у многих можно менять цвета и в целом кажется наиболее близкой к BioRender
  • BioIcons - ещё одна база чуть меньшего размера, но удобно то, что изображения можно копировать с сайта, а не скачивать.
  • SciDraw - база рисунков, которые создаются учёными и могут свободно использоваться другими учёными. Стиль картинок немного разный, так что при сборке своей иллюстрации из многих, может быть немного пестровато.
  • Open Science Art - пока совсем небольшая база изображений, но вроде пополняется
  • Reactome - это вообще очень классный сайт с базой метаболических путей, но в этой подборке он из-за наличия небольшого раздела с изображениями, которые можно использовать
  • Smart servier medical art - база изображений для медицинских работников, в ней есть много анатомических структур и специфического для врачей оборудования
  • PubChem - сервис для рисования химических формул. Мне правда показался немного неудобным. Для органических соединений Chemical Sketch Tool или MolView кажутся более приятным, а в последнем можно не только рисовать формулы, но и делать 3D модели соединений
А собрать всё воедино можно в
  • Paint.Net - простая и интуитивно понятная программа, которой пользуются довольно много учёных
  • Adobe Photoshop или GIMP - сложнее в работе, но позволяют менять разрешение изображения
  • Adobe Illustrator или Inkscape — отлично работают с векторной графикой, но подходят только опытным пользователям.
  • Figma — чуть более интуитивно понятна, но тоже требует привыкания к работе.
  • Microsoft PowerPoint — да, там тоже можно рисовать

Примеры, когда абстракт настолько хорош, что хочется прочитать статью: