Часть 4. Дизайн научного исследования

4.1. Как спланировать исследование

В жизни, когда мы планируем какую-то глобальную задачу, например, ремонт или даже поездку в отпуск, нужно заранее продумать конечный результат, план закупок, маршрут и многие другие мелочи. Если этого не сделать, результат может быть сомнительным. Исследование тоже не делается спонтанно, а тщательно планируется заранее. Ниже приведены пункты, на которые стоит обратить внимание при подготовке к научной работе.

Многие подписчики АДового рисёрча отмечают, что самый большой риск – это деньги, которые не поступили вовремя, и закупки, которые занимают многие месяцы. Поэтому на первый год выполнения проекта рекомендуют планировать то, что можно сделать без денег и на уже имеющихся ресурсах.

Шурик:

Так, я всё продумал. Мне нужна крыса, чтобы вколоть ей фуфломицин и вылечить от рака!

АД:

А что будет контрольной группой в вашем эксперименте? Давайте всё же спланируем экспериментальные группы

4.2. Какие экспериментальные группы выбрать

В эксперименте, чтобы судить о том, что повлияло на результат: наше воздействие или какие-то случайные факторы, необходимо сравнение с контрольными группами. Если в исследовании не будет адекватных контролей, то и обоснованный вывод сделать не получится, а значит, вся работа будет проделана впустую. Сколько и какие контроли использовать, зависит от конкретного эксперимента и исследовательского вопроса. Кто-то ограничивается исследуемой группой и плацебо, кто-то делает все нижеперечисленные группы. Ещё хуже, когда эксперименты комплексные: в этом случае исследуется воздействие нескольких факторов, и тогда контроли потребуются на каждый отдельный фактор. Обычно после этого возникают сложности со статистическим анализом, так как падает мощность критериев, но это уже совсем другая история

Экспериментальная/опытная/исследуемая группа (treatment group) — это та группа, которая и будет подвергнута какому-то воздействию. Допустим, мы синтезировали очень крутой пептид, который уменьшает воспаление. Тогда в одной группе моделируется воспаление (чтобы было что уменьшать), и она получает этот пептид в качестве терапии.
Контрольная группа (control group) — в классическом понимании это группа, в которой исследуемого воздействия не было (отрицательный контроль). Очевидно, что в нашем случае контрольная группа не получает пептид. Но всё не так просто: очень важно, чтобы исследуемую и контрольную группу отличал только один параметр, иначе мы не сможем разделить эффекты. Например, пептид мы вводим внутривенно в физиологическом растворе, и тогда контрольная группа должна получить инъекцию физраствора без пептида. Собственно, это и есть плацебо-контроль: точно такая же таблетка, но без действующего вещества.

Но не только плацебо используют для контроля. Их может быть куда больше

Положительный контроль (positive control) — это группа, на которую оказывают известное воздействие с тем результатом, который мы хотим получить в эксперименте. В нашем эксперименте мы можем дать также известный противовоспалительный препарат с доказанной эффективностью и сравнить силу ответа. Вдруг наш пептид хоть и работает, но так слабо, что отправлять его на фармфабрику нет никакого смысла?
Интактный контроль (intact) — это группа без какого-либо воздействия вообще. Очень важна, например, при гистологической оценке, чтобы визуализировать, как выглядит здоровая ткань. Если мы оцениваем воспаление на модели подкожного очага, то мы можем сравнить состояние ткани после нашего препарата и в интактном контроле: вдруг он настолько крутой, что вернул всё в изначальное состояние. Ещё интактный контроль может использоваться для оценки состоятельности модели. Например, хирургически вызванный остеоартрит развивается не сразу, поэтому важно отслеживать степень его развития по сравнению со здоровым хрящом.
Ложнооперированный контроль (sham) — предпочтительнее интактного в случае хирургических экспериментальных моделей. В этом случае проводится полная операция, но без целевого действия. Такой контроль важен, чтобы разделить эффекты самой операции от непосредственно заболевания. Например, в случае модели ишемии сердца — вскрывают грудную клетку, изолируют сердце, проводят иглу под сосудом, но не перевязывают его. В данном случае такой контроль нужен, чтобы разделить эффекты самой ишемии и пневмоторакса.

Очень важно, чтобы субъекты в каждую группу попадали случайным образом, это называется рандомизация. В идеале до начала эксперимента следует оценить исследуемые параметры и проверить, что различий между группами нет. В противном случае далее мы будем наблюдать это различие, а не эффекты нашего исследуемого воздействия. При этом существует понятие квазиэкспериментальных исследований, при которых рандомизации не происходит.

шурик:

Окей, понял, тогда мне нужно две крысы. Одной вколю фуфломицин, а второй плацебо!

АД:

Вы забыли про повторности

4.3. Что такое повторности

В идеальном мире для уверенности в воспроизводимости данных и для того, чтобы избежать публикации какого-то единичного эффекта, важно проводить повторные эксперименты. Сами нижеперечисленные термины известны в контексте молекулярной биологии и применяются в анализе экспрессии генов, но они прекрасно подходят практически для любой экспериментальной области.

Технические повторности/реплики

— это когда один и тот же объект измеряется несколько раз. Например, для полимеразной цепной реакции ДНК с одного образца раскапывается в три лунки, и в каждой происходит реакция. Если в какой-то из лунок дрогнула рука и, например, ДНК осталась в носике пипетки, то это будет видно по выбивающимся результатам. В идеале, конечно, все три повторности более-менее совпадают. Точно так же я, например, измеряла длину ноги крысы штангенциркулем три раза, чтобы определить погрешность такого измерения. В целом, для любого метода это применимо, и я настоятельно рекомендую не пренебрегать техническими повторностями. Иногда разброс данных из-за ошибки измерения оказывается большим, чем наблюдаемый эффект
Биологические повторности/реплики

— это измерение на разных объектах исследования. Например, образцы ДНК от разных пациентов или разные крысы, у которых я измеряла ноги. И это будет та самая выборка, которую мы потом будем анализировать на статистике. Я знаю, что некоторые исследователи подменяют технические и биологические повторности, искусственно увеличивая выборку, но это не очень корректно, поскольку разброс в технических репликах в идеале должен быть минимальным, а в биологических — как получится, и данные получаются неоднородными.
Независимые эксперименты

— это когда один и тот же эксперимент повторяется несколько раз (в идеале ещё и в другой лаборатории и другими исследователями, но будем реалистами, такое не всегда возможно). Если в каждом независимом эксперименте получается один и тот же результат, то, скорее всего, эти данные воспроизводимы. У меня несколько раз было так, что я ставила пилотный эксперимент на маленькой выборке, получала данные, практически достойные статьи в Nature, а потом повторяла то же самое на выборке побольше — и всё, дай бог в вестник какого-нибудь университета подать. И это даже с учётом того, что повторение эксперимента не такое уж и независимое. А вот для этой статьи так сложилось, что одни и те же эксперименты делали три разных человека в разных условиях (даже в разных странах и на разных реактивах), так что за результаты я ручаюсь.

4.4. Как избежать типичных ошибок в дизайне эксперимента

Одна из самых сложных вещей для начинающих учёных - построить дизайн исследования. Обычно я сама сидела со своими студентами, рисовала детальный план, объясняла, почему тут столько животных нужно, а вот тут столько клеток. Иногда я прошу их попытаться справиться самостоятельно, но потом почти всегда корректирую. Вот какие ошибки встречаются чаще всего

Неправильные контроли

Очень важно, чтобы единственное различие между контрольной и экспериментальной группой было изучаемое воздействие. Если мы даем крысе таблетку с действующим веществом, то контрольная крыса получает такую же таблетку, но без этого вещества. При этом все остальные условия для крыс должны быть одинаковыми. Также они сами не должны в среднем отличаться друг от друга, что называется рандомизацией. Если при планировании эксперимента не были заложены корректные контроли, его результаты, скорее всего, окажутся некорректными.
Не учитывается разная пробоподготовка

Как следствие, зачастую требуется в два раза больше материала, чем было рассчитано изначально. Например, для ПЦР ткань фиксируется одним способом, для гистологии — другим, а для изучения механических свойств — третьим. И хорошо, если получается разделить образец на части для разных анализов. Но если материала недостаточно, приходится повторять эксперимент.
Не учитываются ограничения по количеству материала в используемых методах

Это особенно характерно для экспериментов на клетках. Сначала планируется множество анализов, а затем выясняется, что материала не хватает, и эксперимент приходится проводить заново, добавляя недостающие методики. Это неэффективно. Гораздо лучше провести несколько независимых экспериментов с меньшей выборкой в каждом, но со всеми необходимыми анализами, чем брать большую выборку, но в каждом эксперименте анализировать разные параметры.
Не учитываются терминальные эксперименты

Некоторые методики предполагают, что объект исследования после проведения анализа будет непригоден для дальнейшего использования. Например, для гистологического анализа сердца крысу придётся умертвить, и получать с нее дальнейшие данные будет невозможно. Или для иммуноокрашивания внутриклеточных белков клетки необходимо убить и зафиксировать. При оценке динамики процессов важно закладывать отдельные повторности на каждую временную точку, учитывая терминальные эксперименты.

На основании этих ошибок я попыталась сделать схему-опросник для планирования эксперимента. Скорее всего, она будет работать для биомедицины и смежных областей, но думаю, её можно адаптировать и под другие задачи. Обратите внимание на то, что в таблице есть несколько листов:

Лист 1 — это словарик терминов, чтобы не запутаться, что я имею в виду под словами "объект", "образец", "проба" и так далее.
Лист 2 — сама таблица.
Лист 3 — пример заполнения таблицы для эксперимента с животными (мы не можем регулировать состав объекта).
Лист 4 — пример заполнения таблицы для эксперимента на клеточных культурах (мы можем регулировать состав объекта — количество клеток).

Таблицу можно сохранить себе. Она, к сожалению, не универсальна, в неё можно добавлять и убирать строки, учитывать разное (пример дополнительных расчётов есть во вкладке с клетками). Тем не менее, она позволяет зафиксировать и не забыть вышеописанные нюансы.

шурик:

Но зачем столько сложностей?

ад:

Потому что в противном случае ваше исследование может оказаться невоспроизводимым. Это значит, что вы его провели, но ни один учёный в мире и даже вы сами не сможете повторить его результат. А значит результат случайный и научная ценность у него минимальна

4.5. Как сделать результаты воспроизводимыми

Согласно исследованию Nature 70% исследователей не могут воспроизвести результаты чужих исследований, а 60% своих же. Собственно, я лично столкнулась с тем, что взяв вещества, которые по литературе должны были стимулировать образование хряща из клеток, мы не получили хоть сколько-нибудь вменяемого результата. Невоспроизводимость может возникать как вследствие намеренного нарушения научной этики, а именно фальсификации и фабрикации. Но есть и вполне неумышленные причины

Неполное описание методик. Конечно, в статье нельзя указать абсолютно все детали и нюансы эксперимента, которые добросовестный исследователь вносит в свой лабораторный журнал, и тем более нельзя указать те, что по каким-то причинам посчитали неважными. Например, я как-то не смогла повторить свою же методику выделения тучных клеток в новой лаборатории. Через месяц выяснилось, что это потому, что там была центрифуга с другим ротором и другие автоматические пипетки с менее плавным ходом.
Работа оборудования. В производственной практике требуется обязательная поверка оборудования, однако в лабораториях за этим не особо следят. Вот как часто в твоей лаборатории калибруют пипетки? А весы? Хроматографы? И, конечно, все эти погрешности могут также влиять на финальный результат. Тут капнул больше, тут меньше — и вот, значимые различия. А если не делать несколько независимых экспериментов, то вероятность обнаружить этот недочёт стремится к нулю.

Малые выборки. В большинстве экспериментальных работ в области биомедицины размер выборок редко превышает 20 единиц, особенно в экспериментах на животных. Учитывая гетерогенность генеральной совокупности, скорее всего, эта выборка слишком мала, чтобы быть репрезентативной. А значит, другая такая же выборка может обладать совсем другими свойствами. Что, кстати, можно хорошо оценить, если делать несколько независимых экспериментов.
Нестандартизованные клеточные линии и штаммы. Клеточные линии, как правило, у каждой лаборатории свои и пассируются примерно бесконечное количество раз, накапливая мутации и становясь всё более и более различными. Также они могут быть заражены микоплазмой, контаминированы другими типами клеток и так далее. А если линии получены из первичных культур, как, например, мезенхимальные стволовые клетки, то один только донор вносит огромный вклад в гетерогенность, а помимо этого есть разные протоколы выделения, разные протоколы культивирования и так далее. Лично я столкнулась с тем, что культура мышиных фибробластов 3Т3, на которой мы к счастью только отрабатывали методики, оказалась перепасcированной и уже перестала быть 3Т3.
Работа с большими датасетами. Я не очень большой специалист в data science или биоинформатическом анализе, но иногда, за неимением большего, именно такие профаны, как я, дорываются до больших данных. Результаты такого анализа могут быть некорректны и невоспроизводимы. Сейчас журналы просят авторов выкладывать датасеты при публикации, но часто данные не сырые, а как-то уже процессированы и нормированы. А значит, где-то там могла засесть та самая ошибка/особенность обработки, определяющая невоспроизводимость результата.
Человеческий фактор. Ну куда без него. Студент что-то пролил и побоялся рассказать, а потом на ПЦР вылез пик искомого гена. Плюс иногда ненамеренно допускаются разнообразные ошибки отбора и когнитивные искажения, во многом из-за политики непринятия отрицательного результата. И даже если несколько независимых экспериментов было сделано — не все могут пойти в финальную статью.

Чтобы результаты воспроизводились

Нужно сделать всё наоборот описанному выше :)

Использование повторностей и независимых экспериментов.

Чем чаще вы сами пробуете повторить эксперимент с аналогичными реактивами или силами других людей, тем с большей вероятностью его повторит кто угодно и где угодно. Лично я старалась, чтобы мои эксперименты кто-то так или иначе проводил ещё раз, чаще всего студенты
Стандартизация протоколов

Иногда берёшь чужой протокол и оказывается, что "инкубировать 10 минут" - это где-то между 5 и 25 в зависимости от фазы луны, а состав "буфера PSPS" знает только один человек, да и тот уволился. Поэтому нужно уделять много внимания записи протоколов. Лучше всего записывать каталожные номера и производителей реактивов и оборудования, упоминать разные частности вроде "держать пробирку под углом 45 градусов" и записывать и концентрации, и рекомендуемые объемы. Здорово, если есть возможность снимать видео и хранить где-то – либо будущие поколения, либо вы сами из будущего скажете спасибо.
Поверка и калибровка приборов

А вы знаете, что у нас есть целый Федеральный закон № 102-ФЗ «Об обеспечении единства измерений»? И ещё куча подзаконных актов и регламентов, которые в исследовательской лаборатории, к сожалению, соблюдаются редко. Например, обычные автоматические пипетки надо поверять раз в год. Если такая процедура не проводится (хотя бы самостоятельно сотрудниками лаборатории), то, возможно, ваши протоколы или результаты вовсе не те, что вы думаете.
Контрольные образцы

Очень удобно иметь под рукой какие-то стандартные образцы, на которых всё работает. Иногда такие поставляют вместе с реактивами, но мы предпочитали иметь свои, более близкие к работе. Например, у нас были специальные срезы, на которых мы проверяли, не сдохли ли антитела. Были образцы ДНК для проверки протоколов выделения или ПЦР. Линии клеток для проверки клеточных реактивов. Это полезно, чтобы найти проблему, если вдруг эксперимент не воспроизвёлся: в чём она, в условиях или в образцах? Или в сотруднике?
Хранение сырых данных и этапов обработки

Отдельная глава будет посвящена хранению и упорядочиванию экспериментальных данных. В целом, нужно организовать свою систему так, чтобы другой человек мог проследить весь путь от сырых данных к финальной картинке. А то вдруг ошибка закралась именно там, и эксперимент на самом деле воспроизводится, но не так, как вы посчитали в первый раз. Имела я опыт работы с чужими данными, удовольствие оказалось весьма сомнительным, особенно, когда часть информации была записана на китайском. Вспоминается вот этот старый клип.

Предыдущая часть Следующая часть

Часть 4. Дизайн научного исследования

4.2. Какие экспериментальные группы выбрать

4.3. Что такое повторности

Технические повторности/реплики

Биологические повторности/реплики

Независимые эксперименты

Неправильные контроли

Не учитывается разная пробоподготовка

Не учитываются ограничения по количеству материала в используемых методах

Не учитываются терминальные эксперименты

4.5. Как сделать результаты воспроизводимыми

Чтобы результаты воспроизводились