Как читать научное исследование (и почему это совсем не просто)?

shironosov

iStock

Зачем учиться читать научные исследования

Вся индустрия красоты и здоровья строится на маркетинговых заявлениях, подкрепленных «научными доказательствами». При этом вещества, влияние которых на людей почти не изучено (наподобие экстракта зеленого кофе), производители пищевых добавок продают так, как если бы их действие было изучено настолько же хорошо, как действие креатин а, который испытывали на людях сотни раз. Если начать проверять заявления маркетологов, иногда все же можно найти реальное научное исследование — однако исследования бывают очень разными по качеству. Чтобы не тратить деньги на бесполезные продукты (рис. 1), вы должны быть в состоянии оценить достоверность исследования, его применимость, клиническую значимость выявленных эффектов и другие моменты.

Чтобы понять само исследование, а также понять, как оно соотносится с предыдущими работами по той же теме, недостаточно прочитать только его абстракт (аннотацию). При обсуждении нового исследования критически важен контекст, именно поэтому аннотации часто вводят в заблуждение.

Рис. 1.jpg Рис.1. Экстракт зеленого кофе: поучительная история:

1. В исследовании, опубликованном в журнале The Journal of Diabetes, Metabolic Syndrome, and Obesity, утверждается, что участники эксперимента, принимавшие экстракт зеленого кофе, теряли около 0,7 кг в месяц.

2. Американский врач М. Оз в своей телепередаче «Шоу доктора Оза» начинает расхваливать экстракт зеленого кофе как «волшебную таблетку для похудения».

3. Продажи экстракта достигают миллионов долларов.

4. Исходное исследование отозвано. Независимые проверки не подтвердили его результатов.

Некачественные исследования могут дать потрясающие результаты. Но лучше подождать и посмотреть, удастся ли воспроизвести эти результаты в других экспериментах.

Какие бывают виды исследований?

Существует много разновидностей исследований. Приведенная ниже таблица поможет лучше разобраться в них.

Таблица 1. Виды исследований

Виды исследований		Дизайн (структура, стратегия) исследования	Сильные стороны	Слабые стороны
Аналитические	Метаанализ	Обобщает всю доступную литературу по теме с целью объединить и проанализировать данные	Позволяет набрать серьезную статистическую базу по конкретному вопросу	Занимает много времени и требует глубоких знаний статистики
Аналитические	Систематический обзор	Предоставляет экспертную оценку всех имеющихся данных	Может служить руководством в малоизученных областях науки	Различия в дизайне могут затруднить сравнение исследований
Экспериментальные	Рандомизированное контролируемое исследование, РКИ	Участников случайным («рандомным») образом распределяют в экспериментальную либо контрольную группу	Рандомизация позволяет избежать т. н. смещения выборки — отклонения структуры выборки (группы людей, отобранных для участия в исследовании) от реальной структуры населения. Деление на две группы дает возможность использовать слепой метод, позволяющий исключить субъективные факторы, способные повлиять на результат: • одинарный слепой метод — участники не знают, к какой группе они относятся, экспериментальной или контрольной; • двойной слепой метод — не знают ни участники, ни экспериментаторы; • тройной слепой — не знают ни участники, ни экспериментаторы, ни аналитики, обрабатывающие результаты	Может быть очень дорогим и ресурсоемким
Экспериментальные	Нерандомизированное контролируемое исследование	Участников распределяют в экспериментальную либо контрольную группу	Позволяет использовать слепой метод	Не рандомизировано
Обсервационные (наблюдательные)	Когортное исследование	За определенной демографической группой (когортой) наблюдают некоторое время, отслеживая привычки, факторы риска, изменения здоровья	Легче проводить, чем экспериментальные: исследование не требует активного вмешательства ученых, включает только наблюдение событий в их естественном течении	Может занимать долгие годы
	Исследование «случай‑контроль»	Сравнивают группы с определенным заболеванием («случай») и без него («контроль»)	Позволяет выявить факторы риска	Трудность получения достоверной информации, субъективность оценок
	Описание клинических случаев	Составляют подробный отчет об отдельных случаях	Помогает выявить новые тенденции	Не позволяет делать обобщения

Заметим, что и экспериментальные, и обсервационные исследования могут быть поперечными (одномоментными) и продольными (длящимися во времени).

«Золотым стандартом» в биологии и медицине считается рандомизированное двойное слепое плацебо-контролируемое исследование:

участников случайным образом распределяют либо в экспериментальную группу, либо в контрольную;
экспериментальная группа получает медицинское вмешательство, контрольная — плацебо;
ни сами участники, ни оценивающие результат ученые не знают, к какой группе относится тот или иной участник.

Что можно узнать из абстракта и введения

Научные статьи разбиты на несколько разделов. В разных статьях они могут отличаться, но, как правило, всегда есть абстракт (аннотация), вступление, методы, заключение.

Абстра́кт — это краткое изложение основных моментов статьи. Поскольку в несколько абзацев требуется уместить большой объем информации, абстракт может непредумышленно вводить в заблуждение. В нем не раскрыт контекст (особенности эксперимента), из-за чего часто не ясны ограничения исследования и применимость его результатов в реальной жизни. Прежде чем приводить статью в качестве доказательства своей точки зрения, обязательно прочтите ее целиком, потому что может оказаться, что это весьма слабое доказательство.

Введение подготавливает почву для дальнейшего рассказа. В нем должен быть четко поставлен вопрос, на который авторы надеются ответить в своем исследовании. Кроме того, обычно именно в этом разделе авторы обобщают предыдущие работы по данной теме и объясняют, почему они решили продолжить ее изучение. Например, некалорийный подсластитель стевия показал многообещающие результаты в плане нормализации уровня глюкозы в крови, особенно у диабетиков. Поэтому решили провести более масштабные и тщательно организованные исследования, чтобы точно определить, может ли стевия быть эффективным средством лечения диабета.

Введение часто дает прекрасную возможность найти дополнительные материалы по теме, поскольку в нем авторы часто ссылаются на более ранние работы.

Одно исследование — это лишь один кусочек головоломки

Если вы прочитаете несколько научных статей по какой-то теме, то получите более достоверную (более соответствующую действительности) информацию. Например, если вы прочитали только одно исследование, в котором изучали влияние креатина на уровень тестостерона и которое показало, что тестостерон повышается, то 100% известных вам данных говорят о том, что креатин повышает тестостерон. Но если вы прочитали 10 исследований по этой теме и только в одном описывалось повышение уровня тестостерона, то 90% ваших данных говорят о том, что креатин не повышает тестостерон.

Это упрощенный вариант оценки достоверности, метаанализ гораздо сложнее. Он не сводит каждую научную работу к однозначному положительному или отрицательному результату, а учитывает множество критериев: дизайн исследований, количество участников, влияющие на результат предубеждения и пр.

Производители пищевых добавок обычно тщательно отбирают подходящие им исследования. Если компания хочет продать вам креатин в качестве стимулятора синтеза тестостерона, она упомянет лишь одну работу, в котором было обнаружено повышение уровня тестостерона, и не упомянет девять, в котором его не обнаружили.

Точно так же спорщики в интернете с легкостью находят подходящие исследования, чтобы доказать свою точку зрения. Если вы ищете статью, в которой говорится, что низкожировая диета позволяет худеть быстрее, чем низкоуглеводная, вы ее найдете. Если вы ищете статью, которая показывает обратное, вы тоже ее найдете. Поэтому если вы ищете истину, а не «боеприпасы для войны» в соцсетях, важно изучить всю совокупность доказательств и честно проанализировать исследования, которые не согласуются с вашим первоначальным мнением.

Стоит отметить, что не только компании-производители выборочно используют исследования. Иногда так поступают и сами исследователи. Если вы знаете, что обсуждаемый в научной статье вопрос является спорным и при этом в работе упоминаются только исследования, подтверждающие выводы авторов, стоит самостоятельно поискать другие материалы по этой теме.

Методы: самая важная часть исследования

В разделе «Методы» (или «Материалы и методы») содержится информация по структуре исследования и участниках. В идеале данные должны быть ясными и подробными, чтобы другие исследователи могли повторить исследование, не обращаясь к его авторам. Этот раздел нужно изучить, чтобы определить слабые и сильные стороны исследования и ограничения, что позволит понять, как интерпретировать результаты исследования.

Демография

Раздел «Методы» обычно начинается с информации об участниках: их возрасте, поле, образе жизни, состоянии здоровья и принципах отбора. Эти сведения помогут решить, насколько исследование актуально для вас, ваших близких или ваших клиентов.

Демографическая информация может быть довольно объемной, и может возникнуть соблазн ее пропустить, но делать этого не стоит: она влияет как на достоверность исследования, так и на его применимость.

Достоверность. Чем больше размер выборки (т. е. количество участников), тем более достоверны результаты научной работы. Заметим, что в начале исследования число участников нередко больше, чем в конце. В частности, много людей покидает исследования диет.

Применимость. В сфере здоровья и фитнеса, говоря о применимости, имеют в виду, что какое-то вещество или вмешательство (действие) — например, пищевая добавка, диета или упражнение — может быть полезным для одной группы людей и бесполезным или даже опасным для другой. Скажем, хотя креатин признан безопасным и эффективным, есть люди, у которых он не улучшает спортивные показатели.

Как показывает пример с креатином, ваш опыт может отличаться от выводов статьи, и данные о демографии помогут точнее оценить, применим ли к вам результат исследования. Например, если в эксперименте принимали участие только мужчины, женщинам следует помнить, что для них эффект может быть менее выраженным. Точно так же результаты упражнений или приема пищевой добавки, полученные на студентах, могут сильно отличаться от результатов людей пенсионного возраста.

Кроме того, при разных методах отбора участников могут быть по-разному представлены различные демографические группы, и это тоже способно повлиять на применимость. В большинстве случаев ученые используют тот или иной вариант «удобной выборки» — к примеру, для исследований, проводимых университетами, часто привлекают студентов. Тем не менее, некоторые авторы применяют случайную выборку, чтобы сделать работу более применимой к популяции в целом. Такие исследования обычно называют «расширенными рандомизированными контролируемыми».

Мешающие факторы. Наконец, в демографических данных обычно указывается, какие группы были исключены из исследования и почему. Чаще всего причина заключается в существовании спутывающего фактора, так называемого конфаундера (от англ. to confound — «запутывать, сбивать с толку») — некоей сторонней переменной, способной исказить результаты.

Например, если вы изучаете влияние силовых тренировок на мышечную массу, то не захотите, чтобы одни участники принимали пищевые добавки для набора мышц, а другие — нет. Вы предпочтете, чтобы либо все испытуемые принимали одни и те же добавки, либо, что более вероятно, чтобы никто из них не принимал добавок.

И наоборот: если вы изучаете влияние специальных добавок на набор мышечной массы, то не захотите, чтобы одни участники занимались спортом, а другие — нет. Вы предпочтете, чтобы либо все они следовали одной и той же программе тренировок, либо, что менее вероятно, чтобы ни один из них не тренировался. Соответственно, вы исключите из выборки тех, кто не соответствует вашим критериям.

Конечно, может быть не две группы участников, а больше. Например, эффективность силовых тренировок можно изучить на четырех группах:

силовые тренировки + отсутствие добавок;
силовые тренировки + креатин;
отсутствие силовых тренировок + отсутствие добавок;
отсутствие силовых тренировок + креатин.

Однако если изучать четыре группы вместо двух, то, чтобы сохранить размер выборки, понадобится вдвое больше участников, из-за чего работа станет более сложной и дорогостоящей.

Если на то пошло, любые различия между участниками — это переменные, которые потенциально могут играть роль мешающих факторов. Именно поэтому, например, в экспериментах на мышах используют генетически очень близких особей. И именно поэтому в исследованиях на людях авторы довольно редко стремятся проверить свои гипотезы на разнообразной выборке. Например, если исследование включает только пожилых женщин, это фактически устраняет факторы возраста и пола как мешающие.

Как отмечено выше, при достаточно большом размере выборки можно сразу изучать несколько групп. Также можно уже после завершения работы, при анализе результатов, разбить выборку на несколько подгрупп. Например, если вы проводите масштабное обсервационное исследование, посвященное влиянию красного мяса на здоровье, то по окончании работы сможете выделить подгруппы «мужчины» и «женщины» и рассмотреть данные по ним отдельно. Однако анализ подгрупп считается скорее исследовательским, чем подтверждающим методом и потенциально может давать ложноположительный результат (показывать наличие эффекта там, где его на самом деле нет).

Дизайн исследования и конечные точки

В разделе «Методы» также описывается, как проводилось исследование. Среди возможных вариантов дизайна могут быть двойные слепые исследования, обсервационные исследования и пр. (см. таблицу 1).

Именно из этого раздела вы узнаете о продолжительности наблюдений, используемых дозировках, режимах тренировки, методах тестирования и т. д. (рис. 2). В идеале, как мы уже говорили, эта информация должна быть настолько ясной и подробной, чтобы другие специалисты могли повторить эксперимент, не обращаясь к авторам за разъяснениями.

Наконец, в разделе «Методы» могут быть указаны конечные точки, на которые обращали внимание исследователи. Например, при изучении эффектов силовых тренировок в качестве первичной конечной точки (главного критерия оценки результатов) может использоваться мышечная масса, а в качестве вторичных конечных точек — жировая масса, силовые показатели и уровень тестостерона.

Одна из уловок авторов, которые стремятся найти какой-либо эффект (иногда для того, чтобы использовать его для рекламы продукта, но часто просто потому, что работы, в которых показан эффект, с большей вероятностью будут опубликованы), состоит в том, чтобы взять много конечных точек, но в статье использовать только те, что подтверждают эффект, а остальные не упоминать вообще либо преуменьшать их значение. Чтобы предотвратить такие манипуляции (действенность которых продемонстрировал известный забавный обман с шоколадом), многие ученые настаивают на предварительной регистрации исследований. В этом случае еще до начала работы запланированные методы исследования и анализа результатов публикуются в виде журнальной статьи.

Умение распознать уловки, используемые не слишком щепетильными авторами, — это, увы, часть навыков, которые нужно развить, чтобы оценивать опубликованные исследования.

Рис. 2.jpg

Рис. 2. Пример протокола исследования для сравнения двух диет

Интерпретация статистики

Раздел «Методы» обычно завершается подробным обсуждением статистики. Выяснение того, применялся ли в данном исследовании подходящий метод статанализа, — это отдельная и очень большая тема для разговора. Мы предлагаем не углубляться в нее, а сосредоточиться на общей картине.

Давайте проясним два момента. Во-первых, бывает, в статье говорится, что эффект был значимым, но, если посмотреть на цифры, выяснится, что он был очень слабым. А бывает, в статье сказано, что никакого эффекта не было обнаружено, но цифры утверждают, например, что испытуемые из экспериментальной группы потеряли больше веса, чем группа плацебо. Как так может быть?

Ответ прост: эти чудны́е ученые не говорят на языке нормальных людей. Для них «значимый» означает не «важный», а «статистически значимый». Эффект считается значимым, если полученные результаты были бы маловероятны в случае отсутствия данного эффекта. Таким образом, эффект может быть значимым, но при этом очень небольшим (например, 0,2 кг потери веса за год).

Соответственно, «отсутствие эффекта» для ученых обычно означает «отсутствие статистически значимого эффекта». Именно поэтому вы можете увидеть в статье данные об уменьшении или увеличении показателей, а в заключении прочитать, что никаких изменений обнаружено не было. На самом деле изменения были, но настолько незначительные, что они могут являться следствием случайных отклонений (а могут быть и следствием вмешательства, однако утверждать наверняка мы не можем, поскольку они слишком малы).

Ранее мы отметили, что чем больше размер выборки, тем достовернее результаты. Чем больше выборка, тем лучше можно определить, значимы ли небольшие эффекты. Небольшой эффект, обнаруженный в исследовании с участием 1000 человек, с меньшей вероятностью будет вызван случайными отклонениями, чем тот же эффект, выявленный в исследовании с участием 10 человек. Это объясняет, почему метаанализ позволяет обнаружить значимые изменения, объединив данные нескольких исследований, которые по отдельности значимых изменений не показали.

Во-вторых, эффект может быть значимым статистически, но незначимым клинически, т. е. не оказывать заметного влияния на здоровье.

P-values

P-values (p-значение, p-уровень значимости) — статистический показатель, который рассчитывается на основе формул и табличных данных и используется при тестировании гипотез.

В каждом исследовании обычно рассматриваются два противоположных утверждения: основная, или нулевая, гипотеза, и альтернативная. Например, представим исследование, в котором БАД для похудения сравнивается с плацебо. Эти противоположные утверждения будут выглядеть так:

нулевая гипотеза. По сравнению с плацебо БАД не приводит ни к снижению, ни к повышению веса (гипотеза состоит в том, что добавка никак не влияет на вес);
альтернативная гипотеза. По сравнению с плацебо БАД вызывает повышение или снижение веса (гипотеза состоит в том, что добавка оказывает положительное или отрицательное влияние на вес).

Цель исследования — установить, какая гипотеза лучше подтверждается реальными данными. Установить, является ли эффект вмешательства (приема БАД) более выраженным, менее выраженным или таким же, как эффект приема плацебо в контрольной группе. В данном случае в качестве контроля используется плацебо, но иногда в этой роли выступает другой, хорошо изученный, препарат/вмешательство: например, новый лекарственный препарат сравнивают с эталонным.

Чтобы решить, дало ли вмешательство эффект, авторы проводят статистический анализ результатов, обычно один для каждой конечной точки. Решение о наличии эффекта принимают, основываясь на p-значении.

P-значение показывает, какова вероятность получить такой же или более выраженный результат как фактически наблюдаемый, при условии, что верна нулевая гипотеза. Другими словами, в нашем примере p-значение показывает соответствие фактически полученных результатов с предположением, что два тестируемых метода лечения, БАД и плацебо, дают одинаковый эффект.

Эффект считается статистически значимым, если статистический анализ результатов дает p-значение, которое не превышает определенного порога. Этот порог значимости (α) авторы устанавливают еще до начала работы. Если в конце исследования p-значение больше этого порога (р > α), между эффектами вмешательства и плацебо статистически значимой разницы нет, т. е. верна нулевая гипотеза. Если p-значение меньше или равно этому порогу (p ≤ α), между эффектами двух изучаемых методов существует статистически значимая разница, т. е. верна альтернативная гипотеза (рис. 3).

Рис. 3.jpg

Рис. 3. Порог статистической значимости

Чаще всего используется порог значимости 5% (α = 0,05). Это означает, что если верна нулевая гипотеза (предположение об отсутствии различий между БАД и плацебо), то, повторив эксперимент бесконечное число раз, мы получим ложноположительный результат (обнаружим значимый эффект там, где его нет) не более чем в 5% случаев (р ≤ 0,05).

Например, в нашем воображаемом эксперименте возможны два варианта развития событий:

сценарий 1: p-значение составляет 0,80 (р = 0,80). Результаты лучше согласуются с нулевой гипотезой, то есть с идеей, что между двумя методами лечения нет никакой разницы. Мы делаем вывод, что БАД не оказала значимого влияния на потерю веса по сравнению с плацебо.
сценарий 2: p-значение составляет 0,01 (р = 0,01). Результаты лучше согласуются с альтернативной гипотезой, то есть с идеей, что между двумя методами лечения есть разница. Делаем вывод, что БАД оказала значимое влияние на потерю веса по сравнению с плацебо.

Понять, что такое p-значение, бывает непросто даже специалистам. Мы предлагаем следующий интуитивный способ сделать это. Представьте, что вы подбрасываете монетку. Подкиньте ее сто раз, и соотношение частоты выпадения орла и решки составит примерно 50/50. В этом нет ничего неожиданного. А если в ста случаях из ста выпадет орел? Вот это будет по-настоящему неожиданным, ведь с математической точки зрения вероятность такого исхода составляет всего 0,00000000000000000000000000008%! Попробуйте думать о p-значении с точки зрения неожиданности:

p-значение 5% (р = 0,05) — так же неожиданно, как одни орлы при 4 бросках монеты;
p-значение 0,5% (р = 0,005) — так же неожиданно, как одни орлы при 8 бросках.
p-значение 0,05% (р = 0,0005) — так же неожиданно, как одни орлы при 11 бросках.

Т. е. чем меньше p-значение, тем более неожиданными являются полученные результаты и, соответственно, тем более ошибочной выглядит наша нулевая гипотеза. Если р-значение ниже порога значимости, результаты выглядят настолько неожиданными, что нам придется отклонить нулевую гипотезу и выбрать альтернативную.

Обращаем внимание, что р-значение не равно «математическая вероятность». Вероятность получить 4 орла подряд составляет 6,25%, а не 5%. Если вы хотите перевести P-value в броски монет (S-value) и процент вероятности, воспользуйтесь этим конвертером.

Чем меньше p-значение (и чем ниже оно порога значимости), тем достовернее результаты, тем тверже мы можем быть уверены в значимости эффекта. Результат является значимым и при р = 0,01, и при р = 0,000001. Но меньшая величина p-значения (0,000001) дает бо́льшую уверенность. В нашем примере при р = 0,000001 мы будем тверже уверены в том, что БАД оказывает значимое влияние на изменение веса и, соответственно, что верна альтернативная гипотеза. Стоит заметить, что, хотя чаще всего используется порог в 5% (р ≤ 0,05), некоторые области науки требуют большей точности. Например, чтобы специалисты по генетической эпидемиологии сочли, что генетическая взаимосвязь статистически значима (допустим, что ген связан с увеличением веса), порог значимости обычно устанавливается на уровне 0,0000005% (р ≤ 0,000000005). Математическая вероятность этого составляет 0,00000003%.

Однако помните, что статистически значимый эффект может не быть значимым клинически. Предположим, мы обнаружили значимый результат (р = 0,01), показывающий, что БАД способствует потере веса. Внимание, уловка: по сравнению с плацебо БАД увеличил потерю веса только на 0,2 кг за год — такая разница слишком мала, чтобы иметь какое-либо значимое влияние на здоровье. Хотя результат и значим, реальный эффект слишком мал, чтобы оправдать прием этой добавки. Вероятность такого сценария повышается в крупных исследованиях, поскольку, как мы уже говорили, чем больше выборка, тем достовернее можно определить, являются ли значимыми небольшие эффекты.

P-значение: не делайте из него культа!

Помните, что хотя p-значение важно, оно не является последним словом при оценке правильности полученных результатов.

Не так уж редко бывает, что авторы, которые слишком стремятся отыскать в своем исследовании хоть какой-то эффект, «перелопачивают» весь имеющейся массив данных вслепую, без предварительного построения гипотез, чтобы отыскать хотя бы какие-нибудь статистически значимые закономерности. В англоязычной среде этот прием называют data dredging (от слов «данные» и «землечерпалка»). В русскоязычной — «слепое прочесывание данных».

Авторы могут также различными способами искусственно снижать p-значение. Например, проводить много разных анализов одних и тех же данных и публиковать только значимые результаты, а об остальных умалчивать. Или же набирать все больше и больше участников до тех пор, пока не получат статистически значимый результат. Такие недобросовестные научные методы известны как «р-хакинг», или «избирательная отчетность» (ознакомиться с реальными примерами можно здесь).

Наконец, на p-значение также могут влиять (намеренно или нет) дизайн исследования, скрытые мешающие факторы, типы используемых статистических тестов и многое другое. Чтобы оценить важность дизайна исследования, представьте себя на месте ученого и подумайте: как бы вы могли изменить дизайн, чтобы получить желаемые для вас результаты и тем самым продвинуть свою научную карьеру.

Раздел «Результаты»

В конце статьи авторы обсуждают ключевые результаты — то, что интересовало их в исследовании больше всего. Обычно такой раздел называется «Результаты» или «Результаты и обсуждение». У вас может возникнуть желание после абстракта сразу перейти к этому разделу, но это часто приводит к неправильному толкованию и способствует распространению ошибочной информации. Никогда не смотрите результаты, не изучив сначала раздел «Методы»: знание того, как авторы пришли к какому-либо выводу, так же важно, как и сам вывод.

Первое, что следует искать в разделе «Результаты», — это сравнение характеристик групп испытуемых. Если после рандомизации имеются большие различия в исходных характеристиках, это может означать, что сравнивать группы будет некорректно. Такие различия могут быть итогом случайности или же неправильного применения метода рандомизации.

Авторы также должны опубликовать данные о проценте отсева участников и о выполнении ими требований. Жизненные обстоятельства часто встают на пути науки, и почти всегда часть испытуемых не доходит до конца или не выполняет инструкции. Это особенно верно в отношении исследований, которые продолжаются долгое время или же предполагают определенные ограничения (например, исследования диет). Тем не менее, слишком большой процент отсеявшихся или нарушивших правила должен вызвать настороженность, особенно если в одной из групп этот процент гораздо выше, чем в другой.

Ученые часто используют опросники, анализы крови и другие методы сбора данных, которые могут быть представлены в виде диаграмм и графиков. Обязательно проверьте по вертикальной оси (оси Y) масштаб, в котором представлены результаты; то, что на первый взгляд кажется существенным изменением, на деле может быть очень незначительным. Например, в нашем гипотетическом эксперименте по снижению веса добавка для похудения по сравнению с плацебо за год увеличила потерю веса всего на 0,2 кг (0,5 фунта). Однако посмотрите на рисунок: за счет манипуляций с масштабом мы можем сделать этот непримечательный результат намного более впечатляющим.

Рис. 4.jpg Рис. 4. Манипуляции с масштабом по оси Y

Раздел «Результаты» может включать и вторичный анализ, например, анализ подгрупп или анализ чувствительности.

Анализ подгрупп. Как уже говорилось, в этом случае рассматривается не вся выборка, а лишь определенное подмножество участников. Например, если в число испытуемых входили мужчины и женщины разных возрастов, можно проанализировать данные только женщин или только людей старше 65 лет, чтобы увидеть, изменится ли от этого результат.

Анализ чувствительности. Показывает, как изменение исходных параметров исследования влияет на конечный результат: останется ли он неизменным, если вы используете другой метод анализа или, как в случае с подгруппами, исключите некоторые данные (в метаанализе можно убрать одно исследование и снова провести метаанализ).

Как уже говорилось, достоверность исследования зависит от размера выборки. Если вы исключите ряд участников, размер выборки уменьшится и число ложноположительных результатов может увеличиться. Это также означает, что если вы достаточно долго будете «играть» с данными, то в конечном итоге сможете получить нужный результат. Давайте представим крайний случай: скажем, ученому заплатили, чтобы он доказал, что БАД для похудения по-настоящему эффективна. Он проверил действие добавки на 20 участниках обоего пола, возраст которых варьировал от 21 до 87 лет. Увы, из участников похудела только одна женщина 65 лет. Но автор может провести анализ подгрупп, исключив мужчин и людей младше 65 лет, и получится, что для женщин в возрасте 65 лет БАД очень эффективна.

Уточнение выводов

Иногда заключение поделено на два раздела — «Результаты» и «Обсуждение».

В «Обсуждении» авторы описывают значение своей работы. Также они могут уточнить свою интерпретацию результатов или выдвинуть гипотезу о механизме наблюдаемого эффект (т. е. о биохимических процессах, лежащих в его основе). Часто они сравнивают свое исследование с предыдущими и/или предлагают новые эксперименты, которые можно было бы провести на основе результатов их работы. Помните, что одно исследование — это всего лишь часть общей головоломки, и оценивайте, насколько оно вписывается в совокупность доказательств по конкретной теме.

Авторы должны описать сильные и слабые стороны своего исследования. Изучите их критически. Удалось ли хорошо осветить и то, и другое? Не упущено ли какое-либо критически важное ограничение? Не принимайте описание на веру — анализируйте.

Как и введение, заключение содержит ценный для понимания смысла контекст. Если вам кажется, что авторы завышают полученные результаты или экстраполируют (распространяют, переносят) их на демографические группы, не вписывающиеся в рамки их исследования, стоит прочитать статью еще раз, особенно раздел «Методы».

Конфликт интересов

Наличие конфликта интересов, если он существует, обычно указывают после заключения. Конфликты интересов могут возникать, когда у исследователей есть причины не узнать истину, а получить вполне определенные результаты. Наиболее очевидный источник конфликта интересов — деньги: бывает, что исследование спонсируется коммерческой компанией или один из авторов работает на компанию, которая в случае «нужных» результатов получит от исследования выгоду.

К сожалению, исследование показало, что умалчивание о конфликте интересов — довольно распространенная практика. Кроме того: то, что один научный журнал сочтет конфликтом интересов, в другом журнале может не считаться таковым, да и сами журналы могут иметь конфликты интересов, причем они не обязаны их раскрывать. Например, журнал из страны, которая экспортирует большие объемы определенного растения, может иметь скрытые причины публиковать исследования, подтверждающие преимущества данного растения, — а читатель будет думать, что конфликта интересов нет, ведь статьи посвящены растению, а не какому-то конкретному продукту.

Конфликт интересов нужно тщательно оценивать. Не считайте по умолчанию, что раз о нем не сообщается, то его нет. Но также не считайте по умолчанию, что если он есть, то обязательно влияет на результаты.

В поисках правды

Как уже говорилось, результаты исследований редко применимы ко всем людям. Например, первые работы по изучению глутамина проводились на пациентах с ожогами, у которых из-за повреждения тканей наблюдался дефицит этой аминокислоты. Последующие исследования показали, что люди, не страдающие дефицитом глутамина, не получают такого же выраженного эффекта, как ожоговые больные.

Намеренный выбор определенной демографической группы оправдан, если ученые ищут способ помочь конкретной категории пациентов. Но это также может быть стратегией, позволяющей искусственно получить нужные результаты (например, эффективность «жиросжигателей» нередко подтверждают исследования, в которых участвуют только женщины с лишним весом в постменопаузе). Если этот момент не указывается в абстракте, а журналисты пропускают раздел «Методы» или вообще смотрят только на результаты, читатели в итоге оказываются введены в заблуждение.

Не считайте по умолчанию, что журналисты СМИ читают научные статьи целиком. Исследование, в котором рассматривалось качество доказательств рекомендаций по питанию, публикуемых в британских газетах, продемонстрировало, что около 70% заявлений о пользе для здоровья были основаны на недостаточных или неполных данных. Чтобы уложиться в сроки, перегруженные работой журналисты нередко полагаются на абстракты или на пресс-релизы авторов исследований, в которых часто не удается точно изложить всю информацию.

Таким образом, ничто не заменит самостоятельной оценки исследования. В случае сомнений перечитайте раздел «Методы», чтобы лучше оценить сильные стороны и потенциальные ограничения. И учитывайте, что изучение даже одного исследования может занять несколько часов и более.

Зачем вам целая команда?

Изучение и оценка даже одного исследования может занять много времени, порой на это может уйти несколько часов. Знание основ оценки исследований очень важно, но надо понимать и то, что у людей есть своя жизнь. Ни у кого нет столько времени, чтобы хватило прочитать все новые публикуемые исследования; кроме того, некоторые исследования могли бы принести пользу, если бы их прочли профессионалы из различных областей знаний.

Обладая учеными степенями в области общественного здравоохранения, физической культуры, кинезиологии, питания, фармакологии, токсикологии, микробиологии, молекулярной биофизики, биомедицины, нейробиологии, химии и многого другого, члены нашей команды являются аккредитованными экспертами с очень разным опытом, так что, когда мы вместе изучаем результаты исследований, то получаем полную картину. У каждого из нас есть собственная сеть знакомств, к которой мы обращаемся всякий раз, когда нам нужно связаться с лучшими специалистами в той или иной области.

Профессионалы, чья жизнедеятельность зависит от получения ими достоверной информации, доверяют Examine.com. Благодаря нашему сайту они остаются в курсе последних исследований в области питания; они доверяют нам изучать каждое исследование, доверяют нашей предельной тщательности и способности четко, кратко и точно представлять сведения о научных трудах. Но даже если вы не являетесь медицинским работником, то сможете извлечь выгоду из Examine.com. Посетите наш сайт (и прочитайте сотни бесплатных статей) или прочтите одно из наших практических руководств (о фитнесе, кето-диете, молочной сыворотке и многом другом).

Рис. 5.jpg Рис. 5. Факторы, которые могут влиять на применимость результатов

Базовый чек-лист

Мы предлагаем простой список вопросов, который полезно иметь под рукой всякий раз, когда вы решите изучить научную работу.

В чем суть нулевой гипотезы (на какой вопрос пытаются ответить авторы)?

Описан ли четко и ясно дизайн исследования?

К какому типу оно относится?
Сколько времени оно длилось?
Каковы первичные и вторичные конечные точки?

Если это эксперимент, смогли бы вы воспроизвести его на основе информации, представленной в статье?

Было ли исследование рандомизированно? Как именно?
Было ли оно слепым? Если да, то какой слепой метод использовался: одинарный, двойной или тройной?
Какое лечение назначалось (достаточно ли сведений о том, какое лечение получали/ не получали экспериментальная и контрольная группы?)

Какие демографические группы изучались?

Каков был размер выборки (сколько участников было включено)?
Четко ли изложены критерии включения/исключения участников?
Как набирали участников?

Что показал анализ?

Каков был отсев в каждой группе?
Являются ли результаты статистически значимыми?

Применимы ли результаты к реальной жизни?

Являются ли результаты клинически значимыми?
Использовались ли реально применяемые дозировки препаратов?
К кому можно применить результаты с учетом демографической структуры выборки?

Были ли какие-либо побочные эффекты или нежелательные явления?

Если да, то насколько они были серьезными?
Если да, то как часто они возникали?

Каковы основные источники возможной необъективности?

Была ли большая разница в проценте отсева между группами? Если да, почему?
Выполняла ли экспериментальная группа все указания?
Было ли исследование предварительно зарегистрировано с целью избежать слепого прочесывания данных?
Были ли конфликты интересов? Какие?

Оригинал: http://v6.examinecdn.com/learn/2015-ERDStudyGuide.pdf