Meta-știință I: Majoritatea rezultatelor din cercetare sunt false?

Publicat de 22 decembrie, 20154 ianuarie, 2016 de opriviresceptica

În 2005, un cercetător grec pe nume John Ioannidis a publicat un articol numit Why Most Published Research Findings Are False în care a arătat că doar în jur de 46% dintre studiile publicate în literatura științifică au rezultate adevărate.

So… is science dead?

Meta I. John Ioannidis

John Ioannidis. Sursa: JAMA.

Cuprins

Despre studiu și efectele sale

Studiul lui Ioannidis

Reacții la studiul lui Ioannidis

Replicare, replicare, replicare

Medicină

Studii epidemiolgice

Nutriție

Medicina bazată pe dovezi

Psihologie

Psihiatrie

Neuroștiință

Niște exemple concrete din psihologie/neuroștiință

Un studiu retras

Farmecul seducător al neuroștiinței

The God Helmet

Durerea emoțională și durerea fizică

Un psiholog cam nervos

Alte practici nepotrivite

P-hacking

Ce soluții există?

Despre studiu și efectele sale

Studiul lui Ioannidis

După titlu, pare că nu putem avea încredere în știință. Dacă mai mult de jumătate dintre studii au rezultate false, nu mai bine dăm cu banul? Ca să aflăm, primul pas e să citim articolul. Mai jos am făcut un rezumat și am încercat să explic ce a spus Ioannidis, dar fiind niște informații mai tehnice s-ar putea să vă plictisesc. În caz că se întâmplă asta nu renunțați de tot pentru că mai jos (la părțile despre medicină și psihologie) o să găsiți niște informații cât de poate de interesante.

Acum studiul. Ioannidis spune că probabilitatea ca un rezultat al unui studiu să fie adevărat depinde de mai multe lucruri: probabilitatea anterioară de a fi adevărat (adică înainte de a face experimentul), puterea statistică a studiului (cu cât mai mare, cu atât mai bine) și nivelul de semnificativitate statistică atins. Toate acestea sunt puse într-o formulă din care rezultă o valoare pe care o numește PPV (positive predictive value). PPV înseamnă probabilitatea ca descoperirea (rezultatul) să fie adevărată după ce studiul a fost făcut. Asta e ceea ce ne interesează de fapt și aflăm că valoarea depinde de mai mulți factori.

Primul dintre ei este notat cu R și se referă la raportul dintre „relațiile adevărate” și „relațiile inexistente” dintre cele testate într-un domeniu. De exemplu, dacă există 100.000 de polimorfisme genetice dintre care doar 10, sugerează Ioannidis, sunt cu adevărat asociate cu schizofrenia și vrem să descoperim care sunt acestea 10, atunci raportul dintre relațiile adevărate (10) și cele inexistente (aprox. 100.000) este R = 10/100.000 = 10^‑4. Din cauză că există atât de multe posibilități, avem șanse foarte mici să le descoperim pe cele reale.

Apoi avem rata de erori de tip I, notată de Ioannidis cu α. O eroare de tip I înseamnă detectarea unui efect atunci când el nu există. De exemplu, facem un experiment prin care descoperim că o genă este asociată cu schizofrenia, când în realitate ea nu este.

Și mai avem și rata de erori de tip II, notată cu β. O eroare de tip II înseamnă un eșec în detectarea unui efect real. De exemplu, descoperim că o genă nu este asociată cu schizofrenia, dar de fapt ea este.

Într-o variantă mai complexă a formulei, sunt luate în calcul și erori sistematice (notate de Ioannidis cu u).

Pe baza acestor relații (exprimate prin formule), Ioannidis face mai multe simulări care arată în ce măsură aceste variabile influențează probabilitatea ca descoperirea să fie făcută corect și formulează niște corolare.

Corolarul 1: Cu cât studiile făcute într-un domeniu sunt mai mici, cu atât șansele ca rezultatele cercetării să fie adevărate sunt mai mici.

Corolarul 2: Cu cât efectele statistice obținute sunt mai mici, cu atât șansele ca rezultatele cercetării să fie adevărate sunt mai mici. În practică, dacă efectele sunt foarte mici într-un domeniu, acel domeniu o să fie invadat de rezultate fals-pozitive perpetue.

Corolarul 3: Cu cât numărul de relații (asocieri) testate este mai mare, cu atât șansele ca rezultatele cercetării să fie adevărate sunt mai mici.

Corolarul 4: Cu cât e mai mare flexibilitatea proiectării experimentelor, a definițiilor, a măsurătorilor și a modurilor de analiză, cu atât șansele ca rezultatele cercetării să fie adevărate sunt mai mici. Stabilirea și respectarea unor standarde comune au ca efect creșterea numărului de rezultate adevărate.

Corolarul 5: Cu cât interesele financiare și de altă natură sunt mai mari într-un domeniu, cu atât scad șansele ca rezultatele cercetării să fie adevărate.

Corolarul 6: Cu cât domeniul este mai popular (mai multe echipe de cercetători testează ipoteze independent), cu atât șansele ca rezultatele cercetării să fie adevărate sunt mai mici.

Pentru domeniile în care nu există rezultate adevărate, Ioannidis afirmă că rezultatele obținute de cercetători sunt pur și simplu ce se nimerește din întâmplare sau e o măsură a erorilor sistematice din acel domeniu. Pentru a îmbunătăți șansele ca rezultatele cercetării să fie adevărate e recomandat să fie făcute meta-analize mari cu risc scăzut de erori sistematice pentru că ele se apropie cel mai mult de adevăr (85% șanse să fie adevărate), să se țină cont de probabilitățile de dinainte de începerea studiului, să se pre-înregistreze studiile și să fie evaluată totalitatea dovezilor, nu doar unele studii individuale. La cum poate fi îmbunătățită cercetarea revin la sfârșit, dar indicii sunt practic prin tot restul articolului.

Pe scurt, înainte să trecem mai departe: nu toate studiile sunt la fel de bune, iar un singur studiu nu ne dă neapărat rezultatul corect, însă dacă adunăm mai multe studii mari, bine făcute, putem să avem încredere ridicată în ceea ce ne spun ele în totalitatea lor.

Așa că nu, știința n-a murit, știința tocmai a făcut un upgrade datorită lui Ioannidis. De aceea comunitatea științifică a reacționat pozitiv. Și aș adăuga că tot de aceea sunt și eu fanul lui. Când am verificat ultima dată pe Google Academic, articolul despre care am vorbit avea peste 3000 de citări și avea peste un milion de vizualizări în 2014. Ioannidis ne spune care sunt problemele și oferă și niște soluții. În prezent conduce institutul METRICS de la Stanford, care se ocupă cu cercetarea cercetării, adică meta-cercetare.

Dar fiind un articol așa popular și cu un titlu provocator, bineînțeles că uneori a ajuns și la urechile fanilor pseudoștiinței. Aceștia, în loc să tragă concluzia că trebuie să ținem cont de niște factori când judecăm dacă un studiu este credibil sau nu, au sărit direct la ce se poate deduce din titlu: știința e greșită, deci să renunțăm la ea! De exemplu, studiul este citat de Joseph Mercola în atacurile sale asupra științei (nu vă dau link să nu vi se umple ecranul de «Cumpărați suplimentele mele alimentare complet netestate!»); Neil Miller, un anti-vaccinist de seamă, a citat articolul lui Ioannidis într-o broșură, cum altfel, decât anti-vaccin. Nu-mi dau seama dacă Neil Miller pur și simplu nu se prinde cât de ironic este ce-a făcut sau nu-i pasă. Articolul lui Ioannidis scoate în evidență tocmai faptul că rezultatele obținute în studii individuale, de calitate slabă –așa cum se pricepe Miller să facă– nu sunt de încredere și că ar trebui să ne folosim în schimb de studii mari și/sau recenzii sistematice de calitate (așa cum sunt de exemplu recenziile Cochrane, care, întâmplător sau nu, spun exact inversul a ceea ce spune Miller). Și nici Collective Evolution nu se dă înapoi de la a cita studiul lui Ioannidis. Și nici Whale.to nu face excepție. Și, spre surprinderea mea, nici Piersi.

Ceea ce fanii pseudoștiinței fac fără să-și dea seama este să cadă în capcana falsității Nirvana, adică să creadă că dacă un lucru nu este perfect, este inutil. În cazul acesta, ideea ar fi că dacă știința are erori, trebuie să renunțăm la ea. Dar, dacă am face asta ar trebui să renunțăm la toate conoștințele din orice domeniu (inclusiv din experiența personală) pentru că peste tot există greșeli și în general sunt mult mai mari decât în știință.

Propun o analogie. Îmi plac filmele. Dar nu-mi plac toate. Îmi plac unele filme vechi și altele mai noi. Cred că există multe filme bune (a, b, c, d…), dar în același timp cred că cele mai multe filme făcute vreodată sunt slabe (numai Bollywood produce peste 1000 de filme pe an). Asta înseamnă că toate filmele sunt slabe și că nu le putem diferenția? Bineînțeles că nu! Iar aici vorbim de artă, unde nici criticii de film nu se pun de acord. În știință există însă criterii prin care putem să știm ce studii sunt mai bune și ce studii sunt mai proaste. În acest articol vreau să începem explorarea.

Reacții la studiul lui Ioannidis

Vestea despre articolul lui Ioannidis nu a circulat așa repede la început, deși acum este cel mai accesat din PLOS. Abia în 2007 a apărut prima critică. Autorul principal este Steven Goodman, proponent al folosirii statisticii bayesiene, în prezent co-director la METRICS împreună cu Ioannidis. N-o să intru în detaliile criticii lui Goodman pentru că e prea tehnică, iar Ioannidis a răspuns și a clarificat că n-a zis unele lucruri pe care le-a presupus Goodman, iar cele pe care le-a spus rămân în picioare.¹

Mai interesant e ceea ce au făcut alți autori când au extins analiza lui Ioannidis la situația în care studiile inițiale sunt replicate. Ioannidis a insistat încă de la început că replicarea este una dintre metodele prin care mai multe rezultate ale cercetării pot deveni adevărate. Așa că Moonesinghe și colegii au publicat în 2007 un articol numit Most Published Research Findings Are False–But a Little Replication Goes a Long Way. Acest articol arată care este șansa ca o descoperire să fie adevărată dacă a fost replicată. Răspunsul nu este unul singur (la fel cum nici în articolul lui Ioannidis n-a fost unul singur), ci variază în funcție de mai mulți factori, printre care probabilitatea anterioară sau numărul de replicări. Dar ideea principală e cea care reiese din titlu: studiile replicate au șanse mult mai mari să aibă rezultate adevărate. De exemplu, dacă avem o situație în care șansele de a descoperi adevărul sunt de doar 1 din 10 și facem trei experimente de calitate care ne dau același rezultat, probabilitatea ca acest rezultat să fie adevărat crește la 74%. Dacă avem o situație în care rezultatul e unul din două rezultate posibile, atunci după un experiment și o replicare reușită știm rezultatul corect cu o probabilitate de 78%. Dacă avem însă o situație cu șanse foarte mici, cum ar fi exemplul de mai sus cu R=10^-4, adică din 100.000 posibilități doar 10 sunt corecte? Atunci avem nevoie de replicări repetate. Abia după 7 experimente care dau același rezultat probabilitatea ca el să fie corect trece de 50%. Bineînțeles, în toate situațiile contează și ce fel de studii facem, ce putere de predicție au și ce erori s-au strecurat.²

O să revenim la replicare mai târziu, până atunci e foarte important de reținut că replicarea experimentelor este extrem de importantă.

Mergând mai departe, ajungem la un articol din 2014 care a încercat să-l contrazică empiric pe Ioannidis. O să vă dau un spoiler și o să vă spun că autorii n-au reușit, dar să vedem cum au încercat. Autorii, Jager & Leek, au scris un program în R, care a răscolit PubMed-ul câutând sumarul tuturor articolelor publicate în perioada 2000-2010 în 5 jurnale medicale de top (The Lancet, JAMA, NEJM, BMJ și The American Journal of Epidemiology). Au găsit 77.430 de articole, dintre care 5322 aveau raportate valori p în sumar (valorile p indică nivelul de semnificativitate statistică a unei descoperiri). Programul a extras aceste valori, le-a introdus într-o formulă (pe care autorii explică în articol cum au obținut-o) și a calculat care este „rata de descoperiri false” (FDR, false-discovery rate). Această rată înseamnă exact ceea ce spune numele ei: din 100 de descoperiri, câte sunt false. Rezultatul pe care l-au obținut Jager & Leek este în medie de 14±1%. Asta înseamnă că probabilitatea ca descoperirile să fie adevărate e de aproximativ 86%.³

85% este valoarea pe care în 2005 Ioannidis a calculat-o pentru meta-analize și studii clinice randomizate bine făcute, așa că probabil nu e nicio surpriză faptul că una dintre criticile sale la articolul lui Jager & Leek (2014) e că majoritatea articolelor pe care programul lor le-a găsit sunt meta-analize și studii clinice randomizate de calitate. Și nu este singura critică. Ioannidis le demontează întreg articolul în răspunsul său, din care citez doar ultimele idei:⁴

„Instead of proving the reliability of the medical literature, their paper exemplifies how badly things can go when automated scripts are combined with wrong methods and unreliable data.”

Jager & Leek au primit critici și din partea altor cercetători, care au arătat de exemplu că doar incluzând în algoritmul de căutare și „p ≤ 0.05”, nu doar „p = 0.05” și „p < 0.05”, estimarea ratei de descoperiri false creștea de la 14 la 20%, iar ținând cont de alte posibile erori, creștea la 30%. Această valoare se potrivește mai bine cu ceea ce se cunoaște despre rata de eșec a studiilor clinice în faza a III-a, care este de 30-50%. O estimare empirică ar putea fi făcută nu cum au încercat Jager & Leek, ci verificând dacă descoperirile au fost replicate cu succes.⁵

Pe scurt, am aflat până acum că în medie mai puțin de jumătate din rezultatele inițiale din știință sunt adevărate, dar e o mare diferență dată de tipul studiului (meta-analizele și studiile clinice randomizate fiind cele mai bune), calitatea (studiile mai mari fiind mai bune), lipsa erorilor sistematice și probabilitatea anterioară ca efectul studiat să fie real. Și mai știm că replicarea este foarte importantă.

Replicare, replicare, replicare

Ca să înțelegem importanța replicării descoperirilor cel mai simplu e să ne uităm la situația generală din câteva domenii și apoi la câteva încercări de replicare.

Medicină

Să începem cu un studiu de-al lui Ioannidis. Tot în 2005, înainte să publice Why Most Published Research Findings Are False, s-a gândit să se uite la cele mai citate studii originale din medicină (>1000 citări) din perioada 1990-2003 și să verifice dacă rezultatele lor mai stau în picioare. Pentru asta a luat fiecare studiu și a căutat ce s-a publicat ulterior despre subiect, cu alte cuvinte a verificat dacă studiul a fost replicat de studii mai bune. A aflat următoarele: 7 studii au fost contrazise, pentru alte 7 rezultatele reale erau mai mici decât cele descoperite inițial, 20 au fost replicate cu succes, iar pe celelalte 11 nu le-a verificat nimeni.⁶ În procente asta înseamnă că 44% au fost confirmate.

În 2013 a fost făcut un studiu și mai mare, care a verificat articolele publicate în New England Journal of Medicine în perioada 2001-2010. Au fost descoperite 363 de articole care au avut rol de replicare (au testat o practică medicală stabilită). Dintre acestea, 138 (38%) au confirmat practica testată, iar 146 (40,2%) au contrazis-o. Celelalte 79 au avut rezultate neconcludente.⁷ Puteți vedea toate cele 146 de practici contrazise aici. Unele dintre acestea constau în refuzul administrării unor terapii benefice din cauza temerii că pot să facă rău. De exemplu, una dintre cele scoase în evidență în articol este temerea că folosirea contraceptivelor orale agravează simptomele lupusului (nr. 68). În 2005, două studii clinice au arătat că folosirea contraceptivelor orale nu agravează simptomele lupusului. Un alt exemplu, este practica numărul 2: mai multe cazuri de scleroză multiplă au apărut la câteva săptămâni după vaccinarea cu un nou vaccin contra hepatitei B, motiv pentru care guvernul francez a suspendat programul de vaccinare în școli. Un studiu caz-control hibrid din 2001 a arătat că vaccinul nu crește riscul de scleroză multiplă (și mai multe studii ulterioare au confirmat acest lucru).

Autorii menționează că nu au făcut o analiză sistematică a literaturii pentru practicile identificate și astfel se poate ca unele dintre cele contrazise să fie contrazise în mod greșit. De asemenea, nu au făcut o evaluare a gradului de aplicare a acestora (unele pot fi destul de rare, de exemplu). Totuși, un număr atât de mare de practici contrazise arată că nu trebuie trase concluzii după primul studiu care descoperă un efect, ci trebuie făcută o sinteză a tuturor datelor, de preferat sistematică.

Pentru că este un articol foarte interesant am fost curios și m-am uitat la toate cele 146 de practici contrazise. Foarte puține dintre ele au fost stabilite în urma rezultatelor studiilor clinice randomizate cu grup de control (RCT). Am reușit să număr 16. Chiar dacă am scăpat câteva, tot e un număr mic. Pe de o parte e îmbucurător pentru că nu așa de multe descoperiri din RCT-uri s-au dovedit a fi false, pe de altă parte e îngrijorător pentru că atât de multe practici nu sunt susținute de studii clinice. Dintre RCT-urile contrazise aproape toate erau mici (100-200 participanți), iar unele dintre ele măsurau valori surogat. Existau însă și studii cu mai mulți participanți. Unele practici au fost stabilite în urma unor studii observaționale, altele în urma unor studii clinice fără grup de control (cel puțin 4), altele în urma unor studii de caz (cel puțin 4), altele în urma extinderii unor rezultate la situații netestate (cel puțin 7 cazuri), altele în urma măsurării unor valori surogat (cel puțin 8), altele în lipsa dovezilor sau în prezența unor rezultate contradictorii (19 cazuri), unele chiar în ciuda dovezilor existente (9 cazuri), iar cele mai multe pe baza tradiției („așa s-a făcut dintotdeauna”) sau a părerii experților (56 cazuri) – așa-numita medicină bazată pe eminență (eminence-based medicine ⁸). A fost și un studiu retras sub suspiciunea de fraudă (practica 41), au fost și practici promovate de unele companii farmaceutice în lipsa dovezilor suficiente (practicile 79, 102) și au fost și situații în care pur-și-simplu anumite efecte n-au fost luate în calcul. Să ne uităm la câteva exemple.

Practica numărul 13 se referă la operația pentru un anumit tip de neurocisticercoză (infectarea creierului cu tenie). Practica a devenit populară și s-a făcut chiar un studiu publicat în 1994, care a sumarizat experiența cu această operație într-un spital timp de 23 ani. În 2001 a fost făcut un alt studiu care a arătat că operația nu este necesară decât în cazuri foarte grave și că tratamentul medicamentos este abordarea potrivită.

Practica numărul 25 se referă la tendința de a trata pacienții care au fibrilație atrială cu medicamente împotriva aritmiei pentru a păstra ritmul sinusal. Această abordare e logică din punct de vedere fiziologic (avem de-a face cu un raționament pe bază de mecanism) și îmbunătățește unele valori surogate, conform lui Prasad et al.. Dar în 2002 un studiu clinic randomizat cu 4060 de participanți a verificat care este efectul asupra supraviețuirii (ceea ce contează cu adevărat) și a aflat că pacienții nu supraviețuiesc mai mult sau mai des decât cu un alt tratament (mai ieftin și cu mai puține efecte adverse).

Practica numărul 43 se referă la operația de hernie inghinală, care poate fi de două feluri: deschisă sau laparoscopică. Un studiu din 1997 cu 994 de participanți a arătat că abordarea laparoscopică este mai bună, însă un studiu mai mare din 2004 cu 2164 de participanți a inversat concluzia, arătând că operația deschisă este mai bună.

Practica numărul 79 se referă la folosirea DHEA (dehidroepiandrosteron – un alt cuvânt greu) și a testosteronului ca suplimente alimentare. Această folosire a devenit populară în urma promovării făcute de către companiile producătoare de suplimente alimentare, deși substanțele n-au fost testate. În 2006 a fost realizat un studiu clinic randomizat care a arătat că folosirea lor este inutilă.

Practica numărul 113 se referă la tratamentul de debridare (curățare, șlefuire) în cazul osteoartritei, deși cel puțin două studii clinice nu au găsit niciun beneficiu al acestei proceduri.

Practica numărul 129 se referă la folosirea substanțelor care stimulează formarea de globule roșii pentru pacienții cu anemie sau boală renală cronică. Credința în această practică era așa de mare încât studiile cu braț placebo erau descurajate sau chiar considerate lipsite de etică. În 2009 a fost în sfârșit publicat un studiu clinic cu patru mii de participanți care a arătat că riscul de deces, probleme cardiovasculare sau renale nu este scăzut de folosirea unei astfel de substanțe, ba chiar crește riscul de atac cerebral.

Un alt articol scris de doi dintre autorii celui anterior a detaliat practicile contrazise din cardiologie.⁹

Care este rata de succes a studiilor pentru medicamente? După cum știm, un medicament nu este pus pe piață imediat ce-i vine cuiva o idee (așa cum e de multe ori cu suplimentele alimentare). Un medicament este testat înainte să fie aprobat. Să vedem care este procesul.

Aprobarea medicamentelor

Dezvoltarea unui medicament urmează mai multe faze. În Faza 0 se experimentează cu diverse substanțe pe țesuturi sau animale și se emit ipoteze. În Faza I sunt făcute studii pe câteva zeci de participanți pentru a stabili doza potrivită. Faza a II-a are rolul de a testa eficiența și siguranța pe câteva sute de participanți. Faza a III-a este ultima înainte de punerea pe piață și constă în studii clinice (RCT) mari (>1000 participanți), de multe ori făcute în mai multe centre, pentru evaluarea eficienței teoretice, eficientei în teren și a siguranței. Dacă medicamentul trece toate aceste teste, este aprobat. Ultima fază este supravegherea post-marketing, în care compania producătoare trebuie să urmărească efectele pe termen lung ale medicamentului. Deci e de așteptat ca multe dintre rezultatele false să fie descoperite de-a lungul acestui proces. Și într-adevăr sunt.

Trei cercetători de la compania farmaceutică Bayer au vrut să afle cât de multe descoperiri preclinice făcute în companie sunt replicate cu succes. S-au concentrat doar pe oncologie, probleme cardiovasculare și probleme specifice femeilor. Cercetarea preclinică este cea făcută înainte să înceapă testele pe oameni și constă în mare parte în teste pe țesuturi sau pe animale. Câte descoperiri au fost replicate cu succes? Doar 20-25% (celelalte au fost probabil descoperiri false). Alți cercetători au încercat același lucru cu studii pre-clinice din domeniul cancerului și din 53 au replicat doar 6.¹¹ Într-un articol recent, Ioannidis prezintă situația cercetării preclinice din mai multe domenii și e asemănătoare sau mai rea; iar un articol din Nature vine cu sugestii de îmbunătățire.²³ Una dintre principalele cauze ale acestor rezultate foarte slabe e că studiile nu sunt făcute bine.

Rata de succes a studiilor clinice din Faza a II-a a fost de 18% în 2008-2009, în scădere de la 28% în 2006-2007. Cauzele eșecurilor au fost faptul că medicamentele nu au fost eficiente (51%) sau au fost periculoase (19%) sau nu au fost considerate utile din motive strategice (29%). Pentru studiile din Faza a III-a, rata de succes este în jurul valorii de 50%.¹⁰ Pentru un proces atât de complex și costurile sunt mari. O estimare din 2006 pune costurile pentru dezvoltarea unui singur medicament la 800 milioane de dolari.¹²

O recenzie făcută de Colaborarea Cochrane s-a uitat la cercetarea făcută din fonduri publice și a descoperit că un pic mai mult de jumătate dintre tratamentele noi testate în studii clinice vor fi mai bune decât tratamentul existent, dar diferențele vor fi mici.¹³ Iar atunci când un studiu clinic descoperă efecte mari, de cele mai multe ori studiile care se fac ulterior arată că efectele erau exagerate. Efectele mari sunt destul de rare.¹⁴

Studiile epidemiolgice

Nu toate descoperirile din medicină sunt făcute însă prin studii clinice. O parte sunt făcute prin studii epidemiologice. Cât de bine pot fi replicate acestea?

Nu știm foarte bine. În articolul de mai sus al lui Ioannidis,⁶ șase studii au fost observaționale și dintre ele doar unul a putut fi replicat. Într-o altă încercare, pe care autorii o numesc „informală”, au ales 12 studii RCT din jurnale de calitate, în care au fost testate descoperiri din 52 de studii observaționale. Înainte să vă zic câte au fost replicate mențin suspansul spunându-vă despre ce au fost aceste studii: vitamina E, β-caroten, terapie de substituție hormonală, (consumul scăzut de) grăsime, calciu, acid folic (vitamina B₉), vitamina B₆, vitamina B₁₂, vitamina C, seleniu și o combinație de terapie hormonală + vitamine. Și acum răspunul: 0 rezultate au fost replicate. Ba chiar 5 dintre ele au fost inversate.¹⁵ Lucrurile nu arată prea bine.

Un exemplu mai recent vine de la medicamentul digoxin, folosit pentru reducerea simptomelor în cazul insuficienței cardiace și controlul pulsului în cazul fibrilației atriale. Studiile observaționale au arătat că digoxinul crește mortalitatea,³⁰ însă o analiză mai complexă a arătat că studiile clinice nu au găsit nicio creștere în mortalitate (dar nici o reducere), iar studiile observaționale suferă de „prescription bias”. Mai exact, din cauza unor îngrijorări, dioxinul a fost folosit de cele mai multe ori ca ultimă opțiune și prin urmare a fost dat celor mai bolnavi dintre pacienți. Nu este surprinzător că aceștia au murit mai des decât pacienții mai sănătoși. Autorii acestei analize au arătat de exemplu că pacienții care primeau dioxin foloseau și medicamente aritmice și diuretice în același timp, medicamente asociate cu insuficiențe cardiace mai severe. Pe scurt, cele mai bune dovezi arată că dioxinul nu are niciun efect asupra mortalității, are efecte pozitive asupra simptomelor și reduce ușor internările în spital.³¹ Lucrul cel mai important pentru discuția noastră este că studiile observaționale au dus la estimări greșite ale riscurilor din cauză că n-au fost luate în considerare obiceiurile de prescriere.

Dar să nu ne grăbim să aruncăm studiile observaționale la gunoi. O recenzie Cochrane a comparat mai multe meta-analize și a descoperit că în general nu există diferențe mari între studiile observaționale și cele clinice, iar diferențele care există se datorează altor factori precum eterogenitatea sau criteriile de includere/excludere atunci când sunt realizate meta-analize.⁵⁵ În general n-ar trebui să ne bazăm doar pe un singur studiu observațional, dar meta-analizele sunt suficient de bune, iar cazul de mai sus cu digoxinul este excepția, nu regula.

Nutriție

Și dacă a fost vorba de vitamine în studiul anterior, să mai rămânem un pic la mâncare. Câți dintre voi au citit vreodată o știre care spunea că alimentul X crește sau scade riscul de cancer? Ben Goldacre spunea că în Marea Britanie ziarul Daily Mail are obiceiul de a împărți lumea în două: lucruri care dau cancer și lucruri care îl previn. Există chiar și un sait, Kill or Cure, care a adunat astfel de articole din Daily Mail. M-am gândit să caut și eu câteva articole în română care ne spun ce să consumăm sau să nu consumăm ca să nu facem cancer. În mai puțin de un minut am găsit următoarele:

Vești proaste: grepfrutul crește riscul de cancer de piele (puterea.ro);
Ceaiul de mușețel, asociat cu un risc mai mic de cancer (mediafax.ro);
Consumul de alimente prăjite poate crește riscul de cancer (rol.ro);
Pâinea albă crește riscul de cancer (gradinamea.ro);
Broccoli combate cancerul, osteoporoza și creșterea în greutate (viataverdeviu.ro);
Consumul de cafea reduce riscul de cancer hepatic (alegesanatos.ro);
O substanță din cafea și din alimentele prăjite crește riscul de cancer. Recomandarea nutriționiștilor (descopera.ro);
Alimente care cresc riscul de cancer (realitatea.net);

Unele dintre afirmații probabil sunt adevărate. Dar care? Și de ce e plin de știri care leagă totul de cancer? Pe de o parte, unii chiar își dau cu părerea degeaba pe internet, dar pe de altă parte jurnaliștii au o scuză. Există foarte multe studii care într-adevăr leagă consumul unui aliment de cancer, iar rezultatele lor sunt de multe ori false.

În 2013 Ioannidis și un alt cercetător s-au gândit să facă un test simplu, dar sistematic. Au luat o carte de gătit și s-au uitat prin rețete, nu ca să gătească ceva, ci ca să găsească cele mai comune ingrediente. După ce au adunat 50 s-au apucat să caute prin literatura științifică după studiile care au investigat legătura dintre aceste alimente și cancer. Înainte să vă zic rezultatele mai în detaliu vă dau întreaga listă de ingrediente. Primele 40 sunt ingredientele pentru care există studii care să le asocieze cu cancerul, iar ultimele 10 sunt cele pentru care nu există:¹⁶

Asociate cu cancerul: carne de vițel, sare, piper, făină, ouă, pâine, carne de porc, unt, roșii, lămâie, carne de rață, ceapă, țelină, morcovi, pătrunjel, nucșoară, vin de Xerxes (sherry), măsline, ciuperci, burtă, lapte, cașcaval/brânză, cafea, șuncă, zahăr, homar, cartofi, carne de vită, carne de miel, muștar, nuci, vin, mazăre, porumb, scorțișoară, ardei iute, portocale, ceai, rom și stafide.

Neasociate cu cancerul: foi de dafin, cuișoare, cimbru, vanilie, nuc american (hickory), melasă, migdale, bicarbonat de sodiu, ghimbir și broască țestoasă.

Sunt curios cum e rețeta cu broască țestoasă. Glumesc, nu sunt curios. Să ne uităm la rezultatele studiului. În total au fost găsite 216 publicații din perioada 1976-2011, dintre care 85% au fost după 2000, deci cele mai multe sunt noi. Câte studii au găsit că ingredientele studiate cresc riscul de cancer? 103. Câte au găsit că îl scad? 88. Iar 61 nu au găsit niciun efect și 12 au găsit un efect la limită. Dintre meta-analize, 4 au găsit risc crescut, 9 risc scăzut, 13 nicio modificare, iar 10 efect la limită. Efectele raportate au fost mult mai mici în meta-analize decât în studiile individuale.

Ce putem învăța din acest studiu? În primul rând să nu mai credem orice știre care spune că un aliment e asociat cu un risc sau protejează de ceva. Majoritatea rezultatelor studiilor care ajung știri sunt false pentru că jurnaliștii (și blogger-ii) nu prea țin cont de calitatea studiului și de alte studii care mai există și ce spun acelea. În al doilea rând, unele alimente chiar sunt asociate cu cancerul (sau alte riscuri), deci nu ar trebui să respingem orice afirmație doar pentru că e făcută într-un ziar. De exemplu, în căutarea mea de mai sus am dat și peste știri despre tutun sau alcool, despre care consensul științific e că într-adevăr cresc riscul de cancer. Recent a fost publicat în BMJ un studiu care a arătat că mâncarea picantă scade mortalitatea.¹⁷ E un studiu mare de cohortă, e foarte interesant și sunt mari șanse ca rezultatul să fie adevărat, dar cu cât sunt mai multe studii care să-l confirme, cu atât o să fiu mai convins. E bine să ținem cont de faptul că e un rezultat preliminar. În cele mai multe cazuri asocierile descoperite sunt mult mai mici și prin urmare au mult mai multe șanse să fie false. XKCD ilustrează foarte bine cum apar știrile despre rezultate chestionabile.

Meta I. XKCD significant

Sursa: XKCD.

Interesant e că fenomenul descris în ilustrația de mai sus a fost studiat. De exemplu, un studiu publicat în PLOS One s-a uitat la 75 de articole științifice care au fost prezentate în ziare și a observat că 75% dintre ele erau observaționale –deși studiile clinice sunt cele mai de încredere– și că în general erau de calitate slabă, cu mai multe probleme metodologice.²⁴ Un alt studiu a luat ca exemplu ADHD-ul pentru a vedea cum sunt prezentate în presă descoperirile din domeniu. Dintre cele mai populare 10 studii (despre care s-a scris de 223 de ori), 7 au fost studii inițiale (adică n-au fost replicări), iar concluziile a 6 dintre ele au fost ori contrazise ori puternic atenuate ulterior și doar 3 ziare au scris despre asta.²⁵ Și dacă tot vorbim despre ziare, trebuie menționat că au tendința să exagereze și să prezinte ca realizări extraordinare și chiar miracole diverse medicamente care arată beneficii modeste contra cancerului.⁷⁸ Dacă ați citit o grămadă de știri despre cum a fost descoperit medicamentul minune contra cancerului și vă întrebați unde e, răspunsul e simplu: jurnaliștii exagerează.

Ce poate fi făcut pentru ca în nutriție să fie mai multe rezultate adevărate și mai puține false? Ar trebui să existe încercări de replicare exactă; ar trebui ca studiile să fie înregistrate înainte de a fi făcute, menționând toate detaliile; ar trebui să existe transparență în legătură cu testele care sunt încercate asupra datelor colectate pentru că cu cât sunt încercate mai multe, cu atât crește riscul de a avea rezultate false (o să ne mai întâlnim cu problema asta și la discuția despre psihologie); să existe loialitate față de standarde.⁴⁶

Medicina bazată pe dovezi

Să mai rămânem un pic la medicină. Probabil că ați auzit expresia „medicină bazată pe dovezi”. E acea medicină în care tratamentele și intervențiile trebuie să fie susținute empiric și să fie clasificate în funcție de puterea dovezilor existente după o analiză sistematică a literaturii. Surprinzător sau nu, e un concept care doar recent (anii ’90) a început să fie luat în serios pe scară largă, deși ca ideal există de mai multă vreme.¹⁷ Am văzut în studiul lui Prasad din 2013 că din cele 146 de practici inversate, cele mai multe nu erau bazate pe dovezi, ci pe tradiție sau eminență, iar altele erau bazate pe studii de slabă calitate (observaționale sau RCT-uri cu câteva zeci de participanți). Din fericire lucrurile se mișcă în direcția bună și tot mai multă medicină e bazată pe dovezi de calitate înaltă: recenzii sistematice (un rol important l-a avut Colaborarea Cochrane) și studii clinice cu grup de control.

Unele persoane s-au opus din principii etice la propunerea de a testa prin studii clinice practici împământenite, dar cu excepția câtorva situații rare, acest argument nu stă în picioare. De exemplu, o recenzie sistematică din 2015 a evaluat mai multe intervenții și a descoperit că în general au fost diferențe mici între tratamentul activ și cel imitat (placebo), diferențe care nu justifică temerile.¹⁸ Iar dacă vorbim doar despre medicamente, Ben Goldacre explică foarte bine: în situațiile în care există deja un medicament, este etic ca un nou medicament să nu fie testat contra unui placebo, ci contra celui mai bun medicament existent.¹⁹

E important însă să nu ajungem în extreme și să respingem orice nu e testat prin RCT-uri. Ne putem da seama ușor de asta dacă ne uităm la un articol publicat în BMJ într-o ediție de Crăciun (adică o ediție cu articole mai puțin serioase), în care au fost evaluate studiile RCT despre eficiența parașutelor și cum n-a fost găsit niciunul, autorii au propus realizarea unor astfel de studii din care „toată lumea ar beneficia” (probabil în afară de cei care o să nimerească în grupul de control).²⁷ Pe un ton mai serios, niște cercetători (printre care și Iain Chalmers, co-fondatorul Colaborării Cochrane) au făcut niște analize și vin cu recomandarea că unele tratamente pot fi acceptate și fără studii clinice cu grup de control dacă au un efect dramatic. Printre exemplele oferite se află insulina pentru diabet, transfuziile de sânge pentru șoc hemoragic sever sau streptomicina pentru meningită tuberculoasă.²⁸

Cu excepția puținelor tratamente care au efecte dramatice, pentru toate celelalte e nevoie de studii RCT bine făcute pentru că acestea sunt cele mai bune teste pe care le avem. Nu sunt perfecte și unele dintre ele sunt contrazise în timp, cum e cazul medicamentului drotrecogin alfa care în 2001 a fost aprobat pe baza unui RCT, iar în 2012 a fost retras după ce un RCT mai mare nu a confirmat beneficiile.²⁹

Aşadar, cât din medicina modernă este bazată pe dovezi? La începutul anilor ’90 se estimează că doar 10-15% era bazată pe dovezi, iar o recenzie sistematică a arătat că în 2003 valoarea a depășit 50%.²⁰ Pentru comparație, un studiu din 2011 a arătat că doar 7,4% din medicina alternativă e bazată pe dovezi, dar chiar și autorul consideră valoarea o supraestimare.²¹ Revenind la medicina convențională, nu am găsit o estimare mai recentă, însă e de așteptat ca din 2003 până în prezent să fi crescut procentul având în vedere că deja era în creștere și că între timp au fost dezvoltate multe standarde pentru creșterea calității cercetării,²² iar aceste standarde sunt aplicate tot mai des. De exemplu, o evaluare arată că din 1995 până în 2010 au fost făcute progrese care cel mai probabil se datorează standardelor cum ar fi CONSORT.²⁶

În prezent se desfășoară un proiect foarte mare în care se încearcă replicarea celor mai importante 50 de studii despre biologia cancerului, publicate în perioada 2010-2012.³² Sunt curios care o să fie rezultatele.

Psihologie

Ați auzit că muzica vă poate întineri? Un studiu a demonstrat asta! Să vă descriu cum s-a întâmplat. Între timp, ascultați melodia asta, că nu se știe niciodată: The Beatles – When I’m Sixty-Four.

Au fost două experimente. În experimentul nr. 1 au fost 30 de participanți împărțiți întâmplător în două grupuri: cei care au fost puși să asculte un cântec neutru și cei care au fost puși să asculte unul pentru copii. Pe urmă au completat un chestionar care i-a întrebat cât de tineri se simt. Rezultatul a fost că participanții care au ascultat cântecul pentru copii s-au simțit mai bătrâni. Așa că dacă ați dat clic pe cântecul pentru copii, opriți-l repede!

În experimentul numărul 2, considerat „o replicare conceptuală” a primului au fost 20 de participanți, împărțiți –la fel– în două grupuri: cei care au ascultat un cântec neutru (același ca și în primul experiment) și cei care au ascultat un cântec despre bătrânețe (cel pe care vi l-am recomandat mai sus). Apoi au fost puși să scrie data nașterii. Rezultatul uimitor a fost că melodia despre bătrânețe i-a întinerit pe participanți cu un an și jumătate comparativ cu grupul de control. Nu, nu i-a făcut să se simtă mai tineri ci chiar i-a întinerit.

După ce am ascultat melodia m-am uitat în buletin și aveam aceeași zi de naștere. Interesant. Poate chiar am întinerit, dar nu-mi dau seama.

Sau poate nu. Aceste două experimente au fost făcute de trei psihologi în 2011 pentru a demonstra cât de ușor pot fi obținute rezultate semnificative din punct de vedere statistic în psihologie. Intenționat și-au ales un lucru imposibil (schimbarea efectivă a vârstei prin muzică). Articolul lor are un nume foarte fain: False-positive psychology, undisclosed flexibility in data collection and analysis allows presenting anything as significant.³³

Autorii au făcut și niște simulări și au descoperit că din cauza flexibilității pe care o au cercetătorii e probabil ca 60,7% dintre rezultatele studiilor din psihologie să fie false pentru o semnificativitate statistică p<0,05 (și de 21,5% pentru p<0,01). Dacă vă uitați în tabelul 3 din articolul lor o să vedeți exact câte lucruri n-au dezvăluit în prezentarea experimentelor cu muzica și cum odată dezvăluite, aceste detalii fac experimetele necredibile. Din păcate astfel de manipulări ale datelor au loc în psihologie, dar nu din rea-voință, ci pentru că uneori chiar par niște modificări logice sau care ajută articolul să fie publicat. Autorii propun și soluții pentru autori și pentru recenzori, printre care listarea tuturor variabilelor adunate într-un studiu, a tuturor încercărilor de a interpreta datele sau stabilirea de la început a condițiilor de terminare a experimentului.³³ Toate aceste modificări după ce datele au fost colectate au primit și un nume încă din 1998: „HARKing” (Hypothesizing after the results are known).³⁴

Dacă sunteți curioși și vă uitați în articolul de mai sus și vedeți cât de multe lucruri au încercat, s-ar putea să vă gândiți că autorii au exagerat și că așa ceva nu s-ar întâmpla niciodată în realitate. În cazul ăsta vă propun un exemplu real. Michael Inzlicht, un psiholog care e și editor asociat la Journal of Experimental Psychology: General a respins un articol care prezenta 7 experimente ce confirmau ipoteza testată. De ce l-a respins? Pentru că i s-a părut că rezultatele sunt prea bune să fie adevărate. După ce a discutat cu autorii, aceștia au fost de acord să vorbească despre toate experimentele pe care le-au încercat. Astfel, deși inițial articolul prezenta 7 rezultate pozitive din 7, după ce au fost incluse toate, mai erau doar 2 rezultate pozitive din 18! Articolul a fost publicat așa și atrage atenția asupra acestor practici.⁷⁷

O altă problemă a experimentelor, în special a celor cu puțini participanți, destul de des întâlnite în psihologie este inegalitatea dintre grupul de control și cel activ, inegalitate produsă de însăși randomizarea. Împărțirea la întâmplare a câtorva sute sau mii de oameni în două grupuri are efectul de a produce două grupuri destul de asemănătoare, însă când e vorba de doar câteva zeci de participanți, randomizarea poate chiar să introducă erori.³⁵ Una dintre soluțiile (și) pentru această problemă este replicarea (sau soluția evidentă, dar nu întotdeauna la îndemână, de a folosi mai mulți participanți).

Ok, să ne uităm la încercările de replicare din psihologie să vedem cum stau lucrurile în realitate.

Din nefericire încercările de replicare în psihologie sunt rare – sau cel puțin nu sunt sistematice. Dar situația dă semne că se schimbă. Anul acesta a fost publicată o încercare de a replica 13 rezultate (12 studii „clasice”) considerate a fi cu șanse mari de replicare. Dintre acestea doar 10 au fost replicate.³⁶ Unul dintre studiile care n-a fost replicat este despre cum expunerea la steagul țării îi face pe americani să fie mai conservatori. Unul dintre studiile replicate cu succes este cel făcut de Tversky & Kahneman în 1981 în care au arătat că dacă o problemă este prezentată în termeni de „pierderi” în loc de „câștiguri”, deși este identică, participanții tind să își asume mai puține riscuri. E unul dintre studiile care mi-au plăcut de când am citit prima dată despre el și mă bucur că a fost replicat.

Însă încercarea de mai sus e mică și nereprezentativă. O încercare mult mai mare a fost realizată de Open Science Collaboration și include 100 de studii. Rezultatele au fost publicate abia la sfârșitul lunii august (deși rezultate preliminare au fost disponibile în Nature încă din aprilie).³⁷ Odată publicate rezultatele toată lumea vorbea de ele: Neurologica, The Guardian, New York Magazine, Washington Post, Smithsonian, Psychology Today, The Atlantic, Retraction Watch etc.

Studiile alese pentru a fi replicate au fost publicate în 2008 în trei jurnale importante din psihologie (Psychological Science, Journal of Personality and Social Psychology și Journal of Experimental Psycholgy: Learning, Memory and Cognition). Acestea au fost alese pentru ca eșantionul să fie cât mai reprezentativ și să acopere mai multe ramuri de cercetare. Rezultatele sunt următoarele: 47% dintre efectele obținute prin replicare au fost relativ aproape de cele din studiile originale, dar doar 39% dintre studii au fost considerate replicate cu succes. Puteți vedea în imaginea de mai jos rezultatele ilustrate.

Meta I. Replicare psihologie Nature

Rezultatele celei mai mari încercări de replicare din psihologie. Sursa: Nature (Baker, 2015).

Așa că psihologia are mare nevoie de replicare. Din fericire acesta este doar începutul.

Psihiatrie

Să ne uităm un pic și la două domenii apropiate de psihologie. Începem cu psihiatria. Aici nu avem un studiu mare care să încerce să replice descoperiri, însă avem unul din British Journal of Psychiatry care a verificat retrospectiv cât de bine au fost replicate cele mai citate 83 de studii publicate în 2000-2002. Și acest studiu a fost publicat recent (iulie 2015), semn că anul ăsta replicarea chiar începe să fie luată în serios. Rezultatele au fost următoarele: din 83 de studii doar 16 au fost replicate cu succes, în timp ce la 11 au fost găsite efecte substanțial mai mici, alte 16 au fost contrazise, iar pentru celelalte 40 n-a încercat nimeni nicio replicare (cel puțin nu una publicată).³⁸

În plus, încep să apară și încercări individuale de replicare. De exemplu, în august 2015 tot în British Journal of Psychiatry autorii unui articol mai vechi au publicat o replicare nereușită. Descoperirea contrazisă era o asociere între un anumit genotip și rezultatele pe care le are terapia cognitiv-comportamentală asupra anxietății la copii.³⁹ Și mai sunt și încercări mari de a găsi asocieri genetice ale diverselor tulburări mentale.⁴⁰

Neuroștiință

Aici problemele sunt de altă natură: puterea statistică mică.

Ioannidis și colegii au evaluat meta-analizele publicate în 2011 în domeniul neuroștiinței și au analizat 48 de articole din aceste meta-analize. În urma calculelor au găsit o putere statistică medie de 21%.⁴¹ Autorii atrag atenția că această estimare nu a luat în calcul posibilele erori sistematice care ar umfla rezultatul (iar aceste erori în mod clar există ⁴²). Pe lângă analiza lor, au mai făcut și altele bazate pe date strânse de alți autori. De exemplu, în domeniul neuroimagisticii, studiile MRI ce măsoară diferențe de structură sau volum (cum ar fi între cei cu boli mentale și cei neurotipici), puterea statistică este și mai mică, de doar 8%. În cazul studiilor pe animale e ceva mai bine, puterea fiind între 18% și 33%, dar tot este cu mult sub ceea ce ar fi necesar (minimum 80%).⁴¹ Puterea statistică este cea notată de Ioannidis cu 1–β în Why Most Published Research Findings Are False. O putere de 21% înseamnă că dacă există 100 de efecte reale într-un domeniu, doar 21 o să fie detectate.

Și apoi mai e studiul cu peștele mort.

Meta I. Neuroștiință, peștele mort

Gândurile unui somon mort. Sursa: Bennett et al. (2009).

Niște cercetători cu un aparat fMRI la dispoziție au cumpărat un somon mort și l-au scanat în timp ce i-au arătat mai multe fotografii cu oameni în situații sociale. Încercați să vă imaginați situația. Somonul a fost întrebat ce emoție simt oamenii din fiecare fotografie. Dacă n-am ști că e vorba de un somon mort am putea să tragem concluzia că „participantul” a făcut perspective-taking, adică s-a pus în pielea oamenilor din imagini. Autorii atrag atenția astfel că unele metode de analiză a datelor pot foarte ușor să producă rezultate false.⁴³ Cu același scop a fost făcut și un studiu publicat în BMJ în seria de Crăciun, care a găsit o „rețea a spiritului Crăciunului” formată din anumite regiuni cerebrale care se activează doar la cei care sărbătoresc Crăciunul.⁷⁹

O analiză mai serioasă a fost făcută de alți cercetători. Mai mult de jumătate dintre articolele analizate de ei care au făcut scanări fMRI au raportat doar acele subgrupuri de voxeli (adică pixeli 3D) care au trecut pragul minim, deși au fost făcute calcule pentru toți voxelii. Această practică duce la corelații fictive și exagerate, însă este destul de comună. În plus, multe dintre studiile ce folosesc scanări fMRI nu raportează detalii importante despre cum a fost făcut experimentul, ceea ce împiedică replicarea.⁴⁴ Iar un articol foarte recent arată că unele metode statistice foarte populare (parametrice) folosite pentru a interpreta scanările cerebrale duc la o rată mare de erori fals pozitive (descoperă tot felul de asocieri care nu există).⁷⁶

Pe lângă toate astea mai există și problema interpretării rezultatelor. Suntem într-o perioadă în care e la modă ca totul să aibă un neuro în față: neuromarketing, neurolege, neurodependență… . Multe din afirmațiile din cărțile populare (și nu numai) sunt exagerate și nu sunt susținute de date experimentale.⁴⁵

Meta I. XKCD Neuro

Sursa: XKCD. (Explicație)

Niște exemple concrete din psihologie/neuroștiință

Probabil că cel mai bine iese în evidență importanța replicării atunci când ne uităm la câteva exemple și vedem cum au fost crezute inițial și care a fost efectul replicării. Am ales 5 studii care mi-au atras atenția de-a lungul timpului și pe care fie le-am crezut adevărate, fie mi s-au părut foarte suspecte. Să le luăm pe rând.

Un studiu retras

Primul caz este unul mai special, fiind vorba de date fabricate. N-am discutat deloc despre frauda științifică și probabil o să spun mai multe într-un articol viitor. Însă până atunci să ne uităm la următorul articol.

Anul trecut a fost publicat în Science un articol scris de un student (LaCour) și un cercetător politic (Green), dar doar LaCour s-a ocupat de studiu și a avut acces la datele primare. Articolul spune că o simplă conversație dintre o persoană gay și un votant poate schimba opinia votantului despre căsătoriile gay în mod pozitiv. Ba mai mult, efectul durează și după 9 luni și chiar se poate extinde la membrii familiei votantului.⁴⁷

Sună prea bine să fie adevărat? Așa s-au gândit și doi profesori și un student de la Stanford și s-au apucat să se uite la date. În doar două zile au scris un raport de 27 de pagini în care au arătat mai multe nepotriviri care sugerează că datele au fost generate prin programe software. Ba mai mult, au scris și ei astfel de programe pentru a arăta practic cum se face. La sfârșit au sugerat că problemele arată că datele n-au fost colectate așa cum scrie în studiu.⁴⁸

Pe urmă l-au contactat pe LaCour să afle mai multe, el a zis că le spune mai multe când are timp, apoi profesorul care i-a coordonat cercetarea și care era autorul numărul doi i-a cerut și el să vadă fișele cu datele colectate. După o vreme LaCour i-a răspuns că… nu le mai găsește. Așa că profesorul a scris revistei Science și a cerut retragerea articolului, iar Science l-a retras și a publicat un articol în care și-a exprimat îngrijorarea în legătură cu datele colectate.⁴⁹

Frauda a putut fi descoperită doar pentru că datele au fost disponibile, iar cei de la Stanford au vrut să facă și ei un studiu asemănător care să-i extindă concluziile, dar au dat în schimb de date suspecte și au investigat mai departe. Iar datele nu au fost postate cu articolul original ci în altă parte. De-aici trebuie să învățăm că e foarte important ca datele din orice studiu să fie făcute publice. Doar așa pot fi descoperite fraudele. Puteți citi mai multe despre acest caz într-un articol de pe FiveThirtyEight.

Farmecul seducător al neuroștiinței

Următorul articol la care ne oprim este unul care mie mi-a plăcut foarte mult și mi-aș fi dorit ca rezultatele sale să fie adevărate. Studiul a fost făcut în 2008 și a arătat că dacă niște informații sunt prezentate împreună cu jargon neuroștiințific, sunt mai credibile pentru publicul larg decât dacă au doar explicații psihologice.⁵⁰ Cu alte cuvinte, dacă citim că un fumător fumează pentru că nicotina produce activarea unor zone din amigdală și cortexul prefrontal asociate cu plăcerea (I’m just making this up) credem că dependența este mai puternică decât dacă citim doar că fumatul produce o stare de euforie și relaxare. Iar acest efect este mai mare când explicațiile sunt proaste. Un studiu asemănător publicat în același an a arătat că și explicațiile care sunt însoțite de poze cu scanări cerebrale sunt mai credibile.⁸⁰

Deși descoperirile astea sunt foarte faine, a doua e falsă. O încercare de replicare din 2013 a arătat că imaginile cu scanări nu au nicio influență asupra credibilității unei afirmații.⁵¹ Simpla existență a unei replicări nereușite ridică suspiciuni asupra rezultatelor inițiale, dar de data asta e mai mult de atât. Articolul inițial a descris trei studii cu un total de 156 de participanți, însă replicarea a constat în 10 experimente cu aproape 2000 și chiar și când cei 156 au fost adăugați în analiza statistică, tot nu s-a observat vreo diferență între explicațiile neuroștiințifice și cele obișnuite.

Anul acesta rezultatele primului studiu (cel cu explicațiile neuroștiințifice inutile) au fost replicate cu success. Autorii replicării au făcut mai multe experimente și au comparat credibilitatea unei explicații psihologice cu credibilitatea aceleiași explicații care avea în plus informații inutile exprimate în jargon neuroștiințific, de științe sociale sau de genetică sau fizică. Explicația care conținea informații neuroștiințifice a fost cea mai credibilă, deși nu adăuga nimic nou care să ajute înțelegerea fenomenului.⁸¹ De exemplu, „blestemul cunoașterii” e inabilitatea unei persoane informate de a privi lucrurile din perspectiva unei persoane mai puțin informate. Explicațiile prezentate în experimente au fost următoarele (pe lângă explicația psihologică):

explicația neuroștiințifică: studiile arată că auto-cunoașterea activează un circuit din lobii frontali ai creierului;
explicația socială: studiile arată că auto-cunoașterea se dezvoltă în comun pentru indivizii crescuți în societăți interdependente;
explicația genetică: studiile arată că auto-cunoașterea este legată de schimbări epigenetice în structura ADN-ului;

Oricare dintre cele trei tipuri de informații a fost adăugată, a făcut explicația mai credibilă, semn că oamenii sunt impresionați de cuvinte multe, complicate și inutile, dar cea mai mare influență a avut-o jargonul neuroștiințific.

Pe scurt, adăugarea unor informații neuroștiințifice inutile, dar nu și adăugarea unor imagini cu scanări cerebrale, ne face să credem mai puternic o afirmație.

The God Helmet

Ați auzit de casca divină? Dacă o puneți pe cap o să aveți experiențe mistice. Sau cel puțin așa susține Michael Persinger. Casca generează un câmp electromagnetic foarte mic (de ordinul mili-Gauss) care acționează asupra lobului temporal și produce senzația unei „prezențe” sau o experiență în afara corpului. Și funcționează și asupra scepticilor.

De exemplu, în cadrul unei emisiuni, fondatorul Skeptics Society, Michael Shermer, a purtat casca și a zis că a simțit o prezență și a avut alte experiențe ieșite din comun. Totuși, nu funcționează la toată lumea, după cum se poate vedea din experiența cu Richard Dawkins, cel mai cunoscut ateu în viață. Puteți vedea aici (de la min. 10) experiența lui Dawkins. La sfârșit Persinger a explicat de ce nu a funcționat: pentru că Dawkins nu are un lob temporal „sensibil” (deși pare mai mult o scuză – nu i-a măsurat „sensibilitatea” lobului temporal ca să știe că într-adevăr asta este cauza). Mai recent, a găsit o altă explicație, destul de incredibilă: Dawkins ar fi fost beat și alcoolul blochează efectul căștii (dar din nou nu oferă date care să arate că alcoolul chiar are efectul ăsta).

Meta I. God Helmet

The God Helmet. Sursa: Glimpse Journal.

Dar întrebarea pentru articolul nostru este: au fost efectele acestea replicate independent într-un studiu științific dublu-orb?

În 2005 o echipă de cercetători din Suedia a încercat exact o astfel de replicare și… nu a reușit să obțină vreo diferență semnificativă între cei care au fost supuși unui câmp electromagnetic și cei care doar au purtat casca (oprită). În schimb cercetătorii au găsit un efect pentru cei ușor sugestionabili.⁵² Au publicat, Persinger i-a acuzat că n-au construit bine casca, iar ei au răspuns că au construit-o și că înainte de a face experimentul el a fost de acord cu modul în care au construit-o.

În 2006, Persinger a adunat datele de la 407 participanți din experimentele sale făcute de-a lungul timpului, a reanalizat datele și a tras concluzia că „simțirea unei prezențe, o senzație a unei Ființe Conștiente poate fi produsă experimental într-un laborator”.⁵³ Dar problema lipsei unei replicări independente rămâne.

Mai recent, Persinger afirmă că există o replicare independentă a efectului căștii.⁵⁴ E vorba de un experiment realizat în Brazilia în 2014, așa că am fost curios și l-am citit. Nu e deloc ce mă așteptam. E un articol foarte slab. Să vă dau câteva detalii (deși vă provoc să-l citiți, dacă rezistați până la sfârșit). Au fost doar 20 de participanți, împărțiți egal între grupul de control și cel activ (pentru comparație, replicarea nereușită din Suedia a avut 89 de participanți). Experimentul n-a verificat dacă subiecții din grupul activ au experiențe mistice și în schimb a făcut niște comparații legate de cuvintele pe care le-au spus și senzația pe care au avut-o. O bună parte din secțiunea de rezultate a articolului e dedicată comparațiilor între cuvintele spuse de cei care aveau așteptări înainte de experiență (14 la număr) și cei care nu aveau (doar 6). Exemplu de afirmație: „Language was more «pleasant» after the administration of the helmet than during it” (prea pufos pentru mine). Există și o parte de comparație între grupul de control și cel activ (ceea ce ne interesează de fapt), dar și aici sunt tot afirmații vagi (ex.: „Overall, people who were exposed to a field had more to say than controls” sau „those exposed to the field used fewer pleasant words than did the controls”). Când e vorba de semnificativitate statistică, nivelul pe care autorii îl consideră suficient este p<0,10. Deci au avut 20 de participanți (un număr foarte mic), au folosit teste vagi și au obținut rezultate „semnificative” la p<0,10? Și să nu uităm concluzia:

„The author believes that the tests he performed replied [sic!], in a way, those performed by Michel A. Persinger and colleagues.”

Bănuiesc că „replied” vrea să însemne „replicated”. Dar ce înseamnă „in a way”? Sigur nu visez? Ar trebui să trec mai departe să vorbim despre următorul experiment, dar nu pot. Trebuie să să ne uităm unde a fost publicat un astfel de articol. Jurnalul se numește Journal of Consciousness Exploration & Research și văd că e publicat de o companie numită QuantumDream, Inc.:

Journal of Consciousness Exploration & Research („JCER”, ISSN:2153-8212) is published by QuantumDream, Inc. We are committed to truth and excellence at JCER. Please also visit Prespacetime Journal and DNA Decipher Journal published by QuantumDream, Inc., and Scientific GOD Journal published by Scientific GOD Inc.

Având în vedere descrierea plină de „quantum woo” și faptul că nu e indexat niciunde, nu e de mirare că publică articole atât de slabe. Am încercat să văd un alt articol din acest jurnal, am ales unul la întâmplare și e mult mai rău decât îmi imaginam. Pare generat automat.

În concluzie, experimentele cu casca divină nu sunt replicate independent și dubiile rămân, mai ales că Persinger pare să aibă o explicație ad hoc pentru orice situație în care casca nu funcționează.

Durerea emoțională și durerea fizică

Următorul exemplu este despre modul în care simțim durerea. În 2011 a fost publicat un studiu în care participanții au fost puși să se uite la poze cu foști iubiți/iubite în timp ce erau scanați într-un aparat fMRI. Rezultatele au fost comparate cu rezultatele dintr-o bază de date ce conținea scanări ale persoanelor care simțeau durere fizică. Fiindcă a existat o suprapunere mare în ce privește zonele active din creier, aurorii au concluzionat că durerea fizică și cea emoțională sunt simțite la fel.⁵⁶

Am întâlnit afirmația asta de multe ori și am crezut-o. Mi se pare foarte tare și aș vrea să fie adevărată. Dar nu pare să fie. În 2014 o parte dintre autorii primului articol au publicat un alt articol în care au arătat că rezultatele anterioare sunt greșite. Mai exact, deși există o suprapunere a zonelor în care aceste emoții s-au manifestat, autorii au putut diferenția cu mare precizie cele două tipuri de durere, folosind un algoritm care analizează doar scanările cerebrale. Durerea fizică și durerea emoțională au reprezentări diferite în creier și, nu se „simt” la fel.⁵⁷

Acesta este un exemplu de situație în care simpla folosire a unor metode noi poate invalida rezultatele unui experiment din neuroștiință. Puteți citi mai multe și aici.

Un psiholog cam nervos

Ultimul exemplu e legat de un studiu despre care am citit în multe cărți de psihologie populară și întotdeauna mi s-a părut greu de crezut. În decembrie era citat de peste 3.700 de ori. A fost făcut în 1996 de John Bargh și spune că dacă suntem expuși la stimuli ce țin de bătrânețe o să ne mișcăm mai încet – o să ne comportăm ca și când am fi bătrâni.⁵⁸

Surpriza a venit când în 2012 un grup de psihologi a încercat să realizeze o replicare a studiului original și a obținut rezultate diferite care sugerează că rezultatele lui Bargh sunt false.⁵⁹ Câteva comparații între cele două studii sunt utile:

Studiul original	Replicarea
60 de participanți	120 de participanți
Au fost folosite cronometre manuale	Au fost folosiți senzori cu infraroșu
Experimentatorii știau despre ce e vorba în experiment	Experimentatorii nu știau despre ce e vorba în experiment

Mai sunt și alte diferențe, însă acestea cred că sunt esențiale. În primul rând, replicarea a folosit un număr dublu de participanți. În al doilea rând, în studiul original timpul a fost măsurat cu cronometre pe care experimentatorii le țineau în mână și le opreau când considerau că participanul a ieșit pe ușă. Replicarea a folosit senzori care au eliminat această posibilă sursă de erori. În al treilea rând, în studiul original toți experimentatorii știau ce doresc să obțină, care e scopul experimentului. În replicare au fost recrutați patru experimentatori care nu știau scopul, iar experimentul a fost repetat cu alți 50 de participanți și 10 experimentatori noi care știau despre ce e vorba. Deloc surprinzător, când aceștia știau cu ce rost sunt puși acolo, efectul de ancorare (priming) în bătrânețe a reapărut. Astfel, replicarea a arătat și de ce rezultatele studiului original sunt false. Și în caz că sunteți curioși, în original cei ancorați în bătrânețe au ieșit din cameră în 8,28 secunde, iar cei ancorați neutru au avut nevoie doar de 7,3 secunde. Deci nu prea mult. În replicare, chiar și diferența aceasta a dispărut.

Dar partea interesantă abia acum începe. După ce replicarea eșuată a fost publicată și menționată de Ed Yong în Nature, John Bargh s-a enervat. Cum adică niște tineri incompetenți și-au permis să îi atace lui cel mai important experiment? Cum și-a permis un jurnalist așa de superficial ca Yong să comenteze despre subiecte atât de complexe? Dacă nu știți, un doctorat în psihologie socială chiar înseamnă ceva! Se pare că oamenii care nu sunt instruiți în psihologie socială au impresia că pot face experimente cum vor! Studiul lui Doyen et al. (replicarea) e o aroganță!

Da, cam asta a fost reacția lui John Bargh care pare blocat în vremurile psihologiei bazate pe eminență. Unul dintre articole s-a numit „Nothing in their heads”, cu referire la cei care au realizat replicarea. După ce și-a dat seama că nu-i tocmai în regulă să-i atace pe cei care nu sunt de acord cu el, a șters cele două postări în care a făcut afirmațiile de mai sus, însă una poate fi găsită în altă parte, iar reacțiile la postările sale pot fi găsite în multe locuri. De exemplu, un răspuns al lui Ed Yong din Discover Magazine, sumarizează lucrurile, iar articole de pe Neuroskeptic și din Wall Street Journal discută atacurile. După ce s-a mai liniștit, Bargh a scris un articol pe Psychology Today, Priming Effects Replicate Just Fine, Thanks, în care a sărit peste insulte și a trecut direct la apărarea rezultatelor studiului său. Aici Bargh a afirmat că există multe replicări, dar pare să confunde experimentul său despre ancorarea în bătrânețe cu întreg domeniul ancorării subconștiente. Legat strict de experimentul său, Bargh oferă două „replicări”. Să ne uităm un pic mai atent la ele.

Prima este un articol din 2002 care nu a replicat rezultatele lui Bargh, ci a găsit altele. Astfel, în două experimente indivizii cu o cunoaștere de sine ridicată (high self-conscious individuals), dar nu cei cu o cunoaștere de sine scăzută au mers mai încet după ce au fost expuși la un stimul implicit de bătrânețe. Celelalte două experimente din articol au avut de-a face cu alte tipuri de ancorare.⁶⁰

A doua este un articol din 2006 în care într-unul dintre experimente „participanții cu atitudini implicite pozitive față de bătrâni” au mers mai încet după ancorarea în bătrânețe, dar cei cu atitudini negative au mers mai repede după ancorare. Opusul a fost observat după ancorarea în tinerețe. În total au fost 80 de participanți, iar principalul rezultat evaluat a fost cât de repede au ieșit din cameră participanții după ce au fost ancorați. Cinci participanți au fost excluși din calcule (de exemplu, unul s-a oprit să-și lege șireturile).⁶¹

Acestea nu sunt replicări, ci experimente care au măsurat alte aspecte ale ancorării și e posibil chiar ca rezultatele lor să se contrazică. Ne întrebăm dacă persoanele high self-conscious au atitudini pozitive față de bătrânețe sau ce atitudini au avut cei care au mers mai încet în experimentul lui Bargh. Nu știm. Însă știm că o replicare exactă și de calitate superioară a infirmat rezultatele lui Bargh. Și mai există încă o replicate nereușită, dar nepublicată.⁶² Cred că putem concluziona liniștiți că rezultatul lui Bargh e unul fals.

Alte practici nepotrivite

Despre statistică ar fi multe de zis, dar nu sunt eu persoana potrivită să le zică. Așa că o să fiu scurt în legătură cu dezbaterea dintre statistica frecventistă și cea bayesiană. În prezent în știință (mai ales în medicină și psihologie) metodele cele mai folosite sunt cele frecventiste. Se calculează valori P, iar dacă P≤0,05 rezultatul este considerat semnificativ. Asta ar însemna că sunt doar 5% șanse ca rezultatul să se datoreze întâmplării. Doar că în realitate nu e chiar așa, e mai complicat (în realitate valoarea P de 0,05 înseamnă că dacă ipoteza nulă (adică nu e niciun efect) e corectă, avem doar 5% șanse să obținem ceea ce am obținut). Deși standardul e abordarea frecventistă, unii cercetători insistă pe folosirea analizelor bayesiene. Unul dintre aceștia e Steven Goodman, director al institutului METRICS. Unii proponenți încearcă să arate utilitatea statisticii bayesiene, iar alții critică statistica frecventistă, unii mergând suficient de departe încât să o numească vrăjitorie.⁶³ Anul acesta un jurnal din domeniul psihologiei a hotărât chiar să interzică folosirea testelor de semnificativitate. Puteți citi mai multe despre această decizie pe Science-Based Medicine. Deci cine are dreptate? Eu aș merge pe mâna bayesienilor, dar în același timp nu cred că statistica bayesiană poate neutraliza practicile proaste și metodologia slabă din unele studii, nu poate înlocui nevoia de replicare ș.a. Să ne uităm la câteva astfel de practici.

P-hacking

Deja am discutat despre mai multe practici nepotrivite din știință, dar ar mai fi câteva lucruri de spus. Fenomenul numit p-hacking se referă la orice practică făcută –conștient sau nu– pentru a obține un anumit nivel de semnificativitate (adică o anumită valoare p). Am văzut cum prin HARKing (emiterea de ipoteze după ce rezultatele sunt cunoscute) și flexibilitate în interpretarea rezultatelor „aproape orice poate fi prezentat ca semnificativ”.³³

Cei care s-au uitat la studiile publicate au observat că valorile p tind să se aglomereze în jurul anumitor numere (ex.: 0,05). Un studiu din 2012 a analizat 12 ediții din revista Psychological Science și a observat că sunt prea multe valori p doar un pic mai mici de 0,05. O analiză ulterioară a arătat însă că efectul nu e așa mare pe cât se credea, dar există. Un alt studiu care a analizat mai multe articole (tot ce s-a publicat în perioada 1965-2005 în două jurnale importante din psihologie) a descoperit același fenomen: există prea mlte valori „abia semnificative” (p ≤ 0,05), iar efectul exista și în trecut, dar este mai comun în prezent.⁶⁴ Și un alt studiu, ce a analizat peste 1.000 de articole din psihologie, a descoperit același fenomen, iar distribuția valorilor p sugerează că autorii își iau libertatea de a face mici modificări sau de a alege o analiză în locul alteia, cu scopul de a obține o semnificativitate mai bună. Ba chiar în 9,2% din cazuri, testele statistice folosite au fost greșite (nepotrivite pentru experimentul făcut). În plus, este cunoscut că unele practici pot să crească riscul ca rezultatele să fie false.⁶⁵

Această distribuție ciudată a valorilor p este prezentă și în articolele din domeniul biologic.⁶⁶ Însă există și un motiv de bucurie. Deși p-hacking este comun în știință, probabil nu alterează drastic consensul științific obținut din meta-analize.⁶⁷

O problemă asociată cu p-hacking este felul în care rezultatele sunt raportate în articole (vorbim aici despre raportare selectivă și data spinning). Să ne uităm la două exemple din medicină.

Autorii unui articol au căutat toate studiile clinice publicate în decembrie 2006 și s-au uitat la cât de bine se potrivește ce scrie în articol cu ceea ce spun numerele. S-au uitat după lucruri precum rezultate nesemnificative prezentate ca și când ar fi semnificative, omiterea unui rezultat din concluzii pentru că n-a fost semnificativ și includerea unor rezultate secundare. Au observat de exemplu că 58% dintre articole aveau data spinning în concluzii, iar 18% aveau chiar și în titlu.⁶⁸

Autorii unui alt articol au analizat 74 de studii clinice din domeniul oncologic publicate în 2012 și au comparat ce scria în articolul publicat cu ceea ce scria în protocoalele anexate. Protocoalele anexate conțin mult mai mlte informații decât au loc într-un articol și din păcate nu întotdeauna sunt puse la dispoziție. În acest caz au fost disponibile și comparația a dezvăluit că dintre efectele primare planificate înainte de cunoașterea rezultatelor, doar 64% au fost raportate în articole, favorizând de cele mai multe ori tratamentul investigat; iar în 37% dintre studii au fost prezentate rezultate secundare neplanificate (adăugate după cunoașterea datelor, deci vulnerabile la HARKing) și în 80% din cazuri nu a fost precizat acest detaliu.⁶⁹

Am avut mai sus niște exemple de studii nereplicate din psihologie și neuroștiință, așa că merită să avem și niște exemple de studii cu erori statistice.

Dacă v-aș spune că jucătorii de baseball care au nume ce încep cu K joacă mai bine m-ați crede? Dacă ați zis «da», trebuie să fiți mai sceptici. Dacă ați zis nu, ce ați zice dacă v-aș arăta un studiu care a demonstrat asta? A fost publicat în 2007 în Psychological Science, unul dintre cele mai importante jurnale din domeniu. În ce constă? Autorii s-au uitat în statisticile istorice ale jocurilor de baseball din SUA și au observat că jucătorii cu nume ce încep cu K fac strikeout mai des. Un strikeout înseamnă că ratează de trei ori și sunt trimiși pe bancă. Iar litera K e importantă pentru că așa se notează un strikeout pe tabelă. Autorii au găsit și o ipoteză pentru rezultatele astea ciudate, zicând că jucătorii pe care-i cheamă cu litera K au o aversiune mai mică pentru a fi trecuți pe tabelă. Deci dacă te cheamă Kennedy nu te deranjează așa tare să fii trecut acolo pe tabelă în coloana K.⁷⁰ Articolul mai conține încă patru experimente, dar să ne concentrăm pe acesta.

După trei ani, alți autori s-au gândit să analizeze datele din acest articol și spre surprinderea lor au observat că e plin de greșeli. Printre altele, nu au fost folosite testele statistice potrivite și s-a ignorat faptul că și alte litere dau rezultate semnificative. Și în ciuda faptului că metodele și instrumentele din studiul original n-au fost puse la dispoziție, autorii au încercat o replicare. Aceasta a eșuat. Astfel că tot ceea ce a reușit articolul original să găsească a fost un artefact statistic.⁷¹

Un alt exemplu de artefact statistic vine de la un studiu din 2008 care susține că femeile care mănâncă cereale au șanse mai mari să nască băieți, nu fete. Sau „You are what your mother eats”, cum spune titlul. N-a durat decât un an până ca un alt articol să fie publicat și să arate că acest rezultat este probabil fals și produs din cauza testelor multiple care au fost încercate până a fost găsit ceva semnificativ.⁷²

Ce soluții există?

Înainte de soluții, propun să ne uităm la un articol de tip comentariu de-al lui Richard Horton (editorul jurnalului The Lancet) care scoate în eviență faptul că știința are probleme. L-am văzut citat de unii promotori ai pseudoștiinței care doreau să sugereze că știința nu e de încredere (dar, în mod ironic, leacurile lor minune care n-au fost testate deloc sunt de încredere). Să ne uităm la ce zice Horton (am adăugat niște note, descrise mai jos):⁷³

The case against science is straightforward: much of the scientific literature, perhaps half, may simply be untrue [1]. Afflicted by studies with small sample sizes [2], tiny effects [3], invalid exploratory analyses [4], and flagrant conflicts of interest [5], together with an obsession for pursuing fashionable trends of dubious importance [6]… .

In their quest for telling a compelling story, scientists too often sculpt data to fit their preferred theory of the world [7]. Or they retrofit hypotheses to fit their data [8]. […]

Our love of “significance” pollutes the literature with many a statistical fairy-tale [9]. We reject important confirmations [10].

Să ne uităm pe rând la ce înseamnă fiecare:

După cum a arătat Ioannidis în 2005, cele mai multe rezultate sunt probabil false;
Studiile mici au un risc mai mare de a fi false. Am văzut că rata de succes a studiilor medicale din fazele I și II este mică. Faptul că au puțini participanți e una dintre cauze. Am văzut și că în neuroștiință una dintre problemele mari este numărul scăzut de participanți din studii;
Am văzut că pentru a detecta efecte mici e nevoie de studii puternice și lipsite de erori. Iar dacă efectele nu există într-un domeniu, toate cele descoperite sunt probabil doar o măsură a erorilor din acel domeniu;
Studiile cu scop de explorare, așa cum sunt cele pre-clinice sau unele studii din psihologie nu ar trebui considerate definitive, ci ar trebui confirmate prin alte studii;
Conflictele de interese au un efect asupra rezultatelor raportate, în special în cazul recenziilor nesistematice. Despre conflicte de interese n-am discutat deloc acum, le-am lăsat pentru un articol viitor;
De multe ori banii dați pe cercetare sunt irosiți. Se vede acest lucru în special în cercetarea pre-clinică, dar și în explorarea unor soluții care au puține șanse de a funcționa (ex. banii dați de NHS pentru homeopatie – dar și despre homeopatie tot într-un articol viitor);
Am văzut că atunci când rezultatele nu sunt mulțumitoare, cercetătorii încearcă să găsească ceva semnificativ d.p.d.v. statistic. Aceste practici sunt comune în psihologie. Tot aici intră și raționamentele făcute pe bază de mecanism („ar trebui să funcționeze”) în medicina care nu este bazată pe dovezi;
Am văzut că în studiile clinice uneori rezultatele raportate în concluzii sau chiar în articolul publicat sunt alese selectiv. Astfel, dacă rezultatul primar nu este semnificativ, este prezentat unul secundar care arată mai bine;
Din nou, obsesia de a prezenta rezultate semnificative, obținute uneori prin p-hacking;
Unele jurnale refuză să publice replicări (cum fost în cazul replicării eșuate a studiului lui Daryl Bem despre precogniție din Journal of Personality and Social Psychology – dar și despre asta într-un articol viitor);

A doua jumătate a comentariului lui Horton e despre posibile soluții, sub forma unor întrebări. În 2014, Lancet a publicat o serie de articole despre cercetare, numită Research: increasing value, reducing waste.

Dacă ați citit articolul ăsta (și n-ați sărit direct la concluzii), cu siguranță v-ați gândit cum pot fi lucrurile îmbunătățite, iar cele mai multe recomandări de mai jos n-o să fie deloc surprinzătoare. În 2014, Ioannidis a publicat un articol numit „How to Make More Published Research True”, în care recomandă lucruri care pot da credibilitate mai mare rezultatelor:⁷⁴

Replicarea descoperirilor;
Înregistrarea studiilor, protocoalelor, analizelor, datelor neprelucrate și a rezultatelor finale;
Transparența: punerea la dispoziție a datelor, protocoalelor, software-ului etc.;
Standardizarea;
Colaborarea pe scară largă în cercetare (ex.: Open Science Project);
Folosirea metodelor statistice mai bune;
Limitarea influenței sponsorilor;
Instituirea unor praguri mai ridicate pentru descoperiri;

Să ne uităm pe scurt la primele patru.

Replicarea este esențială. Am văzut mai sus și teoretic și practic cât de important este ca rezultatele unui studiu să fie replicate. Încrederea în niște rezultate nereplicate este în general scăzută (adică e un risc mare să fie false), însă dacă aceleași rezultate sunt obținute și de o echipă independentă, încrederea crește foarte mult. Replicarea poate repara cele mai multe probleme. Astfel, replicarea crește șansele statistice ca rezultatele să fie adevărate; reduce riscul de erori sistematice (p-hacking, analize statistice multiple, oprirea experimentului în momentul în care rezultatul e pozitiv etc.); reduce riscul și ajută la descoperirea fraudelor; ajută la descoperirea altor tipuri de erori (ex.: erori de calcul scăpate de recenzori).

Pre-înregistrarea. Despre pre-înregistrare n-am vorbit prea mult pentru că nu am vorbit nici despre publication bias – am lăsat pentru articolul viitor. Pe lângă erorile sistematice de publicare, pre-înregistrarea poate să elimine testele statistice multiple, p-hacking-ul, raportatea selectivă a rezultatelor și alte flexibilități în conducerea unui studiu.

Punerea la dispoziție a datelor. Este foarte importantă pentru că permite re-analiza (care ajută la descoperirea unor erori sau manipulări ale datelor), facilitează replicarea și face frauda mai ușor de descoperit.

Adoptarea unor standarde comune. Are ca efect creșterea încrederii în rezultate, pe de o parte pentru că atunci când un cercetător vrea să facă un experiment nu are de ales dintre zeci de de metode (ceea ce i-ar permite să încerce mai multe până găsește metoda care îi dă rezultate semnificative), ci trebuie să aplice metoda standard; iar pe de altă parte, face replicarea mai ușoară.

Din fericire lucrurile se mișcă în direcția bună. Oamenii de știință au început să dea mare importanță replicării și au apărut și primele proiecte care încearcă asta (ex.: Reproducibility Project, Stanford Center for Reproducible Neuroscience). Pe viitor e de așteptat ca replicarea să devină mult mai comună. Au apărut jurnale dedicate special rezultatelor negative (care de multe ori erau refuzate de alte jurnale), au apărut proiecte de sistematizare a dovezilor (ex.: BMJ Clinical Evidence, Choosing Wisely) și au apărut foarte multe recomandări și standarde ce promoveză pre-înregistrarea, replicarea, distribuirea datelor sau folosirea anumitor practici statistice.⁷⁵

Un set de recomandări este făcut de Center for Open Science sub numele Transparency and Openness Promotion (TOP) și a fost prezentat în Science în iunie (vezi articolul aici). Ce îmi place la aceste recomandări e că sunt modulare și astfel pot fi adoptate pe rând și în mod diferit în diverse domenii și sunt împărțite pe niveluri. Nivelul 1 este făcut să promoveze deschiderea fără să pună vreo barieră în fața adoptării sale. Nivelul 2 este făcut să nu necesite costuri mai mari pentru jurnale. Nivelul 3 este cel mai puternic standard, dar există anumite bariere în adoptarea sa, în special legate de costuri.

***

E timpul să renunțăm la ideea de adevăr absolut. Nimic din ce descoperim –prin orice metodă am face-o– nu este 100% sigur, dar asta nu înseamnă că nu putem să avem încredere în nimic. Orice poate fi fals, însă ceea ce contează este probabilitatea de a fi fals. Dacă două rezultate pot să fie false nu înseamnă că putem alege să-l credem pe cel ce ne convine mai mult. Un tratament care a trecut prin toate fazele de testare clinică nu este la același nivel cu un tratament despre care doar am auzit că a vindecat pe cineva. Riscul ca primul să nu funcționeze este foarte mic –dar există–, iar riscul ca al doilea să nu funcționeze este foarte mare.

Până la urmă, știința nu e altceva decât o candelă în întuneric – ne ajută să descoperim lumea, chiar dacă nu vedem totul dintr-odată și mai facem greșeli.

Meta I. Candle in the Dark 2

Știința, o candelă în întuneric. Sursa: Flickr.

Recomandări:

John Ioannidis la Google Talks
Podcastul Skeptic Check: interviu cu John Ioannidis
Vox.com: Interviu cu John Ioannidis
Știri și articole din Nature despre replicabilitate
ScienceBlogs: The cranks pile up on John Ioannidis’s work
Science-Based Medicine: Choosing Wisely
Begley & Ioannidis: Reproducibility in science improving the standard for basic and preclinical research
Skeptvet: Can We Trust Published Research Findings?
Christie Aschwanden: Science Isn’t Broken (FiveThirtyEight)

Note:

1: pentru critică, vezi Goodman & Greenland (2007a), sau mai detaliat Goodman & Greenland (2007b); pentru răspuns, vezi Ioannidis (2007);
2: Moonesinghe et al. (2007): probabilitățile sunt luate din tabelul 2 pentru puterea de 20%;
3: Jager & Leek (2014);
4: Ioannidis (2014b);
5: Benjamini & Hechtlinger (2013); Goodman (2013); Gelman & O’Rourke (2014);
6: Ioannidis (2005a);
7: Prasad et al. (2013), însoțit de un editorial scris de Ioannidis (2013);
8: Isaacs & Fitzgerald (1999);
9: Prasad & Cifu (2013);
10: Ng (2015): pg. 223; Freedman et al. (2015);
11: Saey (2015); Begley & Ellis (2012);
12: Adams & Brantner (2006);
13: Djulbegovic et al. (2012);
14: Pereira et al. (2012);
15: Young & Karr (2011);
16: Schoenfeld & Ioannidis (2013);
17: Sackett et al. (1996);
18: Holtendahl et al. (2015);
19: Goldacre (2012): pg. 130-132;
20: Matzen (2003);
21: Ernst (2011);
22: Chan et al. (2013); Schulz et al. (2010);
23: Begley & Ioanidis (2015); Perrin (2014);
24: Selvaraj et al. (2014);
25: Gonon et al. (2012);
26: To et al. (2013);
27: Smith & Pell (2003);
28: Glasziou et al. (2007);
29: Prasad (2013);
30: Vamos et al. (2015); Ouyang et al. (2015);
31: Ziff et al. (2015); vezi și editorialul lui Cole & Francis (2015);
32: Kaiser (2015);
33: Simmons et al. (2011);
34: Kerr (1998);
35: Saint-Mont (2015);
36: Klein et al. (2015);
37: Baker (2015); Open Science Collaboration (2015);
38: Tajika et al. (2015);
39: Lester et al. (2015);
40: Logue et al. (2015);
41: Button et al. (2013);
42: Ioannidis (2011); David et al. (2013);
43: Bennett et al. (2009);
44: Vul et al. (2009); Carp (2012);
45: Satel & Lilienfeld (2013);
46: Brown et al. (2014);
47: LaCour & Green (2014);
48: Broockman et al. (2015);
49: McNutt (2015);
50: Weisberg et al. (2008);
51: Michael et al. (2013);
52: Granqvist et al. (2005);
53: Pierre & Persinger (2006);
54: Tinoca & Ortiz (2014);
55: Anglemyer et al. (2014);
56: Kross et al. (2011);
57: Woo et al. (2014);
58: Bargh et al. (1996);
59: Doyen et al. (2012);
60: Hull et al. (2002);
61: Cesario et al. (2006);
62: Pashler et al. (2011);
63: Goodman (1999a); Goodman (1999b); Sterne & Smith (2001); Goodman (2005); Goodman (2008); Lambdin (2012); Davies & Ross (2013); Johnson (2013); Kline (2013); Nuzzo (2014); Dienes (2014);
64: Masicampo & LaLande (2012); Lakens (2015); Leggett et al. (2013);
65: Krawczyk (2015); Bakker & Wicherts (2014);
66: Ridley et al. (2007);
67: Head et al. (2015);
68: Boutron et al. (2010);
69: Raghav et al. (2015);
70: Nelson & Simmons (2007);
71: McCullough & McWilliams (2010);
72: Mathews et al. (2008); Young et al. (2009);
73: Horton (2015);
74: Ioannidis (2014a);
75: Schulz et al. (2010); Institute of Medicine (2011); Asendorpf et al. (2013); Chan et al. (2013); Fanelli (2013); Grant et al. (2013); Collins & Tabak (2014); Nosek & Lakens (2014); Begley & Ioannidis (2015); Buck (2015); Kenall et al (2015); Moher & Altman (2015); Nosek et al. (2015);
76: Eklund et al. (2015); pentru mai multe informații vezi Neuroskeptic: False Positive fMRI Revisited;
77: Tuk et al. (2015); pentru mai multe informații vezi Neuroskeptic: Real Data Are Messy;
78: Abola & Prasad (2015);
79: Houggaard et al. (2015);
80: McCabe & Castel (2008);
81: Fernandez-Duque et al. (2015);

Referințe:

Abola, M. V., & Prasad, V. (2015). The Use of Superlatives in Cancer Research. JAMA oncology, 1-2.

Adams, C. P., & Brantner, V. V. (2006). Estimating the cost of new drug development: is it really $802 million?. Health Affairs, 25(2), 420-428.

Anglemyer, A., Horvath, H. T., & Bero, L. (2014). Healthcare outcomes assessed with observational study designs compared with those assessed in randomized trials. Cochrane Database Syst Rev, 4.

Asendorpf, J. B., Conner, M., De Fruyt, F., De Houwer, J., Denissen, J. J., Fiedler, K., … & Wicherts, J. M. (2013). Recommendations for increasing replicability in psychology. European Journal of Personality, 27(2), 108-119.

Baker, M. (2015). First results from psychology’s largest reproducibility test. Nature.

Bakker, M., & Wicherts, J. M. (2014). Outlier removal, sum scores, and the inflation of the type I error rate in independent samples t tests: The power of alternatives and recommendations. Psychological methods, 19(3), 409.

Bargh JA, Chen M, Burrows L (1996). Automaticity of social behavior: direct effects of trait construct and stereotype-activation on action. Journal of Personality and Social Psychology 71: 230–244.

Begley, C. G., & Ellis, L. M. (2012). Drug development: Raise standards for preclinical cancer research. Nature, 483(7391), 531-533.

Begley, C. G., & Ioannidis, J. P. (2015). Reproducibility in science improving the standard for basic and preclinical research. Circulation research, 116(1), 116-126.

Benjamini, Y., & Hechtlinger, Y. (2013). Discussion: an estimate of the science-wise false discovery rate and applications to top medical journals by Jager and Leek. Biostatistics, kxt032.

Bennett, C. M., Miller, M. B., & Wolford, G. L. (2009). Neural correlates of interspecies perspective taking in the post-mortem Atlantic Salmon: An argument for multiple comparisons correction. Neuroimage, 47(Suppl 1), S125. [Blogul autorilor] [Neuroskeptic]

Boutron, I., Dutton, S., Ravaud, P., & Altman, D. G. (2010). Reporting and interpretation of randomized controlled trials with statistically nonsignificant results for primary outcomes. JAMA, 303(20), 2058-2064.

Broockman, D., Kalla, J., & Aronow, P. (2015). Irregularities in LaCour (2014).

Brown, A. W., Ioannidis, J. P., Cope, M. B., Bier, D. M., & Allison, D. B. (2014). Unscientific Beliefs about Scientific Topics in Nutrition. Advances in Nutrition: An International Review Journal, 5(5), 563-565.

Buck, S. (2015). Solving reproducibility. Science, 348(6242), 1403-1403. (Abstract)

Button, K. S., Ioannidis, J. P., Mokrysz, C., Nosek, B. A., Flint, J., Robinson, E. S., & Munafò, M. R. (2013). Power failure: why small sample size undermines the reliability of neuroscience. Nature Reviews Neuroscience, 14(5), 365-376.

Carp, J. (2012). The secret lives of experiments: methods reporting in the fMRI literature. Neuroimage, 63(1), 289-300. (Abstract)

Cesario, J., Plaks, J., & Higgins, E. T. (2006). Automatic social behavior as motivated preparation to interact. Journal of Personality and Social Psychology, 90, 893-910.

Chan, A. W., Tetzlaff, J. M., Altman, D. G., Laupacis, A., Gøtzsche, P. C., Krleža-Jerić, K., … & Moher, D. (2013). SPIRIT 2013 statement: defining standard protocol items for clinical trials. Annals of internal medicine, 158(3), 200-207.

Cole, G. D., & Francis, D. P. (2015). Trials are best, ignore the rest: safety and efficacy of digoxin. BMJ 351:h4662 (Abstract)

Collins, F. S., & Tabak, L. A. (2014). NIH plans to enhance reproducibility. Nature, 505(7485), 612.

David, S. P., Ware, J. J., Chu, I. M., Loftus, P. D., Fusar-Poli, P., Radua, J., … & Ioannidis, J. P. (2013). Potential reporting bias in fMRI studies of the brain. PLoS One, 8(7), e70104.

Davies, J. B., & Ross, A. (2013). Sorry everyone, but it didn’t work (p=0.06). Addiction Research & Theory, 21(4), 348-355. (Abstract)

Dienes, Z. (2014). Using Bayes to get the most out of non-significant results. Frontiers in Psychology, 5, 781. doi:10.3389/fpsyg.2014.00781

Djulbegovic, B., Kumar, A., Glasziou, P. P., Perera, R., Reljic, T., Dent, L., … Chalmers, I. (2012). New treatments compared to established treatments in randomized trials. Cochrane Database of Systematic Reviews (Online), 10, MR000024. doi:10.1002/14651858.MR000024.pub3

Doyen S, Klein O, Pichon C-L, Cleeremans A (2012). Behavioral Priming: It’s All in the Mind, but Whose Mind? PLoS ONE 7(1): e29081. doi:10.1371/journal.pone.0029081

Eklund, Anders; Nichols, Thomas; & Knutsson, Hans (2015). Can parametric statistical methods be trusted for fMRI based group studies? arXiv arXiv: 1511.01863v1

Ernst, E. (2011). How Much of CAM Is Based on Research Evidence? Evidence-Based Complementary and Alternative Medicine : eCAM, 2011, 676490. doi:10.1093/ecam/nep044

Fanelli, D. (2013). Redefine misconduct as distorted reporting. Nature, 494(7436), 149-149.

Fernandez-Duque, D., Evans, J., Christian, C., & Hodges, S. D. (2015). Superfluous neuroscience information makes explanations of psychological phenomena more appealing. Journal of cognitive neuroscience. Vol. 27, No. 5, Pages 926-944.

Freedman LP, Cockburn IM, Simcoe TS (2015). The Economics of Reproducibility in Preclinical Research. PLoS Biol 13(6): e1002165. doi:10.1371/journal.pbio.1002165

Gelman, A., & O’Rourke, K. (2014). Discussion: Difficulties in making inferences about scientific truth from distributions of published p-values. Biostatistics, 15(1), 18-23.

Glasziou, P., Chalmers, I., Rawlins, M., & McCulloch, P. (2007). When are randomised trials unnecessary? Picking signal from noise. BMJ : British Medical Journal, 334(7589), 349–351. doi:10.1136/bmj.39070.527986.68

Goldacre, Ben (2012). Bad Pharma: How Drug Companies Mislead Doctors and Harm Patients. Faber and Faber, Inc.

Goodman, S. N. (1999a). Toward evidence-based medical statistics. 1: The P value fallacy. Annals of internal medicine, 130(12), 995-1004.

Goodman, S. N. (1999b). Toward evidence-based medical statistics. 2: The Bayes factor. Annals of internal medicine, 130(12), 1005-1013.

Goodman, S. N. (2005). Introduction to Bayesian methods I: measuring the strength of evidence. Clinical Trials, 2(4), 282-290.

Goodman, S. (2008). A dirty dozen: twelve p-value misconceptions. In Seminars in hematology (Vol. 45, No. 3, pp. 135-140). WB Saunders.

Goodman, S. N. (2013). Discussion: An estimate of the science-wise false discovery rate and application to the top medical literature. Biostatistics, kxt035.

Goodman S, Greenland S (2007a). Why Most Published Research Findings Are False: Problems in the Analysis. PLoS Med 4(4): e168. doi:10.1371/journal.pmed.0040168

Goodman, S., & Greenland, S. (2007b). ASSESSING THE UNRELIABILITY OF THE MEDICAL LITERATURE: A RESPONSE TO „WHY MOST PUBLISHED RESEARCH FINDINGS ARE FALSE”. Johns Hopkins University, Dept. of Biostatistics Working Papers. Working Paper 135.

Gonon, F., Konsman, J. P., Cohen, D., & Boraud, T. (2012). Why most biomedical findings Echoed by newspapers turn out to be false: the case of attention deficit hyperactivity disorder. PLoS ONE 7(9): e44275. doi:10.1371/journal.pone.0044275

Granqvist, P., Fredrikson, M., Unge, P., Hagenfeldt, A., Valind, S., Larhammar, D., & Larsson, M. (2005). Sensed presence and mystical experiences are predicted by suggestibility, not by the application of transcranial weak complex magnetic fields. Neuroscience Letters, 379(1), 1-6.

Grant SP, Mayo-Wilson E, Melendez-Torres GJ, Montgomery P (2013). Reporting Quality of Social and Psychological Intervention Trials: A Systematic Review of Reporting Guidelines and Trial Publications. PLoS ONE 8(5): e65442. doi:10.1371/journal.pone.0065442

Head ML, Holman L, Lanfear R, Kahn AT, Jennions MD (2015). The Extent and Consequences of P-Hacking in Science. PLoS Biol 13(3): e1002106. doi:10.1371/journal.pbio.1002106

Holtedahl R, Brox JI, Tjomsland O (2015). Placebo effects in trials evaluating 12 selected minimally invasive interventions: a systematic review and meta-analysis. BMJ Open; 5(1):e007331. doi:10.1136/bmjopen-2014-007331.

Horton, R. (2015). Offline: What is medicine’s 5 sigma?. The Lancet, 385(9976), 1380.

Hougaard Anders, Lindberg Ulrich, Arngrim Nanna, Larsson Henrik B W, Olesen Jes, Amin Faisal Mohammad et al (2015). Evidence of a Christmas spirit network in the brain: functional MRI study. BMJ; 351:h6266

Hull, J., Slone, L., Metayer, K., & Matthews, A. (2002). The nonconsciousness of self-consciousness. Journal of Personality and Social Psychology, 83, 406-4254. (Abstract)

Ioannidis, J. P. (2005a). Contradicted and initially stronger effects in highly cited clinical research. Jama, 294(2), 218-228.

Ioannidis JPA (2005b). Why Most Published Research Findings Are False. PLoS Med 2(8): e124. doi:10.1371/journal.pmed.0020124

Ioannidis JPA (2007). Why Most Published Research Findings Are False: Author’s Reply to Goodman and Greenland. PLoS Med 4(6): e215. doi:10.1371/journal.pmed.0040215

Ioannidis, J. P. (2011). Excess significance bias in the literature on brain volume abnormalities. Arch. Gen. Psychiatry 68, 773–780.

Ioannidis, J. P. (2013). How many contemporary medical practices are worse than doing nothing or doing less. In Mayo Clin Proc (Vol. 88, No. 8, pp. 779-81).

Ioannidis JPA (2014a). How to Make More Published Research True. PLoS Med 11(10): e1001747. doi:10.1371/journal.pmed.1001747

Ioannidis, J. P. (2014b). Discussion: Why “An estimate of the science-wise false discovery rate and application to the top medical literature” is false. Biostatistics, 15(1), 28-36.

Institute of Medicine (2011). Clinical Practice Guidelines We Can Trust. Washington, D.C.: National Academies Press.

Isaacs, D., & Fitzgerald, D. (1999). Seven alternatives to evidence based medicine. Bmj, 319(7225), 1618.

Jager, L. R., & Leek, J. T. (2014). An estimate of the science-wise false discovery rate and application to the top medical literature. Biostatistics, 15(1), 1-12. [Articol care inițial s-a numit „Empirical estimates suggest most published research is true” (arXiv)]

Johnson, V. E. (2013). Revised standards for statistical evidence. Proceedings of the National Academy of Sciences, 110(48), 19313-19317.

Kaiser J (2015). The cancer test. Science. Jun 26;348(6242):1411-3. doi: 10.1126/science.348.6242.1411. (Abstract) [The Replicability Project: Cancer Biology]

Kenall, A., Edmunds, S., Goodman, L., Bal, L., Flintoft, L., Shanahan, D. R., & Shipley, T. (2015). Better reporting for better research: a checklist for reproducibility. Genome Biology, 16(1), 141. doi:10.1186/s13059-015-0710-5

Kerr, N. L. (1998). HARKing: Hypothesizing after the results are known. Personality and Social Psychology Review, 2(3), 196-217.

Klein, R. A., Ratliff, K. A., Vianello, M., Adams Jr, R. B., Bahník, Š., Bernstein, M. J., … & Woodzicka, J. A. (2015). Investigating variation in replicability. Social Psychology.

Kline, R. B. (2013). Beyond significance testing: Statistics reform in the behavioral sciences. American Psychological Association.

Krawczyk M (2015). The Search for Significance: A Few Peculiarities in the Distribution of P Values in Experimental Psychology Literature. PLoS ONE 10(6): e0127872. doi:10.1371/journal.pone.0127872

Kross, E., Berman, M. G., Mischel, W., Smith, E. E., & Wager, T. D. (2011). Social rejection shares somatosensory representations with physical pain. Proceedings of the National Academy of Sciences, 108(15), 6270-6275.

LaCour, M. J., & Green, D. P. (2014). RETRACTED: When contact changes minds: An experiment on transmission of support for gay equality. Science, 346(6215), 1366-1369. (Abstract)

Lakens, D. (2015). What p-hacking really looks like: A comment on Masicampo and LaLande (2012). The Quarterly Journal of Experimental Psychology, 68(4), 829-832.

Lambdin, C. (2012). Significance tests as sorcery: Science is empirical—significance tests are not. Theory & Psychology, 22(1), 67-90.

Leggett, N. C., Thomas, N. A., Loetscher, T., & Nicholls, M. E. (2013). The life of p:“Just significant” results are on the rise. The Quarterly Journal of Experimental Psychology, 66(12), 2303-2309. (Abstract)

Lester, K. J., Roberts, S., Keers, R., Coleman, J. R., Breen, G., Wong, C. C., … & Eley, T. C. (2015). Non-replication of the association between 5HTTLPR and response to psychological therapy for child anxiety disorders. The British Journal of Psychiatry, bjp-bp.

Logue, M. W., Amstadter, A. B., Baker, D. G., Duncan, L., Koenen, K. C., Liberzon, I., … & Uddin, M. (2015). The Psychiatric Genomics Consortium Posttraumatic Stress Disorder Workgroup: Posttraumatic stress disorder enters the age of large-scale genomic collaboration. Neuropsychopharmacology. 40, 2287–2297; doi:10.1038/npp.2015.118;

Lv, J., Qi, L., Yu, C., Yang, L., Guo, Y., Chen, Y., … & Li, L. (2015). Consumption of spicy foods and total and cause specific mortality: population based cohort study. BMJ, 351. doi: http://dx.doi.org/10.1136/bmj.h3942

Masicampo, E. J., & Lalande, D. R. (2012). A peculiar prevalence of p values just below .05. The Quarterly Journal of Experimental Psychology, 65(11), 2271-2279.

Mathews, F., Johnson, P. J., & Neil, A. (2008). You are what your mother eats: evidence for maternal preconception diet influencing foetal sex in humans. Proceedings of the Royal Society of London B: Biological Sciences, 275(1643), 1661-1668.

Matzen, P. (2003). [How evidence-based is medicine? A systematic literature review]. Ugeskrift for laeger, 165(14), 1431-1435. (Abstract)

McCabe, D. P., & Castel, A. D. (2008). Seeing is believing: The effect of brain images on judgments of scientific reasoning. Cognition, 107(1), 343-352.

McCullough, B. D., & McWilliams, T. P. (2010). Baseball players with the initial “K” do not strike out more often. Journal of Applied Statistics, 37(6), 881-891.

McNutt, M. (2015). Expression of Concern on LaCour and Green. Science, Vol. 348 no. 6239 p. 1100. DOI: 10.1126/science.aac6184.

Michael, R. B., Newman, E. J., Vuorre, M., Cumming, G., & Garry, M. (2013). On the (non) persuasive power of a brain image. Psychonomic bulletin & review, 20(4), 720-725.

Moher, D., & Altman, D. G. (2015). Four proposals to help improve the medical research literature. PLoS Med, 12(9), e1001864.

Moonesinghe R, Khoury MJ, Janssens ACJW (2007). Most Published Research Findings Are False—But a Little Replication Goes a Long Way. PLoS Med 4(2): e28. doi:10.1371/journal.pmed.0040028

Nelson, L. D., & Simmons, J. P. (2007). Moniker maladies: when names sabotage success. Psychological Science, 18(12), 1106-1112.

Ng, R. (2015). Drugs: from discovery to approval. John Wiley & Sons. (Google Books)

Nosek, B. A., Alter, G., Banks, G. C., Borsboom, D., Bowman, S. D., Breckler, S. J., … & Miguel, E. (2015). Promoting an open research culture. Science, 348(6242), 1422-1425.

Nosek, B. A., & Lakens, D. (2014). Registered reports: A method to increase the credibility of published results. Social Psychology, 45(3), 137-141. doi:10.1027/1864-9335/a000192

Nuzzo, R. (2014). Scientific method: Statistical errors. Nature, 506(7487), 150-152.

Open Science Collaboration (2015). Estimating the reproducibility of psychological science. Science, 349(6251), aac4716.

Ouyang, A. J., Lv, Y. N., Zhong, H. L., Wen, J. H., Wei, X. H., Peng, H. W., … & Liu, L. L. (2015). Meta-analysis of digoxin use and risk of mortality in patients with atrial fibrillation. The American journal of cardiology, 115(7), 901-906.

Pashler, H., Harris, C., & Coburn, N. (2011). Elderly-Related Words Prime Slow Walking. (September 15). PsychFileDrawer.

Pereira, T. V., Horwitz, R. I., & Ioannidis, J. P. (2012). Empirical evaluation of very large treatment effects of medical interventions. JAMA, 308(16), 1676-1684.

Perrin, S. (2014). Preclinical research: Make mouse studies work. Nature, 507(7493), 423-425.

Pierre, L. S., & Persinger, M. A. (2006). Experimental facilitation of the sensed presence is predicted by the specific patterns of the applied magnetic fields, not by suggestibility: Re-analyses of 19 experiments. International Journal of Neuroscience, 116(19), 1079-1096.

Prasad, V. (2013). Why randomized controlled trials are needed to accept new practices: 2 medical worldviews. In Mayo Clin Proc (Vol. 88, No. 10, pp. 1046-1050).

Prasad, V., & Cifu, A. (2013). The reversal of cardiology practices: interventions that were tried in vain. Cardiovascular Diagnosis and Therapy, 3(4), 228–235. doi:10.3978/j.issn.2223-3652.2013.10.05

Prasad, V., Vandross, A., Toomey, C., Cheung, M., Rho, J., Quinn, S., … & Cifu, A. (2013). A decade of reversal: an analysis of 146 contradicted medical practices. In Mayo Clinic Proceedings (Vol. 88, No. 8, pp. 790-798). Elsevier. (Abstract) (Anexă: Cele 146 practici contrazise) (Răspunsuri 1, 2)

Raghav, K. P. S., Mahajan, S., Yao, J. C., Hobbs, B. P., Berry, D. A., Pentz, R. D., … & Overman, M. J. (2015). From Protocols to Publications: A Study in Selective Reporting of Outcomes in Randomized Trials in Oncology. Journal of Clinical Oncology, JCO-2015. doi: 10.1200/JCO.2015.62.4148 (Abstract)

Ridley, J., Kolm, N., Freckelton, R. P., & Gage, M. J. G. (2007). An unexpected influence of widely used significance thresholds on the distribution of reported P-values. Journal of evolutionary biology, 20(3), 1082-1089.

Sackett, D. L., Rosenberg, W. M., Gray, J. A., Haynes, R. B., & Richardson, W. S. (1996). Evidence based medicine: what it is and what it isn’t. BMJ : British Medical Journal, 312(7023), 71–72.

Saey, T. H. (2015). Repeat Performance: Too many studies, when replicated, fail to pass muster. Science News, 187(2), 21-26.

Saint-Mont U. (2015). Randomization Does Not Help Much, Comparability Does. PLoS ONE 10(7): e0132102. doi:10.1371/journal.pone.0132102

Satel, S., & Lilienfeld, S. O. (2013). Brainwashed: The seductive appeal of mindless neuroscience. Basic Books. (Google Books)

Schoenfeld, J. D., & Ioannidis, J. P. (2013). Is everything we eat associated with cancer? A systematic cookbook review. The American journal of clinical nutrition, 97(1), 127-134.

Schulz, K. F., Altman, D. G., & Moher, D. (2010). CONSORT 2010 statement: updated guidelines for reporting parallel group randomized trials. Annals of internal medicine, 152(11), 726-732.

Selvaraj S, Borkar DS, Prasad V (2014). Media Coverage of Medical Journals: Do the Best Articles Make the News? PLoS ONE 9(1): e85355. doi:10.1371/journal.pone.0085355

Simmons, J. P., Nelson, L. D., & Simonsohn, U. (2011). False-positive psychology undisclosed flexibility in data collection and analysis allows presenting anything as significant. Psychological science, 0956797611417632.

Smith, G. C. S., & Pell, J. P. (2003). Parachute use to prevent death and major trauma related to gravitational challenge: systematic review of randomised controlled trials. BMJ : British Medical Journal, 327(7429), 1459–1461.

Sterne, J. A. C., & Smith, G. D. (2001). Sifting the evidence—what’s wrong with significance tests? BMJ : British Medical Journal, 322(7280), 226–231.

Tajika, A., Ogawa, Y., Takeshima, N., Hayasaka, Y., & Furukawa, T. A. (2015). Replication and contradiction of highly cited research papers in psychiatry: 10-year follow-up. The British Journal of Psychiatry, bjp-bp. (Abstract)

Tinoca, C. A., & Ortiz, J. P. (2014). Magnetic Stimulation of the Temporal Cortex: A Partial “God Helmet” Replication Study. Journal of Consciousness Exploration & Research, 5(3).

To, M. J., Jones, J., Emara, M., & Jadad, A. R. (2013). Are Reports of Randomized Controlled Trials Improving over Time? A Systematic Review of 284 Articles Published in High-Impact General and Specialized Medical Journals. PLoS ONE, 8(12), e84779. doi:10.1371/journal.pone.0084779

Tuk, M. A., Zhang, K., & Sweldens, S. (2015). The Propagation of Self-Control: Self-Control in One Domain Simultaneously Improves Self-Control in Other Domains. Journal of Experimental Psychology: General, Vol 144(3), Jun 2015, 639-654. (Abstract)

Vamos, M., Erath, J. W., & Hohnloser, S. H. (2015). Digoxin-associated mortality: a systematic review and meta-analysis of the literature. European heart journal, ehv143.

Vul, E., Harris, C., Winkielman, P., & Pashler, H. (2009). Puzzlingly high correlations in fMRI studies of emotion, personality, and social cognition. Perspectives on psychological science, 4(3), 274-290.

Weisberg, D. S., Keil, F. C., Goodstein, J., Rawson, E., & Gray, J. R. (2008). The seductive allure of neuroscience explanations. Journal of cognitive neuroscience, 20(3), 470-477.

Woo, C.-W., Koban, L., Kross, E., Lindquist, M. A., Banich, M. T., Ruzic, L., … Wager, T. D. (2014). Separate neural representations for physical pain and social rejection. Nature Communications, 5, 5380. http://doi.org/10.1038/ncomms6380

Young, S. S., Bang, H., & Oktay, K. (2009). Cereal-induced gender selection? Most likely a multiple testing false positive. Proceedings of the Royal Society of London B: Biological Sciences, 276(1660), 1211-1212.

Young, S. S., & Karr, A. (2011). Deming, data and observational studies. Significance, 8(3), 116-120.

Ziff, O. J., Lane, D. A., Samra, M., Griffith, M., Kirchhof, P., Lip, G. Y., … & Kotecha, D. (2015). Safety and efficacy of digoxin: systematic review and meta-analysis of observational and controlled trial data. BMJ 351:h4451

20 de gânduri despre &8222;Meta-știință I: Majoritatea rezultatelor din cercetare sunt false?&8221;

Hash spune:

26 decembrie, 2015 la 05:16

Tot ”un studiu” a împărțit de multă vreme minciunile în 3 categorii: banale, sfinte și statistice!

Răspunde
Cristi spune:

7 ianuarie, 2016 la 15:33

De ce nu ai facut referire de loc la nevoia ca studiile sa fie falsificabile ? pe langa design si repetabilitate.

Răspunde
1. alexthyme spune:
  
  7 ianuarie, 2016 la 15:52
  
  Nu am făcut referire la multe lucruri (fraudă, avalanșa de articole din China generate automat, publicarea selectivă, conflicte de interese etc.). Am vrut să mă concentrez pe importanța replicării în acest articol. Problema falsificabilității e una ce ține mai mult de filozofie decât de metodologie și cred că importanța falsificabilității e cunoscută de mai multă lume decât cea a replicabilității. Cel puțin în comunitatea sceptică se discută mai mult despre falsificare decât despre replicare. Bineînțeles că ambele sunt importante.
Oanry spune:

22 ianuarie, 2016 la 14:48

Salut,

Tot citind pe blogul tau m-am gandit la cateva subiecte despre care mi-ar placea sa citesc aici.

1. Fenomenul Shaumbra
E un fel de secta new age al carei lider este Geoffrey Hope, fondatorul companiei Crimson Circle.
https://en.wikipedia.org/wiki/Geoffrey_Hoppe
https://www.crimsoncircle.com/AboutUs.aspx
Ei pretind ca invataturile lor vin prin channeling. Delirul mistic e la el acasa iar liderii au ca scop obtinerea unui profit cat mai mare. Cu toate astea adeptii(sunt si romani printre ei) sunt greu de convins ca ceea ce li se serveste e bullshit.

2. Orgoni
Niste obiecte hand-made care se vand bine, dar care nu fac nimic, cel mult decoreaza locul in care sunt puse.
http://dispozitiveorgonice.ro/

3. Paul Brunton
Autorul cartii India Secreta. Personajul e un subiect interesant pentru ca, desi este dedicat cautarilor spirituale, este in acelasi timp rational si sceptic cand vine vorba de aspecte non-fizice.

Daca te atrag urmatoarele subiecte si daca ai timp+chef sa le dezbati aici, zic mersi anticipat.

Răspunde
1. alexthyme spune:
  
  22 ianuarie, 2016 la 20:23
  
  Mersi pentru sugestii. Doar de orgoni am auzit până acum… deși parcă și Geoffrey Hope îmi sună cunoscut. Pentru a vorbi despre Geoffrey Hope ar trebui să vorbesc întâi despre channeling. O să mă gândesc la asta.
sryatara spune:

22 ianuarie, 2016 la 15:48

Completare pentru punctul 3:
Despre el e vorba: https://en.wikipedia.org/wiki/Paul_Brunton

Răspunde
Lili spune:

19 februarie, 2016 la 18:57

Toti cercetatorii spun ca Enders & Peebles au izolat virusul pojarului. OAre Unde gasesc replicat studiul asta?
http://www.ncbi.nlm.nih.gov/pubmed/13177653

Răspunde
1. alexthyme spune:
  
  19 februarie, 2016 la 22:03
  
  Au fost câteva izolări în anii ’50 și există și unele mai recente. Cele vechi sunt greu de găsit online în varianta completă, dar sunt citate de alte articole.
  
  De exemplu, în articolul din primul link, autorii au folosit virusul izolat în primul experiment, au infectat niște maimuțe cu el, au observat manifestările bolii și au re-izolat virusul:
  http://www.jimmunol.org.sci-hub.io/content/78/1/63.full.pdf [These results, taken with others previously recorded (1, 8, 9) are, we consider, sufficient to support the conclusion that the virus we have cultivated is the etiologic agent of measles. The classical criteria for the establishment of etiologic
  relationship appear to be satisfied by the following facts: Virus exhibiting the same characteristic properties was repeatedly isolated from the blood
  and throat washings of typical cases of measles. It was maintained in „pure culture” through many serial passages during a period exceeding 2 years. Its inoculation into experimental animals was followed by a disease resembling measles in its essential features. Virus recovered from the blood of these animals during the phase of viremla was shown to possess biologic attributes indistinguishable from those of the agent inoculated]
  
  https://www.ncbi.nlm.nih.gov/pmc/articles/PMC1551024/pdf/amjphnation01086-0004.pdf [mai multe referințe aici la experimente din anii ’50. De exemplu ref. 11]
  
  http://dx.doi.org.sci-hub.io/10.1016/S0022-3476(57)80081-X# [de ex. ref. 6 (Ruckle, 1956) e o altă izolare, dar pe care nu o găsesc disponibilă online]
  
  http://www.cabdirect.org/abstracts/19582702756.html și http://www.cabdirect.org/abstracts/19582702757.html
  
  alt exemplu http://www.sciencedirect.com/science/article/pii/S0042682297985767
  
  metoda RT-PCR: https://jid.oxfordjournals.org/content/180/4/950.full
  
  Dă clic pentru a accesa Measles_virus.pdf
  
  Mai multe referințe și în articolele astea:
  https://www.google.com/url?sa=t&rct=j&q=&esrc=s&source=web&cd=10&cad=rja&uact=8&ved=0ahUKEwj45NDUsoTLAhWB2ywKHZyeBzwQFghqMAk&url=http%3A%2F%2Frepub.eur.nl%2Fpub%2F3525%2F1870.pdf&usg=AFQjCNEROLsxKoWH1v-ksGfY362y1-AZeg&sig2=mO16wydXxOtOSGL7tR5Ufw&bvm=bv.114733917,d.bGg
  http://www.jpeds.com/article/S0022-3476(57)80081-X/references
Lili spune:

20 februarie, 2016 la 17:18

Nu stiu, ori m-ai inteles gresit, ori nu stii ce este o replicare. In primul link pe care l-ai pus s-a lucrat cu tulpina „Edmonston”, deci direct pornit de la ipoteza ca fusese deja izolat. As vrea o publicatie care sa fi replicat si confirmat exact studiul din 1954, ideal cu grupe de control. Altfel dejaba citeaza toti niste experimente neverificate si nereplicate.

Răspunde
1. alexthyme spune:
  
  20 februarie, 2016 la 21:55
  
  Nu e vorba de experimente „neverificate și nereplicate”, dar acum 60 ani nimeni nu publica replicări de dragul replicărilor. Cu toate astea, au fost multe alte cazuri în care virusul a fost izolat de la pacienți bolnavi, ceea ce constituie replicare chiar dacă cercetătorii respectivi nu și-au propus să replice un studiu anume. Important e să fie replicate descoperirile nu studiul în sine. Câteva exemple mai jos.
  
  Ruckle, Gisela. Measles in Humans and Monkeys: Report of Isolation From Cynomolgus Monkeys of an Agent Immunologically Related to Human Measles Virus, Fed. Prec. 15: 610, 1956 [nu găsesc link, dar e citat în mai multe articole din comentariul meu anterior)]
  
  Izolare a virusului de către alți cercetători (intră la categoria replicare chiar dacă nu scrie „replication of” în nume, sper că nu ne legăm de lingvistică):
  Ruckle, G., & Rogers, K. D. (1957). Studies with measles virus II. Isolation of virus and immunologic studies in persons who have had the natural disease. The Journal of Immunology, 78(5), 341-355. http://www.jimmunol.org/content/78/5/341.short
  
  Altă izolare, de către alți cercetători:
  Bech, V., & von Magnus, P. (1958). Studies on measles virus in monkey kidney tissue cultures. 1. Isolation of virus from 5 patients with measles. Acta Path. et Microb. Scandinavica, 42(1), 75-85.
  
  Și altă izolare, de către alți cercetători:
  Gresser, I., & Chany, C. (1963). Isolation of measles virus from the washed leucocytic fraction of blood. Experimental Biology and Medicine, 113(3), 695-698. http://ebm.sagepub.com/content/113/3/695.short
  
  Altă izolare, de către Peebles:
  Peebles, T. C. (1967). Distribution of virus in blood components during the viremia of measles. Archiv für die gesamte Virusforschung, 22(1-2), 43-47. [două maimuțe au fost infectate sânge ce conținea virusul Edmonston, dar care a fost ținut înghețat pentru mult timp. Peebles a vrut să găsească o explicație pentru faptul că acest sânge nu produce infecții, dar pe noi ne interesează partea a doua a studiului, și anume: sânge de la doi oameni infectați a fost analizat (cu ajutorul unor culturi de celule) și a fost detectat virusul. Aceleași culturi de celule, neinoculate cu virus (deci pentru control) au produs rezultate negative.] http://link.springer.com/article/10.1007%2FBF01240500#page-1
  
  Un studiu cu grup de control:
  Horta-Barbosa, L., Hamilton, R., Wittig, B., Fuccillo, D. A., Sever, J. L., & Vernon, M. L. (1971). Subacute sclerosing panencephalitis: isolation of suppressed measles virus from lymph node biopsies. Science, 173(3999), 840-841. http://science.sciencemag.org/content/173/3999/840.short
  
  Și există multe alte metode mai noi care confirmă rezultatele mai vechi.
  De exemplu, virusul a fost detectat detectat folosind un tip de celule în care virusul se propagă mult mai bine. Articolul descrie detectarea virusului din mai multe surse – de la pacienți noi, dar și din celule infectate cu tulpine cunoscute – ceea ce confirmă că și virusul detectat de Peebles & Enders, și virusurile detectate de alții reprezintă același virus (doar că tulpini diferite) cu cel detectat la pacienți noi care au avut pojar:
  Kobune, F., Sakata, H., & Sugiura, A. (1990). Marmoset lymphoblastoid cells as a sensitive host for isolation of measles virus. Journal of Virology, 64(2), 700-705. http://jvi.asm.org/content/64/2/700.long
  
  Metoda e aplicată aici (și în multe alte locuri) și aduce în plus faptul că analizează și genetic virusurile:
  Rota, J. S., Rota, P. A., Redd, S. B., Redd, S. C., Pattamadilok, S., & Bellini, W. J. (1998). Genetic analysis of measles viruses isolated in the United States, 1995–1996. Journal of Infectious Diseases, 177(1), 204-208. http://jid.oxfordjournals.org/content/177/1/204.full.pdf
  
  Virus izolat de la 8 pacienți:
  Forthal, D. N., Aarnaes, S., Blanding, J., de la Maza, L., & Tilles, J. G. (1992). Degree and length of viremia in adults with measles. Journal of Infectious Diseases, 166(2), 421-424. http://jid.oxfordjournals.org/content/166/2/421.abstract
Lili spune:

24 februarie, 2016 la 02:10

Deci studiul-referinta nu a fost niciodata replicat. Asta voiam sa stiu. Multumesc.

Răspunde
1. alexthyme spune:
  
  24 februarie, 2016 la 11:35
  
  Ruckle & Rogers poate fi considerată replicare. Au făcut ce-au făcut Peebles & Enders plus încă niște lucruri.
2. Anti spune:
  
  9 martie, 2016 la 23:41
  
  te inseli, am citit lucrarile si nici vorba de ce au facut enders si peebles, in plus nici ce au facut ei nu este clarificat in totalitate. ei sunt mai onesti ca tine si o admit.
3. alexthyme spune:
  
  10 martie, 2016 la 12:34
  
  Pari să nu fii interesată să descoperi răspunsuri la întrebări și ai o atitudine negativă nejustificată, confruntațională și mă acuzi că n-aș fi onest. Când ți-am răspuns inițial și am indicat direcții de plecare pentru a căuta rerplicări nici măcar nu ai dat click pe linkuri. Acum îmi spui că ai citit toate lucrările și că nu sunt bune, fără să dai detalii. O să presupun că ești un troll.
  
  Dacă vrei doar să-ți confirmi atitudinea negaționistă poți să o faci în altă parte. Dacă vrei să continuăm discuția trebuie să clarificăm niște lucruri.
  
  Nu există replicare „exactă” în sensul strict. Există replicări apropiate care sunt numite uneori exacte pentru a le diferenția de cele conceptuale. Uite un exemplu din articolul meu: studiul lui Bargh et al. a fost replicat de Doyen et al. Replicarea n-a fost „exactă” în sensul strict (pentru că ar fi aproape imposibil să se facă o astfel de replicare), dar a fost o replicare validă a efectului (eșuată, dar validă). Exemplu de diferență: în original timpul a fost cronometrat de niște experimentatori; în replicare a fost cronometrat cu niște senzori. În momentul ăsta nu mai avem replicare „exactă”. E vreo problemă? Absolut niciuna. Ba chiar metoda cu senzori e mai exactă și ajută la reducerea unor posibile erori din experimentul original. Sunt multe diferențe pe care le poți găsi între cele două studii, însă nu sunt relevante. Replicarea este apropiată. La fel, dacă te uiți la cele 100 de replicări făcute de Open Science Collaboration o să găsești multe diferențe între studii.
  O discuție interesantă poți găsi aici: http://www.psmag.com/books-and-culture/trustworthy-published-science-97180 , alta aici http://blog.dansimons.com/2013/06/direct-replication-of-imperfect-studies.html și alta aici http://pps.sagepub.com/content/9/1/59.full.pdf+html . Uite un citat interesant:
  „…it is likely that a researcher who tried to induce fear about toothbrushing in high school students by telling them that improper care of their teeth might result in “cancer, paralysis or other secondary diseases” (Janis & Feshbach, 1953) might arouse disbelief rather than fear.”
  și altul:
  „…in the protocol to replicate Schooler’s verbal overshadowing effect, we had to change the control condition slightly in order to permit replication in multiple countries. Rather than listing US States and their capitals, participants in all of the replication studies will instead list countries and capitals. That way, we can make the study comparable across all countries. We vetted that change with Schooler, and it does not change the design in a meaningful way, so we can still consider the protocol to represent a direct replication (although it is not an exact replication).”
  
  Ideea e să fie replicate rezultatele, chiar dacă procedura variază. De fapt, dacă rezultatele rămân valide chiar și după unele modificări înseamnă că rezultatul e mai general.
  
  Ok, asta-i psihologie, dar în biologie e altfel, nu? Nu. Și acolo se pot face modificări care nu alterează esența experimentului și permit replicarea rezultatelor. Open Science Collaboration pe lângă proiectul de replicare a studiilor din psihologie a demarat și un proiect de replicare a studiilor din biologia cancerului. Unele dintre replicări au protocoalele publicate deja. Se găsesc aici: http://elifesciences.org/collections/reproducibility-project-cancer-biology .
  
  Uite două exemple: http://elifesciences.org/content/3/e04180v1 și http://elifesciences.org/content/4/e04105v1
  Există mai multe diferențe între studiul original și replicare. De exemplu:
  „The replication will only include evaluation of mice at days 6 and 30 post-injection. The original study also included evaluations at days 12 and 60 post-injection, as well as further analysis of liver tissue at 7 months post-injection. The replication is only comparing wild-type and SCID/beige mice; SCID mice were also included in the original study.”
  
  Ce ai de făcut ca să poată continua discuția:
  1. Descrie te rog ce înțelegi prin replicare.
  2. Detaliază care sunt diferențele relevante dintre cele două studii, din care rezultă că rezultatele nu sunt replicate.
  3. Ce ar însemna dacă descoperirea virusului rujeolei n-ar fi replicată?
  
  Dacă argumentul tău se reduce la faptul că nu există două studii exacte din toate punctele de vedere, poți să aplici acest argument pentru aproape orice descoperire. Alege orice lucru pe care îl crezi și o să îl pot respinge cu aceeași tactică. E o tactică folosită des de negaționiști – au așteptări imposibile. Mai multe detalii aici: http://eurpub.oxfordjournals.org/content/19/1/2 . Dacă vrei să ne jucăm de-a negaționiștii putem face și asta.
Vlad spune:

26 aprilie, 2016 la 23:24

„Practica numărul 43 se referă la operația de hernie inghinală, care poate fi de două feluri: deschisă sau laparoscopică. Un studiu din 1997 cu 994 de participanți a arătat că abordarea laparoscopică este mai bună, însă un studiu mai mare din 2004 cu 2164 de participanți a inversat concluzia, arătând că operația deschisă este mai bună.”
……..
Interesant este ca daca citesti cu atentie studiul concluzia reala este alta 🙂
Daca ai bani sa ajungi la o somitate e mai buna operatia laparoscopica.
Daca esti coate goale mai bine optezi pentru deschisa.

„Among primary-hernia repairs performed by highly experienced surgeons, recurrence rates did not vary significantly….”

Deci studiul impecabil iar concluzia pur „analitica” e corecta.
Din pacate induce nepermis in eroare. Eu imi permit si „muschii mei” il vor pe cel mai bun chirurg in domeniu. Tot din studiu rezulta ca atunci e mai bine laparoscopic. Da’ eu trebuie sa citesc tot studiul ca sa aflu asta ??????

Asta cum se rezolva?

Răspunde
1. alexthyme spune:
  
  2 mai, 2016 la 23:26
  
  Scopul studiului n-a fost să afle cât de mult contează experiența chirurgilor. Aia a fost doar o analiză post hoc.
  Scopul articolului despre cele 146 de practici contrazise a fost să verifice cât de des au apărut contradicții în perioada respectivă în NEJM, nu să facă recomandări medicale. Autorii au spus că nu au făcut o analiză sistematică a literaturii pentru practicile identificate și că se poate ca unele dintre cele contrazise să fie contrazise în mod greșit. Așa că dacă ești interesat de o practică anume trebuie să citești tot studiul și eventual și altele.
  
  Sau ai o soluție mai simplă: te iei după recomandările unor instituții specializare. De exemplu, NICE din Marea Britanie spune că înainte de a decide ce operație preferăm, e bine să avem o discuție cu medicul și să luăm în considerare mai multe lucruri, printre care și experiența sa https://www.nice.org.uk/guidance/ta83 . Acum, că unii doctori n-o să aibă chef de discuții e altă problemă.
  
  A, și nu e nevoie ca medicul să fie o somitate, trebuie doar să aibă o experiență de vreo 250 de operații.
2. Vlad spune:
  
  4 mai, 2016 la 04:09
  
  Nu am spus asta. Ma refeream strict la studiul cu practica 43. Si la faptul ca „diavolul se ascunde in detalii”. Si la faptul ca, mai ales in US si UK, studiile, ghidurile, recomandarile sunt extrem de „sterile”. Mai ales britanicii sunt campioni; nu cred sa mai poata cineva sa faca un ghid de 100 de pagini, extrem de detaliat, si care sa nu te ghideze de fapt la nimic. Doar ca sa nu poata fi atacate in instanta in vreun caz de malpraxis.
  Nu trebuie sa ne ascundem dupa deget; tot ce e mai la vest de GMT + 1 sufera masiv de „malpraxis bias” ca sa zic asa. Sau de „political correctness” bias.
  
  Adica analiza aia post hoc ar fi trebuit sa genereze un studiu ad hoc separat 🙂
  Daca ar fi vrut sa faca intradevar ceva util.
  
  O sa fac o parantez. Dar cred ca explica bine ce am vrut sa spun mai sus.
  Stii cat le-a luat sa publice studiul cu procentul din ADNul oamenilor de neanderthal ce se regaseste in ADNul oamenilor moderni?
  Hint1: doar in Europa si Asia. In Africa e zero
  Hint2: sa nu cumva sa dam apa la moara celor cu idei despre rase, suprioritate…etc
  Eu citisem ca le-a luat cel putin 6 luni doar ca sa puna intr-o forma corecta politic.
  (parca pe science et vie …. nu sunt 100% sigur acum)
  
  Asa ca incercam sa-mi dau seama la ce foloseste studiul despre practicile contrazise.
  
  Daca unele practici au fost „poate contrazise gresit” eu ce sa cred? Poate daca ma duc si studiez toate cele 146 de prctici contrazise gasesc ca au fost toate contrazise gresit. Si la ce folosea gasirea contradictiilor in NEJM?
  Ori era un semnal de alarma in privinta practicilor, gen „uite ce multe sunt gresite” , ori un semnal de alarma in privinta studiilor, gen „mai usor cu ele ca sunt probleme”.
  
  Si inca ceva:
  Adica „am gasit peste 100 de practici contrazise” dar nu se fac recomandari medicale” ?????? Nu direct poate. Dar indirect ce vrei mai direct? ( asta e din putul gandirii dar mi-a placut cum suna).
3. alexthyme spune:
  
  4 mai, 2016 la 10:57
  
  Articolul cu cele 146 de practici contrazise folosește pentru a estima cam câte descoperiri inițiale sunt contrazise ulterior și pentru că a găsit un număr atât de mare ridică un semnal de alarmă asupra faptului că nu ar trebui să ne bazăm pe un singur studiu atunci când decidem că o practică e utilă. Și uitându-ne la detalii, observăm că dintre cele contrazise, cele mai multe erau susținute de studii de slabă calitate sau de consensul experților. Articolul oferă încă un motiv în plus pentru a susține medicina bazată pe dovezi.
  
  Cum am mai zis, dacă vrei să afli detalii despre o practică anume trebuie să citești și alte studii, nu doar cele din NEJM. Prasad & Cifu s-au uitat strict la cele din NEJM și nu au făcut nicio evaluare sistematică pentru fiecare procedură, de aceea nu pot să fie siguri că toate contradicțiile sunt corecte. Faptul autorii că nu fac recomandări medicale nu e din cauză de „political correctness”, e din responsabilitate. Nici eu în locul lor nu m-aș simți încrezător să fac o recomandare fără să studiez în detaliu fiecare practică.
Pingback: Homeopatia, demontata punct cu punct | Sound of Science
Pingback: Testul asocierilor implicite: Suntem cu toții rasiști fără să știm? | O Privire Sceptică

Lasă un comentariu Anulează răspunsul

Acest site folosește Akismet pentru a reduce spamul. Află cum sunt procesate datele comentariilor tale.

	Procesorel Judecator… la Hidroxiclorochina pentru covid…
	neutrino la Sănătatea în știri: Țigările e…
	Fr33 la Metode de datare
	Hidroxiclorochina pe… la Meta-știința și pseudoștiința:…

Cuprins

Despre studiu și efectele sale

Studiul lui Ioannidis

Reacții la studiul lui Ioannidis

Replicare, replicare, replicare

Medicină

Aprobarea medicamentelor

Studiile epidemiolgice

Nutriție

Medicina bazată pe dovezi

Psihologie

Psihiatrie

Neuroștiință

Niște exemple concrete din psihologie/neuroștiință

Un studiu retras

Farmecul seducător al neuroștiinței

The God Helmet

Durerea emoțională și durerea fizică

Un psiholog cam nervos

Alte practici nepotrivite

P-hacking

Ce soluții există?

Recomandări:

Note:

Partajează asta:

Similare

20 de gânduri despre &8222;Meta-știință I: Majoritatea rezultatelor din cercetare sunt false?&8221;

Lasă un comentariu Anulează răspunsul