Cheat cu statistici - almanah paranormal

Să vorbim despre modul în care suntem înșelați cu ajutorul statisticilor și faptelor și vom înțelege cum să nu cădem pentru momeala escrocilor și a pseudo-cercetătorilor

Vom pune pe pielea unui mincinos care va aplica cele mai simple și mai eficiente metode de prezentare a datelor complet inofensive în așa fel încât să dea ceea ce se dorește pentru realitate.

Eșantion nevalid

Să presupunem că doriți să vă desfășurați cercetarea la scară globală și, prin urmare, să selectați persoane din întreaga lume. Să presupunem că ai o listă cu toți oamenii de pe planetă și alegi la întâmplare 10 persoane care răspund la întrebările tale. Cercetarea dvs. are sens? Cu greu. Principala greșeală este că, deși ați ales oamenii din întâmplare, numărul lor sa dovedit a fi prea mic pentru ca studiul să aibă valoare. Se poate dovedi foarte ușor că toți cei 10 persoane citesc sau, invers, niciunul dintre respondenți nu ia cărți în mâinile lor. În acest caz, rezultatul cercetării poate fi concluzia că toți oamenii citesc în mod constant sau că niciunul dintre oameni nu este dependent de lectură. Nu este studiul cel mai informativ, nu?

Potrivit statisticilor, 100% din vizitatorii bibliotecii au citit cărți.

Cu toate acestea, chiar dacă luați 10 milioane de persoane ca probă, nu veți garanta un rezultat precis. Să spunem că acum câțiva ani ați efectuat deja cercetări și ați intervievat doar 10 milioane de oameni de știință diferiți din întreaga lume. Este corect să folosiți acest eșantion? Pe de o parte, este foarte mare, dar, pe de altă parte, este cea mai biată eșantionare. Evaluarea cât de mult omenirea iubește citirea în funcție de câți oameni de știință o citesc este ca și cum ar judeca ce procentaj este angajat în muncă manuală, intervievând exclusiv instalatori.

Luați media

Imaginați-vă că doriți să obțineți un loc de muncă în compania X și sunteți interesat de salariul mediu al companiei. După ce ați găsit raportul care vă interesează, veți afla că acesta este de 100.000 de dolari pe an, dar ce anume înseamnă acest lucru? Poate că așa va fi plătit imediat după angajare? Nu, nu este. Poate după o anumită perioadă de muncă în această companie, este foarte probabil să primiți această sumă? Complet de către. Deci ce înseamnă asta? De fapt, din punct de vedere practic, absolut nimic, dacă studiul nu specifică ce înseamnă media.

Expresia "temperatură medie în spital" are o nuanță ironică tocmai pentru că temperatura medie aritmetică a pacienților poate spune că toți sunt sănătoși.

Faptul este că există trei valori medii: media aritmetică, mediana și modul. În cazul mediei aritmetice, adăugați toate valorile disponibile și împărțiți suma după numărul de termeni. Mediana înseamnă că jumătate din valori sunt sub această valoare, iar jumătate este mai mare. Moda descrie doar cea mai obișnuită valoare din set.

Acum, să ne dăm seama de ce expresia salariului mediu prin aritmetica medie nu are sens. Să presupunem că o companie are un CEO cu un salariu de 10 milioane de dolari, 5 manageri cu un salariu de 300.000 de dolari și 20 de muncitori cu un salariu de 75.000 de dolari. Media aritmeticii este: (10 000 000 + 5 x 300 000 + 20 x 75 000) / (1 + 5 + 20) = 500 000 de dolari. În ciuda faptului că cel mai comun salariu (și cel mai probabil, îl veți obține exact) este de 75.000, salariul mediu pentru companie este de 500.000, deși în realitate nimeni nu îl primește.

În cazul în care doriți cu adevărat să vă evaluați perspectivele financiare în cadrul companiei, este mai înțelept să căutați studii în care este acordată mediana sau cel puțin moda, dar în nici un caz nu este media pentru toate salariile. Da, poate această cifră pare impresionantă, dar o mediană sau o modă mundane va reflecta realitatea și va fi capabilă să vă ofere o orientare reală atunci când alegeți un loc de muncă.

Grafică abruptă

Imaginați-vă următoarea situație: ce deține are un grafic care arată venitul Roman Abramovici în ultimul an, și doriți să prezentați venitul companiei dvs., astfel încât acestea să arate mai atractiv decât venitul miliardar celebru.

La prima vedere, sarcina pare imposibilă, dar, de fapt, totul este destul de simplu. Este suficient doar să schimbați scara graficului de-a lungul axei Y. Cu alte cuvinte, dacă valorile verticale ale graficului de venit al lui Abramovici sunt egale cu zeci de milioane de dolari, faceți-vă echivalentul a zeci de dolari. Aceasta va atinge efectul dorit.

Cu toate acestea, există un mod mai ușor: eliminați scara din axa Y la toate. Acest lucru vă va permite să desenați un grafic cu o creștere explozivă pe cât doriți.

Graficele sunt distractive, dar adesea complet neinformative.

Alegeți o cercetare adecvată

Indiferent cât de fantastic ar putea suna, dar cu ajutorul statisticilor este ușor să dovedești că moneda scade în 100% din cazuri. În plus, acest lucru poate fi realizat chiar folosind datele unui laborator independent de experți (o formulă familiară?). Esența experimentului va fi după cum urmează: lăsați moneda să fie aruncată în laborator de 5 ori. Având în vedere că de fiecare dată când cade cu un vultur, va fi posibil să se concluzioneze că vulturul scade în 100% din cazuri. Care este captura? Faptul că angajezi mai multe laboratoare de duzină, fiecare dintre ele fiind angajat în același lucru: ridică o monedă de cinci ori. După aceea, trebuie doar să alegeți laboratorul care va arunca moneda în felul în care aveți nevoie.

Dacă credeți că în viața reală, astfel de trucuri nu sunt aplicabile, amintesc de diverse inscripții pe produse în stilul de „Pasta de dinti a devenit cu 25% mai eficient decât înainte,“ sau „nouă pulbere îndepărtează petele cu 30% mai mult decât pulberea convențională.“ În acest caz, există de obicei o notă "dovedită de un laborator independent". Te simți unde este înmormântat câinele?

Trucuri cu vizualizare

Imaginați-vă că Compania Un angajat câștigă 100 $ pe zi, iar societatea B numai 50. Dacă sunteți o companie și proprietarii și doresc să atragă noi angajați, pe care doriți să maximizeze utilizarea faptului că muncitorii câștigă de două ori mai mult decât angajații concurentului. Puteți construi pur și simplu un program pe care coloana "salariul în compania A" va fi de doar 2 ori mai mare decât coloana firmei B.

Dar puteți face vizualizarea chiar mai spectaculoasă. Concentrați-vă pe primul: axa Y din grafic nu începe cu 0, ci, de exemplu, cu 30 de dolari. Astfel, diferența vizuală este obținută nu de 2 ori, dar în toate 3.5. Fără îndoială, puteți începe să construiți de la 40 de dolari - o diferență de 6 ori va arăta și mai semnificativă.

În plus, poți să desenezi pungi cu semnul dolarului pe ele, ca personificarea banilor și să-ți imaginezi diferența dintre salariile cu ajutorul lor. Pe de o parte, compania A corespunde la 2 saci de 50 de dolari, iar compania B este doar 1. Dar, din nou, acest lucru nu este suficient de eficient. Să facem mai bine un sac care să reflecte salariul companiei A, de două ori mai mult decât sacul corespunzător companiei B.

Trucul este că, în loc de a crește zona sacului de 2 ori (dacă vorbim de o imagine bidimensională a pungii), creștem fiecare parte cu un factor de 2. Astfel, din punct de vedere vizual, diferența se obține de 4 ori. Desigur, dacă vrem să facem o versiune tridimensională a ilustrației noastre, diferența este deja de 8 ori.

Relații cauzale complexe

Să presupunem că un psiholog școlar a fost instruit să studieze relația dintre fumat și realizarea elevilor. Psihologul, după ce a studiat datele relevante, ia această situație: printre copiii bine educați, nimeni nu fumează, în timp ce printre cei care nu reușesc, totul este fumat. Acest lucru înseamnă că fumatul are un efect negativ asupra progresului academic? Nu este un fapt.

Faptul este că nu am aflat care este cauza și care este consecința. Pe de o parte, fumatul poate fi cauza unor performanțe slabe ale elevilor. Dar, pe de altă parte, se poate dovedi cu ușurință că este o performanță proastă care face ca elevii să devină fumători.

În acest caz, avem de-a face cu o corelație (relația a două cantități), dar corelația nu este o relație cauzală. În primul rând, nu este întotdeauna clar ce este cauza și care este consecința și, în al doilea rând, corelația între orice cantitate nu are întotdeauna și deloc sens practic.

erori

Este foarte important să se acorde atenție erorilor din studii. Imaginați-vă că doriți să măsurați un câmp care are o lungime de 100 de metri (dar nu-l cunoașteți). Fiecare pas este aproximativ egal cu 1 metru, dar pentru 100 de metri puteți face cu ușurință o greșeală de trei metri. Cu alte cuvinte, prin măsurarea câmpului, puteți concluziona că lungimea sa este egală cu 97, 99 și chiar 103 de metri. În acest caz, eroarea este de 3%.

Să examinăm un exemplu în care o atitudine neglijentă față de inexactitatea calculelor de cercetare poate duce la rezultate absurde. Testul bine cunoscut al testului Stanford-Binet IQ are o eroare în rezultatele măsurătorilor de 3%.

Acum, imaginați-vă că copilul a fost rezultatul A în 97 de puncte, în timp ce copilul B - 103. Având în vedere faptul că cele 100 de puncte - este media (sau „normal“), se dovedește că rezultatul copilului A sub medie, iar copilul B - peste medie. Cu toate acestea, dacă ne amintim că eroarea de măsurare de 3%, se poate întâmpla cu ușurință că este într-adevăr un copil Un rezultat de 103 de puncte, iar copilul B, din contră, 97. Prin urmare, să spunem că copilul mai inteligent și B, pe baza Testul IQ (care este, în general, absurd) nu este cea mai bună idee.

concluzie

Am analizat doar cele mai comune metode de manipulare a datelor folosind statistici. Cu toate acestea, dacă doriți să continuați să studiați acest subiect, vă recomandăm cartea "Cum să mâncați cu ajutorul statisticilor".

Principalul lucru nu este să lași cunoștințele în plan teoretic. Data viitoare, cand te uiti la un alt studiu sau raport (în special atunci când se va concentra pe activitatea desfășurată de către președinte pentru ultimii patru ani), încearcă să abordeze problema mai sceptic și de a afla ce este vorba și ce semnifică rezultatele.

STILL ARTICOLE PE TEMA: