Reprezentativitatea (reprezentativă franceză-indicativă) este proprietatea unei populații selective de a reprezenta caracteristicile populației generale. Reprezentativitatea eșantionului înseamnă că, în cazul unei erori predeterminate sau calculate pe eșantionul real, eroarea din eșantion poate fi identificată cu populația sau, în cazul utilizării limbii statistice, pentru a găsi estimări ale parametrilor populației. În primul rând, fiecare unitate a populației generale ar trebui să aibă o probabilitate egală de a intra în eșantion. În al doilea rând, pentru a evita o selecție direcțională, alegerea unităților populației generale trebuie făcută independent de trăsătura studiată. În al treilea rând, ar trebui să se facă o selecție, pe cât posibil, din populațiile omogene. În al patrulea rând, numărul de unități ale populației generale selectate pentru anchetă ar trebui să fie destul de mare.
Procesul de determinare directă a reprezentativității eșantionului constă în etapele: compararea indicatorilor medii de distribuție a eșantionului și agregatelor generale; o comparație a formelor de distribuție a acestor indicatori. Indicele mediu de distribuție este de obicei luat ca media 144
media aritmetică sau ponderată a acestei distribuții.
În cazul studierii seturilor cu caracteristici alternative, în loc de media aritmetică, se calculează fracțiunea de unități care posedă caracteristicile luate în considerare în raport cu întreaga populație. Dacă denotăm volumul unei populații prin simbolul N și fenomenul cu atributul dat este M, atunci P - fracțiunea fenomenelor cu acest semn este determinată de:
unde Q este proporția fenomenelor cu un semn alternativ.
Puteți utiliza concluziile obținute pe baza unui studiu al unei populații de eșantion dacă diferența dintre media aritmetică (sau acțiunile medii) a caracteristicilor eșantionului și a populației generale tinde să fie zero. Se presupune că această cerință este îndeplinită atunci când cele patru condiții specificate mai sus sunt îndeplinite. Adevărat, cunoscând numai mediile selective, nu se pot oferi estimări exacte ale diferenței lor, deoarece indicii medii ai populației generale nu sunt cunoscuți. În plus, valorile probelor se pot fluctua în funcție de unitățile populației generale incluse în eșantion. Prin urmare, evaluarea reprezentativității unui eșantion pe baza indicatorilor medii ai distribuției sale reduce la căutarea unei erori de reprezentativitate.
Comparația dintre eșantion și seturile generale pe indicatori medii nu oferă o imagine completă a populației. Astfel, în două seturi cu aceleași indicatori medii, discrepanța dintre valoarea maximă și cea minimă a caracteristicilor, care determină forma distribuției sale, poate fi diferită. Dacă reprezentăm grafic această distribuție, ea formează o curbă simetrică în formă de clopot (normală), reflectând faptul că suma numeroaselor variabile aleatoare distribuite aleatoriu este distribuită aproximativ în conformitate cu legea normală.
Ordonata y, care determină înălțimea curbei pentru fiecare punct x, este densitatea de probabilitate pentru valoarea x,
Valoarea maximă a densității de probabilitate este valoarea medie a variabilei și este egală cu una. Acest lucru înseamnă că mai puțin
valoarea aleatoare a unei variabile diferă de valoarea medie, cu atât este mai mare probabilitatea de manifestare a acesteia. În schimb, cu cât este mai mare devierea valorilor variabilei de la valoarea medie, probabilitatea apariției acestora este mai mică. Astfel, valorile abaterilor de la valorile medii, adică valorile formulei x (-x, transporta informații despre variația variabilelor studiate. Dacă toate valorile caracteristicilor au fost identice și coincideau cu valoarea medie, atunci totalitatea valorii acestui atribut ar fi extrem de omogenă.
De obicei, numărul abaterilor pozitive față de media aritmetică a populației este aproximativ egal cu numărul abaterilor negative, adică suma tuturor abaterilor tinde în mod inevitabil la zero. Prin urmare, dacă ar fi necesar să însumezi toate deviațiile caracteristicilor în agregate, această sumă ar fi întotdeauna egală cu zero:
Pentru a evita acest lucru, fiecare abatere este pătrată și se găsește suma pătratelor - varianța.
Distribuția normală este caracterizată pe deplin de parametrii: JC este valoarea medie a caracteristicii și a este abaterea standard. Media x determină poziția distribuției în raport cu axa x; deviația standard arată forma curbei; Cu cât valoarea a este mai mare, cu atât este mai mare curba și valoarea maximă este mai mică.
Aria de sub curba normală este localizată astfel încât 68% din întreaga distribuție a trăsăturii să se situeze în limitele x ± o, în limitele x ± 2