5. Principalele probleme ale statisticilor aplicate - testarea datelor, estimarea și testarea ipotezelor
Caracteristicile distribuției probelor
În plus față de funcția de distribuție empirică, alte caracteristici statistice sunt utilizate pentru a descrie datele. Ca valori medii ale eșantionului, media aritmetică de eșantionare este utilizată în mod consecvent, adică suma valorilor valorii considerate, obținută din rezultatele testului de eșantionare, împărțită la volumul său:
unde n este mărimea eșantionului, xi este rezultatul măsurării (testului) elementului eșantion i.
Un alt tip de medie de eșantion este mediana selectivă. Se determină prin statistici ordonate.
Ordinele statistice sunt membri ai seriei variate, care se obține dacă elementele eșantionului x1, x2, ..., xn sunt aranjate în ordinea descrescătoare:
În seria variantă, elementul x (k) se numește statistica comenzii k. Statisticile ordonate și funcțiile de la acestea sunt utilizate pe scară largă în metodele probabilisto-statistice de luare a deciziilor, în econometrie și în alte domenii aplicate [2].
mediana selectivă - rezultatul observației, care ocupă o poziție centrală într-o serie de variante, construit pe un eșantion cu un număr impar de elemente, sau jumătate din suma celor două rezultate de observare care ocupă două locații centrale ale variațiilor în număr, construite în eșantion cu un număr par de elemente. Astfel, dacă mărimea eșantionului n - numărul impar, n = 2k + 1, mediana, în cazul în care n = x (k +1) - un număr par, n = 2k. atunci valoarea mediană = [x (k) + x (k +1)] / 2, unde x (k) și x (k +1) sunt statistici ordinare.
Ca o măsură selectivă de dispersie a rezultatelor observațiilor, variația selectivă, deviația medie pătrată selectivă și intervalul de eșantionare sunt cele mai des folosite.
Conform [8], variația eșantionului s2 este suma pătratelor de deviații ale probei rezultate din media lor aritmetică, împărțită la dimensiunea eșantionului:
Abaterea medie pătrată a eșantionului s este rădăcina pătrată ne-negativă a varianței, adică
În unele surse literare, o varianță este numită varianță selectivă:
Diferă de s2 de un factor constant:
Corespunzător, deviația medie pătrată a eșantionului în aceste surse literare este cantitatea Apoi, evident,
Diferența dintre definiții conduce la o diferență între algoritmi de calcul, reguli de decizie și tabele corespunzătoare. Prin urmare, atunci când se folosește oricare dintre materialele normativ-tehnico-didactice-metodologice, produsele software, tabelele, este necesar să se acorde atenție metodei de determinare a caracteristicilor eșantionării.
Alegerea, nu s2. se datorează faptului că
unde X este o variabilă aleatoare având aceeași distribuție ca și rezultatele observațiilor. În ceea ce privește teoria estimării statistice, aceasta înseamnă că - o estimare imparțială a varianței (a se vedea mai jos). În același timp, statistica s2 nu este o estimare imparțială a varianței în rezultatele observațiilor, deoarece
Cu toate acestea, s2 are o altă proprietate care justifică utilizarea acestei statistici ca măsură selectivă de dispersie. Pentru rezultatele de observare cunoscute x1, x2, ..., xn, considerăm o variabilă aleatoare Y cu o distribuție a probabilității
și F (y = x) = 0 pentru toate celelalte x. Această distribuție de probabilități se numește empirică. Atunci funcția de distribuție Y este o funcție de distribuție empirică construită din rezultatele observațiilor x1, x2, ..., xn. Calculam așteptările matematice și varianța variabilei aleatoare Y:
A doua dintre aceste ecuații este baza utilizării s2 ca măsură selectivă de dispersie.
Observăm că așteptările matematice ale eșantionului înseamnă abaterile M (s) și M (s0), în general, nu sunt egale cu deviația teoretică medie pătrată # 963; De exemplu, dacă X are o distribuție normală, dimensiunea eșantionului este n = 3, apoi
În plus față de caracteristicile statistice enumerate mai sus, matricea R este utilizată ca factor de dispersie selectivă, diferența dintre statisticile n-a și prima ordine din eșantionul volumului n. și anume diferența dintre valorile cele mai mari și cele mai mici din eșantion: R = x (n) - x (1).
Într-o serie de metode statistice probabilitate, sunt utilizați și alți factori de dispersie. În special, metodele de control al proceselor statistice utilizează intervalul mediu - media aritmetică a leagănilor obținute într-un anumit număr de eșantioane de același volum. Distanța între distanțe este de asemenea populară. distanța dintre Cuartilele eșantionare x ([0,75n]) și x ([0,25n]) de ordinul a 0,75 și 0,25, respectiv, în cazul în care [0,75n] - integer parte 0,75n. și [0.25n] este partea intregă a numărului 0.25n.