Verificarea fiabilității estimărilor parametrilor unui model de regresie liniară cu două variabile

Să avem un set de valori (un set de date, observații) a două variabile. .

De fapt, pentru același X putem observa diferite valori ale lui Y.

Exemplul 3.11. Dacă X este vârsta lucrătorului și Y este salariul său, atunci lucrătorii de aceeași vârstă pot avea un salariu realist.

Exemplul 3.12. Dacă X este venitul familiei și Y este cheltuielile familiei pentru alimente, atunci familiile cu același venit pot cheltui, de fapt, sume diferite pe alimente.

Alegerea compoziției și a formulei pentru variabilele de cuplare se numește specificația modelului (specificația ecuației de regresie).

Specificația modelului reflectă conceptul nostru de mecanism al dependenței lui Y de X și alegerea variabilei explicative X în sine.

De exemplu, Keynes a propus următoarea formulă pentru dependența consumului privat (individual) de "C" de venitul disponibil "":

,

- valoarea consumului autonom;

- marginală tendință de a consuma.

În acest caz, se alege o formulă liniară. Cu toate acestea, până când valorile cantitative ale parametrilor sunt estimate și b. Fiabilitatea estimărilor efectuate nu a fost verificată. această formulă rămâne doar o ipoteză. Estimarea valorilor parametrilor formulei alese de cuplare statistică a variabilelor se numește parametrizare a ecuației de regresie și se realizează prin metoda celor mai mici pătrate.

Cum putem verifica fiabilitatea estimărilor parametrilor?

Vom scrie ecuația modelului. reflectând dependența de. în forma:

- valorile variabilelor și erorilor în observația i;

- nonrandom (deterministic);

- valorile reale ale parametrilor modelului.

Ecuația (3.6) este specificația modelului.

Care este natura erorii?

Se presupune, de obicei, că toate perturbațiile care afectează variabila explicată și care nu sunt luate în considerare explicit în modelul econometric exercită un anumit efect asupra variabilei explicate. a căror valoare nu este cunoscută în prealabil și este asociată cu aleatorie. Pentru ao descrie, o componentă aleatorie ("Xe") este adăugată la model (de obicei aditiv), integrând influența tuturor celor care nu au fost explicate explicit în modelul de perturbare.

Cele mai importante motive pentru prezența obligatorie în modelele aleatoare sunt următoarele:

1. Includerea tuturor variabilelor explicative în model.

Modelul nostru este o simplificare a realității și, de fapt, există încă alte variabile (variabile lipsă) pe care depinde Y.

Salariul, de exemplu, poate depinde nu numai de vârsta angajatului, ci și de nivelul de educație al angajatului, experiența de muncă, sexul, tipul de firmă (publică, privată) etc.

Cheltuielile pentru hrană - nu numai pe venitul familiei, ci și pe mărimea familiei, nivelul general al prețurilor, regiunea de reședință etc.

2. Dificultăți în măsurarea datelor (există erori de măsurare în date).

De exemplu, datele privind cheltuielile familiale pentru alimente se fac pe baza înregistrărilor participanților la sondaj, care ar trebui să înregistreze cu atenție cheltuielile zilnice. Desigur, pot exista erori.

3. Limitări ale volumului datelor statistice (volum limitat al gamei de observații).

Componenta este manifestarea sumară a tuturor acestor motive.

Astfel, putem presupune că - o variabilă aleatoare cu o anumită funcție de distribuție, care corespunde funcției de distribuție a unei variabile aleatoare. Rețineți că estimările parametrilor modelului. fiind funcții ale observațiilor aleatoare, sunt, de asemenea, variabile aleatorii.

Din ecuația de regresie estimată, valoarea estimată la punct (prognoza valorii la momentul respectiv) este:

,

- estimarea valorilor reale ale parametrilor. modelul (3.6) (estimări ale parametrilor de regresie).

Rămasurile de regresie (deviațiile valorilor teoretice din observabile) sunt determinate din ecuația:

.

Nu confunda regresiile rămase cu erorile de regresie din ecuația modelului. Diferența este că rămășițele. spre deosebire de erori. sunt observabile.

Reziduurile regresiei sunt valorile de eroare observate în ecuația modelului.

Verificarea fiabilității estimărilor parametrilor modelului presupune:

- verificarea semnificației statistice a estimărilor parametrilor modelului;

- Intervale de încredere pentru parametrii modelului.

Studiul t-test pentru a testa semnificația estimărilor parametrilor de regresie determinați prin metoda celor mai mici pătrate

Se poate demonstra că estimările parametrilor determinate prin metoda celor mai mici pătrate sunt distribuite în conformitate cu legea normală de distribuție.

Determinați varianța estimărilor parametrilor de regresie.

Pentru a face acest lucru, trebuie să știți varianța erorilor.

Dar, deoarece în practică, de regulă, dispersia erorilor este necunoscută și este estimată din observații simultan cu estimarea parametrilor de regresie. În loc de variația estimărilor, putem obține doar estimări ale varianței estimărilor.

1. Aprecierea impartiala a variatiei erorilor:

,

- reziduuri de regresie (deviații ale valorilor teoretice din observabile)

;

- i este punctul de pe linia de regresie, care corespunde valorii observate;

n este dimensiunea eșantionului (numărul de observații);

k este numărul de parametri evaluați (în cazul regresiei perechilor, deoarece sunt evaluați doi parametri: i).

2. Estimări ale variației estimărilor parametrilor de regresie:

;

- evaluarea estimărilor de variație;

- evaluarea estimărilor de variație;

- media eșantionului este X.

Estimările abaterilor standard (estimări ale erorilor standard) ale estimărilor parametrilor de regresie, care sunt date în rezultatele regresiei în pachetele statistice, se calculează pe baza acestor formule:

.

Notă. Să presupunem că studiem dependența Y de X și numărul de observații n este dat, dar putem alege un set. Cum să alegeți astfel încât precizia estimării coeficientului unghiular să fie mai mare? Estimarea variației estimării este dată de formula (3.7), din care se poate observa că cea mai mare. cu atât este mai mică valoarea estimării varianței. Prin urmare, este de dorit să alegeți astfel încât răspândirea lor în jurul valorii medii să fie mare.

Articole similare