Atšķirība starp standarta novirzi un standarta kļūdu

Ievads

Standarta Dnovirze (SD) un Standard Ešausmas (SE) ir šķietami līdzīgas terminoloģijas; tomēr tie ir konceptuāli tik dažādi, ka statistikas literatūrā tiek izmantoti gandrīz aizvietojami. Abus apzīmējumus parasti apzīmē plus-mīnus simbols (+/-), kas norāda uz faktu, ka tie definē simetrisku vērtību vai apzīmē vērtību diapazonu. Vienmēr abi termini parādās ar izmērīto vērtību kopas vidējo (vidējo) lielumu.

Interesanti, ka SE nav nekā kopīga ar standartiem, ar kļūdām vai ar zinātnisko datu paziņošanu.

Sīki izpētot SD un SE izcelsmi un paskaidrojumus, tiks atklāts, kāpēc gan profesionāli statistiķi, gan tie, kas to izmanto pavirši, mēdz kļūdīties.

Standarta novirze (SD)

SD ir a aprakstošs statistika, kas raksturo sadalījuma izplatību. Kā metrika ir noderīga, ja dati parasti tiek izplatīti. Tomēr tas ir mazāk noderīgi, ja dati ir ļoti šķībi vai bimodāli, jo tie ļoti labi neapraksta sadalījuma formu. Parasti, ziņojot par izlases īpašībām, mēs izmantojam SD, jo mēs to vēlamies aprakstīt cik daudz datu svārstās ap vidējo. Cita noderīga statistika datu izplatības aprakstīšanai ir starpkvartilu diapazons, 25. un 75. procentiļi un datu diapazons..

1. attēls. SD ir datu izplatības mērs. Ja dati ir paraugs no normāli sadalīta sadalījuma, tad sagaida, ka divas trešdaļas datu atradīsies vidējā vidējā līmeņa 1 standartnovirzes robežās..

Dispersija ir a aprakstošs arī statistiku, un to definē kā standartnovirzes kvadrātu. Raksturojot rezultātus, tas parasti netiek ziņots, taču tā ir matemātiskāk izsekojama formula (t.sk. kvadrātu noviržu summa) un tai ir nozīme statistikas aprēķināšanā..

Piemēram, ja mums ir divi statistikas dati Lpp & Q ar zināmām variācijām var(P) & var(Q), tad summas dispersija P + Q ir vienāds ar dispersiju summu: var(P) +var(Q). Tagad ir redzams, kāpēc statistiķiem patīk runāt par dispersijām.

Bet standarta novirzēm ir svarīga izplatīšanās nozīme, it īpaši, ja dati parasti tiek izplatīti: Intervāla vidējais +/ - 1 SD var sagaidīt, ka tā uztvers 2/3 parauga, un intervāla vidējais +- 2 SD var sagaidīt, ka tā uztvers 95% parauga.

SD sniedz norādi par to, cik lielā mērā individuālās atbildes uz jautājumu atšķiras vai “novirzās” no vidējā. SD stāsta pētniekam, cik izkliedētas ir atbildes - vai tās koncentrējas ap vidējo, vai ir izkliedētas tālu un plaši? Vai visi jūsu respondenti novērtēja jūsu produktu jūsu skalas vidū, vai daži to apstiprināja, un daži to noraidīja?

Apsveriet eksperimentu, kurā respondentiem tiek lūgts novērtēt produktu ar atribūtu sēriju 5 ballu skalā. Desmit respondentu grupai (ar zemu atzīmi “A” līdz “J”) vidējā vērtība “laba naudas vērtība” bija 3,2 ar SD 0,4 un vidējā “produkta uzticamība” bija 3,4 ar SD 2,1..

No pirmā acu uzmetiena (aplūkojot tikai līdzekļus) šķiet, ka uzticamība tika novērtēta augstāk par vērtību. Bet augstāks SD ticamībai varētu norādīt (kā parādīts zemāk esošajā sadalījumā), ka atbildes bija ļoti polarizētas, kur lielākajai daļai respondentu nebija uzticamības problēmu (novērtēja atribūtu “5”), bet mazākam, bet nozīmīgam respondentu segmentam bija uzticamības problēmu un novērtēja atribūtu “1”. Aplūkojot tikai jēgu, stāsta tikai daļu no stāsta, tomēr, uz ko pētnieki koncentrējas, visbiežāk. Ir svarīgi ņemt vērā atbilžu sadalījumu, un SD ir vērtīgs to aprakstošs pasākums.

Atbildētājs Laba naudas vērtība Produkta uzticamība
A 3 1
B 3 1
C 3 1
D 3 1
E 4 5
F 4 5
G 3 5
H 3 5
Es 3 5
3 5
Nozīmē 3.2 3.4
Std. Dev. 0,4 2.1

Pirmais apsekojums: Respondenti novērtē produktu 5 punktu skalā

Diviem ļoti atšķirīgiem atbildes sadalījumiem uz 5 ballu vērtējumu skalu var iegūt vienādu vidējo vērtību. Apsveriet šo piemēru, kurā parādītas divu dažādu vērtējumu atbildes vērtības.

Pirmajā piemērā (vērtējums “A”) SD ir nulle, jo VISAS atbildes bija tieši vidējās vērtības. Individuālās atbildes nemaz neatšķīrās no vidējā.

Vērtējumā “B”, kaut arī grupas vidējais rādītājs ir tāds pats (3.0) kā pirmajam sadalījumam, standartnovirze ir augstāka. Standarta novirze 1,15 parāda, ka individuālās atbildes, vidēji *, bija nedaudz vairāk nekā 1 punkta attālumā no vidējās.

Atbildētājs Vērtējums “A” Vērtējums “B”
A 3 1
B 3 2
C 3 2
D 3 3
E 3 3
F 3 3
G 3 3
H 3 4
Es 3 4
3 5
Nozīmē 3.0 3.0
Std. Dev. 0,00 1.15

Otrais apsekojums: Respondenti novērtēja produktu 5 punktu skalā

Vēl viens veids, kā aplūkot SD, ir sadalījums kā atbilžu histogramma. Sadalījums ar zemu SD tiktu parādīts kā gara šaura forma, savukārt liels SD būtu norādīts ar plašāku formu.

SD parasti nenorāda uz “pareizu vai nepareizu” vai “labāku vai sliktāku” - zemāks SD ne vienmēr ir vēlamāks. To izmanto tikai kā aprakstošu statistiku. Tas raksturo sadalījumu attiecībā pret vidējo.

Ttehniska atruna attiecībā uz SD

SD domāšana par “vidējo novirzi” ir lielisks veids, kā konceptuāli izprast tās nozīmi. Tomēr to faktiski neaprēķina kā vidējo (ja tas būtu, mēs to sauktu par “vidējo novirzi”). Tā vietā tā ir “standartizēta”, diezgan sarežģīta metode vērtības aprēķināšanai, izmantojot kvadrātu summu.

Praktiskiem nolūkiem aprēķins nav svarīgs. Lielākā daļa tabulas programmu, izklājlapu vai citu datu pārvaldības rīku aprēķinās SD jums. Vēl svarīgāk ir saprast, ko statistika sniedz.

Standarta kļūda

Standarta kļūda ir secinošs statistika, kas tiek izmantota, salīdzinot paraugu vidējos rādītājus (vidējos rādītājus) starp populācijām. Tas ir mērs precizitāte no parauga vidējā. Izlases vidējais rādītājs ir statistika, kas iegūta no datiem, kuriem ir pamatā esošais sadalījums. Mēs to nevaram iztēloties tāpat kā datus, jo mēs esam veikuši vienu eksperimentu un mums ir tikai viena vērtība. Statistikas teorija mums saka, ka parauga vidējais lielums (lielam “pietiekami” paraugam un dažās regularitātes apstākļos) ir aptuveni parasti sadalīts. Šī normālā sadalījuma standartnovirze ir tā saucamā standarta kļūda.

2. attēls. Sadalījums apakšā reprenorāda datu sadalījumu, turpretī sadalījums augšdaļā ir vidējais izlases teorētiskais sadalījums. SD 20 ir datu izplatības mērs, savukārt SE 5 ir nenoteiktības mērs ap parauga vidējo.

Kad mēs vēlamies salīdzināt ārstēšanas rezultātu A un ārstēšanas B divu izlases rezultātu rezultātus, tad mums jānovērtē, cik precīzi mēs esam izmērījuši vidējos.

Patiesībā mūs interesē, cik precīzi mēs esam izmērījuši atšķirību starp diviem līdzekļiem. Mēs to saucam par atšķirības standarta kļūdu. Jums var nebūt pārsteigums, uzzinot, ka izlases vidējās starpības standarta kļūda ir līdzekļu standarta kļūdu funkcija:

Tagad, kad esat sapratis, ka vidējā standarta kļūda (SE) un sadalījuma standartnovirze (SD) ir divi dažādi zvēri, jums, iespējams, rodas jautājums, kā viņi vispirms tika sajaukti. Lai arī tās atšķiras konceptuāli, tām matemātiski ir vienkāršas attiecības:

,kur n ir datu punktu skaits.

Ievērojiet, ka standarta kļūda ir atkarīga no diviem komponentiem: parauga standartnovirzes un parauga lieluma n. Tam ir intuitīva jēga: jo lielāka ir parauga standartnovirze, jo mazāk precīzi mēs varam būt mūsu patiesā vidējā stāvokļa aprēķini.

Turklāt, jo liels izlases lielums, jo vairāk informācijas mums ir par iedzīvotājiem un jo precīzāk mēs varam noteikt patieso vidējo lielumu.

SE ir vidējā ticamības rādītājs. Neliela SE ir norāde, ka vidējais izlases veids ir precīzāks vidējā iedzīvotāju skaita atspoguļojums. Lielāks parauga lielums parasti rada mazāku SE (kamēr SD paraugu lielums tieši neietekmē).

Lielākā daļa aptaujas pētījumu ir saistīti ar parauga ņemšanu no iedzīvotājiem. Pēc tam no šī parauga rezultātiem tiek izdarīti secinājumi par populāciju. Ja tika sastādīts otrais paraugs, rezultāti, iespējams, precīzi neatbilst pirmajam paraugam. Ja reitinga atribūta vidējā vērtība vienam paraugam bija 3,2, otrajam tāda paša izmēra paraugam tā varētu būt 3,4. Ja mēs no mūsu populācijas ņemtu bezgalīgu skaitu paraugu (vienāda lieluma), mēs varētu parādīt novērotos līdzekļus kā sadalījumu. Pēc tam mēs varētu aprēķināt visu mūsu izlases vidējo vērtību. Šis vidējais skaitlis būtu vienāds ar patieso vidējo iedzīvotāju skaitu. Varam arī aprēķināt izlases līdzekļu sadalījuma SD. Šī izlases vidējā sadalījuma SD ir katra atsevišķa izlases vidējā vērtība.

Tādējādi mums ir vissvarīgākais novērojums: SE ir iedzīvotāju vidējā SD.

Paraugs Nozīmē
1 3.2
2 3.4
3 3.3
4 3.2
5 3.1
… . … .
… . … .
… . … .
… . … .
… . … .
Nozīmē 3.3
Std. Dev. 0,13

Tabula, kas ilustrē SD un SE saistību

Tagad ir skaidrs, ka, ja šī sadalījuma SD palīdz mums saprast, cik tālu parauga vidējais lielums ir no patiesā vidējā populācijas vidējā, tad mēs to varam izmantot, lai saprastu, cik precīzi jebkura individuālā parauga vidējie rādītāji ir attiecībā pret patieso vidējo. Tāda ir SE būtība.

Faktiski no mūsu populācijas mēs esam izveidojuši tikai vienu paraugu, taču šo rezultātu mēs varam izmantot, lai sniegtu mūsu novērotā parauga vidējās vērtības ticamības novērtējumu..

Patiesībā SE mums saka, ka mēs varam būt 95% pārliecināti, ka mūsu novērotā izlases vidējā vērtība ir plus vai mīnus aptuveni 2 (faktiski 1,96) Standarta kļūdas no populācijas vidējā līmeņa.

Zemāk redzamā tabula parāda atbilžu sadalījumu no mūsu pirmā (un vienīgā) parauga, ko izmantojām mūsu pētījumiem. SE 0,13, kas ir salīdzinoši mazs, dod mums norādi, ka mūsu vidējais rādītājs ir salīdzinoši tuvu patiesajam vidējam rādītājam uz mūsu kopējo iedzīvotāju skaitu. Kļūdas robeža (ar 95% ticamību) mūsu vidējam līmenim ir (aptuveni) divreiz lielāka nekā šī vērtība (+/- 0,26), norādot, ka patiesais vidējais lielums, visticamāk, ir no 2,94 līdz 3,46.

Atbildētājs Vērtējums
A 3
B 3
C 3
D 3
E 4
F 4
G 3
H 3
Es 3
3
Nozīmē 3.2
Std. Err 0,13

Kopsavilkums

Daudzi pētnieki nesaprot atšķirību starp standarta novirzi un standarta kļūdu, kaut arī tos parasti iekļauj datu analīzē. Lai gan faktiskās standartnovirzes un standarta kļūdas aprēķini izskatās ļoti līdzīgi, tie attēlo divus ļoti atšķirīgus, bet papildinošus pasākumus. SD stāsta par mūsu sadalījuma formu, cik tuvu individuālās datu vērtības ir no vidējās vērtības. SE mums saka, cik tuvu mūsu izlases vidējā vērtība ir patiesajam vidējam skaitam starp visiem iedzīvotājiem. Kopā tie palīdz radīt pilnīgāku ainu, nekā mums to var pateikt tikai ar vidējo.