Viri

Tipska analiza

Študenti, ki nimajo veliko izkušenj s statistično analizo anketnih podatkov, imajo lahko v odgovarjajočem empiričnem delu težave. V tem okviru so v nadaljevanju podana elementarna navodila, kako pristopiti k tipski analizi.

Poudariti velja, da spodnje besedilo v osnovi zgolj dopolnjuje podpoglavje Statistične analize, kjer je problematika celovito obravnavana. Kot rečeno, je pričujoče gradivo namenjeno predvsem za specifične skupine študentov, ki nimajo izkušenj s konkretno empirično analizo podatkov v družboslovju.

Dodati velja, da je v pogledu tabel in grafov smiselno upoštevati tudi podpoglavje Tabele in grafi, v pogledu analize in interpretacije pa tudi podpoglavji Analitičnost in Argumentacija in interpretacija, kot tudi ostale usmeritve glede pisanja raziskovalnih poročil.

Za začetnika je posebej primerno, če analizo izvaja ob tesnem zgledovanju na nek dober primer, kjer je razvidna ne le sama statistična analiza, ampak tudi uvod, opis metodologije, vzorca itd, kar vse mora biti seveda ustrezno vključeno. V tem okviru lahko navedemo naslednje zglede:

Poročilo PRP, Evalvacijske študentske ankete UL: percepcija vprašalnika s strani študentov, poglavje 3.3, predvsem v konceptulanem smislu, saj ima v smislu formata še precej pomankljivosti.
Poročilo o aplikaciji OstaniZdrav za NIJZ.
Poročila o umetni inteligenci GenUI.
Poročilo o študetnskih anketah UL na prvih dveh stopnjah in tretji stopnji.
Poročilo RIS (tabele analiz določene ciljne spremenljivke po več kontrolnih spremenljivkah hkrati), posebej stran 26 (tabela, kjer je več ciljih spremenljivk hkrati analiziranih po več kontrolnih spremenljivkah),
Poročila pri predmetu PRP (nekatera sicer bolj, druga manj).

Preliminarna strateška odločitev: Zgornji zgledi so posebej pomembni, ker se moramo že na začetku odločiti za ustrezno strategijo glede splošnega preglednega prikazovanja tabel in grafov:

ali bomo v poročilo vključili le analizo vsake spremenljivke posebej (univariatna statistika), ali pa bomo prikazovali tudi kombinacije dveh (bivariatna analiza) ali morda celo več spremenljivk hkrati (multivariatna analiza);
ali bomo izbrane analize (univariatne, bivariatne) prikazovali v tabelah ali grafih. Pri enostavnih analizah se pogosto odločimo zgolj za grafični prikaz univariatnih analize, pri bolj celovitih poročilih pa za grafični prikaz univariatnih analiz ter za tabelarični prikaz bivariatnih analiz (kontrolne tabele). Lahko pa izberemo tudi kakšno drugo kombinacijo, npr. tabele za univariatno in bivariatno analizo ali pa tabele in grafe za univariatno analizo ter zgolj tabele za bivariatno analizo, ipd. Lahko tudi v osnovni analizi prikažemo le univariatno analizo ter zgolj poročamo o morebitnih učinkih pri analizi kontrolnih spremenljivk, ne da bi prikazali odgovarjajoče tabele ali grafe; tabele zgolj priložimo v prilogi (glej primer tukaj).

Preliminarna odločitev o strukturi: Še pred začetkom moramo predvideti strukturo. Dober primer strukture je raziskava o aplikaciji OstaniZdrav, ki jo velja – smiselno in razumno prilagojeno ter poenostavljeno, upoštevajoč še ostale zgornje zglede – narediti v urejevalniku besedila še preden se lotimo analize.

Splošno priporočilo: Pri analizah anketnih podatkov – smiselno pa velja to upoštevati tudi za druge podatke – se pogosto soočamo z osnovnim vprašanjem, kako analizirati določen sklop vprašanj, za katerega imamo zbrane odgovore na vzorcu enot. Sklop običajno vključuje določena ciljna vsebinska oziroma problemska vprašanja (npr. politična vprašanja, sociološka vprašanja ipd.) ter demografijo oziroma kontrolne spremenljivke (spol, starost, izobrazba ipd.).

V nadaljevanju je podan prikaz tipskega poteka tovrstne statistične analize. Krepko poudarjeno besedilo lahko služi tudi kot opomnik za preverjanje, če smo upoštevali najbolj pomembne usmeritve.

Kot prvo velja upoštevati, da moramo podatke obravnavati sistematično, tako da ne izpustimo nobenih pomembnih vprašanj, hkrati pa sledimo nekemu vsebinskemu konceptu oziroma smiselnem zaporedju sklopov. Analiz torej ne izvajamo povsem mehanično, npr. kot enostavno zaporedje vprašanj iz vprašalnika ali celo iz računalniškega izpisa opisnih statistik. Vsako spremenljivko – če se pri tem naknadno izkaže, da kakšna od spremenljivk v bistvu ni pomembna ali je narobe izmerjena, jo lahko tudi izpustimo – pa nato sistematično obdelamo v skladu s spodnjimi priporočili.

Pomembno opozorilo: Običajna predpostavka je, da naši podatki temeljijo na verjetnostnem vzorcu. Če imamo opravka z neverjetnostnim vzorcem ali populacijo, so potrebne prilagoditve /- glej Neverjetnosnti vzorci, Statistične analize (točka 4).

1) Osnovna analiza: Najprej predstavimo bistvene opisne statistike, in sicer:

za razmernostne, intervalne in običajno tudi za ordinalne spremenljivke uporabimo povprečja (morda tudi standardni odklon):
pri kategorialnih (ordinalne in nominalne) spremenljivkah predstavimo odstotke (deleže) oziroma frekvence. Pri tem v tabelah, če je le mogoče, praviloma vedno predstavljamo odstotke (deleže), absolutne frekvence pa običajno navedemo zgolj na nivoju odgovarjajočih vsot (100%). Samo kadar gre v vsebinskem smislu za zelo pomembne količine, poleg vsakega deleža (odstotka) navedemo še absolutno vrednost. Le res v zelo izjemnih primerih pa predstavljamo zgolj absolutne frekvence, brez deležev. Prikaz kategorij v tabeli oziroma grafu praviloma razvrstimo (sortiramo) od največjih do najmanjših.

	Spolna struktura
Moški	58 %
Ženske	42 %
Skupaj	100 %

V primeru razmernostne spremenljivke je lahko predstavitv naslednja, pri čemer je lahko orientacija tudi vodoravna. Seveda pa je potrebno skrbno razmisliti, ali res potrebujemo tako podobne opisne statistike (pogosto zadošča že povprečje):

	Spremenljivka1
Povprečje	4.2
Standarni odklon	0.8
Minimum	3
Maksimum	5
Mediana	4

Zelo pomembno je, da smo pri interprataciji čim bolj lakonični, vendar izčrpni in ne navajamo odvečnih številk. Še bolj pomembno je, da številk ne ponavljamo. Nekatera specializirana analitična podjetja celo prepovedujejo, da bi se številka iz tabele ali grafa sploh še ponovila v besedilu. Tam namreč navedemo le pojasnilo oziroma vsebinsko interpratacijo.

Bistveno torej je, da vse odstotke v tabelah in grafih ne interpretiramo kar mehanično, ampak vsebinsko, v kontekstu NAJBOLJ VERJETNIH interpretacij, kjer pokažemo poznavanje problematike in tudi svojo družboslovno imaginacijo. Le je npr v naši tabeli 60 % moških in le 40 % žensk, potem poiščemo razlog oziroma vsebinsko interptracijo, npr. na določenem študiju je več fantov, ker je študij zelo tehničen, kar je bolj privlačno za moške. Glej Analitičnost.

V primeru ocenjevanja na lestvici 1 – 5 (ordinalna spremenljivka) je posebej primerna spodnja sumarna tabela, ki zavzema zelo malo prostora, hkrati pa na enem mestu vsebuje vse podrobne informacije (odstotke, povprečja, numerus), ki so potrebne za univariatne statistike, za več spremenljivk hkrati. Pri tem združimo več podobnih spremenljivk v eno tabelo (posebej če gre za podvprašanja). Pogosto pa nas taka natančnost – podrobsni odstotki za pet kategorij – niti ne zanima in damo takšno tabelo v prilogo, v glavnem poročilu pa navedemo le zadnja dva stolpca, število enot in povprečja.

Vprašanje	Odgovori (%)						Enot	Povprečje
	1	2	3	4	5	Skupaj
Podvprašanje 1	30	20	20	10	20	100	213	2.7
Podvprašanje 2	10	10	10	50	20	100	267	3.6
Skupaj	18	13	13	35	20	100	480	3.3

Ne glede na analizo pa povsod upoštevamo tehnična priporočila:

- Odstotke praviloma pišemo brez decimalke, npr. 75 % in torej ne 75.1 %.
- Številke in povprečja, posebej na lestvicah (npr. 1-5), praviloma pišemo oziroma zaokrožimo na eno decimalko, npr. 4.1 in torej ne 4. 12,

Seveda so tudi izjeme; v nekaterih statističnih poročilih npr. zahtevamo, ne glede na decimalke, navajanje prvih pet neničelnih cifer.

Opozorilo: tu prikazane tabele služijo zgolj konceptualni predstavitvi, za natančen format (npr. naslov, lestvice, glavo,orientacijo ipd) glej ustrezna navodila (Tabele in grafi).

2) Enostavni grafični prikaz: Namesto tabel – izjemoma lahko tudi hkrati (odvisno od okoliščin) – podatke predstavljamo grafično. V običajnem poročilu lahko z grafi lahko tudi povsem nadomestimo tabele, lahko pa omejimo grafe predvsem za ključne poudarke.

Opozorilo: tu prikazane tabele služijo zgolj konceptualni predstavitvi, za natančen format (npr. naslov, lestvice, glavo,orientacijo ipd) glej ustrezna navodila (Tabele in grafi).

Še bolj primerno je, da grafe uporabimo zgolj za bolj kompleksne prikaze (glej točko 4). Vsekakor običajno v osrednjem poročilu ne navajamo hkrati za iste podatke tabele in grafe, čeprav lahko obstajajo tudi take situacije: z gragom želimo doseči učinkovit in hitro razumljiv prikaz, s tabelo pa zagotavljamo podrobnosti.

Če so tabele bolj natančne in imajo informacijo, ki v grafu ni razvidna, hkrati pa ni bitvena, tabele praviloma priložimo v Dodatku (Appendix).

Lahko se sicer odločimo in prikazujemo vse rezultate izključno grafično, kar je pogosto predvsem za kratke medijske, mnenjske in promocijske predstavitve. Posebej so primerni stolpci (in ne krogi) ter radarji. V primeru ordinalnih, intervalnih, razmernostnih spremenljivk (npr. časovnih) lahko uporabimo tudi poligonsko črto (nikakor pa ne v primeru nominalnih spremenljivk!). Z grafi ne gre pretiravati in jih delati mehanično.

Dodati velja, da v določenih primerih univariatnih analiz – torej enostavnih tabel oziroma grafov – tega sploh ne izvajamo, ampak jih prikažemo kar kot del (npr. zadnji sumarni stolpec v tabeli) bivariatnih analiz (glej točko 3).

V primeru, da imamo več spremenljivk, lahko njhovo univariatne prikaze v grafu združimo. Če so to odstotki, prikažemo odgovarjajoče deleže.

Pomembno – začetek lestvic na grafih: začnemo pri izhodišču oziroma minimumu, npr. pri 1 za mnenja 1-5 (in ne z 0) oziroma pri 0 za deleže (in ne npr. pri 30%).

Če pa želimo skupaj prikazati zgolj povprečja (ker podrobni deleži niso pomembno) za več spremenljivk, jih lahko uredimo tudi v enostavno grafično obliko.

Pri vsaki tabeli in vsakem grafu tudi navedemo morebitno filtriranje oziroma pogoj, kadar je bilo vprašanje izvedeno na podzvorcu (npr. zgolj ženske, uporabniki družbenih omrežij ali respondenti, ki so pred tem navedli, da določen problem poznajo).

3) Analiza po kontrolnih spremenljivkah: Kot strokovnjaki za področje, ki ga proučujemo, moramo na osnovi teorije in literature vedeti, kateri so ključni kontrolni dejavniki (npr. starost, spol, izobrazba) za naš proučevani problem. Če je npr. spol ključen, moramo vse pomembne ciljne spremenljivke preveriti za moške in ženske; običajno to naredimo v ustrezno orientirani tabeli – neodvisne spremenljivke (npr. spol, starost) navpično, vodoravno pa odstotki oziroma povprečja (ene ali več) odvisne spremenljivke.

Že v zasnovi raziskavo zato identificiramo kontrolne spremenljivke:

katere kontrolne spremenljivke sploh imamo in katere so za nas pomembne in tudi primerne za analizo;
presodimo, katere kategorije izbranih spremenljivk so primerne za določeno kontrolno spremenljivko – morajo namreč biti pomembne, relevantne in dovolj velike (praviloma vsaj 10 enot, res zelo izjemoma do 4 ali 2), zato je treba kategorije združevati (npr. višja in visoka izobrazba), še posebej, če se ciljne spremenljivke v sosednjih kategorijah obnašajo podobno; lahko pa kakšno majhno in nepomembno kategorijo tudi izpustimo.

Ravno tako moramo uvodoma skrbno pregledati, katere so naše ciljne (odvisne) spremenljivke:

na osnovi vsebinske presoje identificiramo ključne ciljne spremenljivke, za katere bomo izvedli analizo po kontrolnih spremenljivkah;
nato po tehtnem premisleku za vsako od ciljnih spremenljivk presodimo, kateri parameter uvrstimo v kontrolno tabelo. To je največkrat povprečje, mediana, standardni odklon oziroma izbrani odstotek ali vsota odstotkov.

Na tej osnovi naredimo ustrezne bivariatne analize, npr. dvorazsežne (kontingenčne) tabele (angl. contintgency tables) ali povprečja po skupinah (angl. means), kjer analiziramo, če imajo kontrolne spremenljivke učinek na ciljne spremenljivke. V primeru interakcij lahko v stolpce vključimo celo več kontrolnih spremenljivk hkrati, npr. moški iglede na tri starostne skupine, ter ženske glede na tri starostne skupine.

Kontrolne tabele seveda delamo zato, da ugotovimo, kje nastajajo razlike, npr, ali je podpora določenemu vprašanju večja pri moških kot pri ženskah. V tem pogledu opazujemo predvsem relativne razlike (glej podrobnosti Statistične analize, točka 3), posebej, če znašajo 20 %, pa tudi 10 % ali 5 %.

Za kakovostno analizo lahko izvedemo tudi ustrezno preverjanje domnev (hi kvadrat, analiza variance ali t-test) in nato v tabeli obarvamo statistično značilne celice (hi kvadrat, analiza variance) ali vrednosti (t-test), npr. kadar je vrednost- ali delež ciljne spremenljivke pri določeni kontrolni spremenljivki (npr. pri moških) značilno večji od povprečja. Lahko pa se namesto za obarvanje statistično značilnih razlik odločimo tudi za obarvanje relativnih razlik.

Zelo pomembno je tudi, da upoštevamo omejitve pri številu enot v celici, ki jo prikazujemo oziroma interpratiramo. Zaželeno je, da je v celici, ki jo interpretiramo 30 ali vsaj 10 enot. Če jih je manj, je to potrebno označiti in biti pri interprataciji posebej previden (npr. nakazuje se….). Za podrobnosti glej Problem premahnega števila enot.

Če povezanosti ni, podrobnih analiz in rezultatov včasih v osrdnjem poročilu niti ne navajamo, ampak to ugotovitev zgolj navedemo v analizi in tudi ob zaključku. Za zelo pomembne vidike pa seveda podrobno izvedemo celoten postopek preverjanja domneve, ali povezava obstaja ali ne.

Priporoča se, da spremenljivke za določen sklop obravnavamo v eni sami kontolrni tabeli oziroma v čimmanj tabelah, pri čemer vsaka tabela vključuje vsebinsko povezane ciljne spremenljivke. V spodnji tabeli je skupaj analiziranih pet ciljnih spremenljivk.

Kontrolna spremenljivka	Povprečja za ciljne spremenljivke						Enot
	Sprem1	Sprem2	Sprem3	Sprem4	Sprem5	Skupaj
Spol – M	5.0	3.1	3.1	3.1	3.1	3.4	213
Spol -Ž	2.1	3.1	2.1	3.1	3.1	2.6	267
Star do 30	4.1	4.1	4.1	4.1	3.6	4.0	267
Star 30-50	3.1	2.9	3.1	3.1	2.8	3.0	267
Star nad 50	2.1	2.1	2.1	1.8	1.9	2.0	267
Skupaj	3.1	3.1	2.7	3.4	2.8	3.3	480

Pri tem so kontrolne spremenljivke praviloma navpično kot npr. v poročilu RIS na strani 26, 23 in predvsem 26 (sploh je primerno si ogledati navedeno poročilo), pa tudi tabelo 7 v raziskavi o 1KA in tabelo 18.3 v poročilu o Študentskih anketah. Še več primerov in predlog je TUKAJ (predloge za kontrolne tabele>>.

Izjemoma so lahko kontrolne spremenljivke navedene tudi vodoravno, kot je navedeno spodaj, posebej v primerih, ko je ciljnih spremenljiv (npr. trditev) veliko ali pa imajo dolg opis, ki je neroden za celico v vrsticah.

Vprašanje	Odstotki (%) respondentov ki so ZA
	Moški	Ženske	Mlajši	Srednji	Starejši	n
Vprašanje. 1	20	40	20	30	10	300
Vprašanje 2	50	30	20	50	40	400

Zelo pomembno pri izdelovanju tabel je, da jih v poročilo – če je le mogoče (obstajajo tudi izjeme, ki pa morajo biti utemeljene) -, ne vrivamo kot slike, ampak kot tabele.

4) Izdelava naprednih grafičnih prikazov. Bivariatne analize lahko posebej učinkovito prikažemo grafično (npr. povprečna plača po regijah, delež uporabnikov interneta po starostnih skupinah, povprečja po spolu ipd.). Podobno kot v primeru enostavnih analiz praviloma hkrati ne prikazujemo tabel in grafov, ampak tabele, če je to potrebno, dodamo v Prilogo (Appendix). Če nismo izkušeni, so primernejše tabele, saj so grafi bolj zahtevni.

Ponoviti velja, da je treba na samem začetku poročila določiti strategijo glede grafov in tabel. Lahko imamo namreč grafe in tabelo tako za univaritno in tudi za bivariatno analizo. Lahko pa izberemo le en par, npr. graf za univariatino analizo, tabela pa za multivariatno, kar tudi priporočamo. V vsakem primeru pa morajo biti vse tabele (univariatne in bivariatne) nekje dokumenteirane (če niso v glavnem poročilu, pa v prilogi). Kot rečeno, je v tem pogledu bistveno izbrati dober zgled. V pogledu izbora tabel in grafov dodatno upoštevamo:

- Tabele: najprej naredimo rutinsko univariatno analizo in (bivariatno) analizo glede na vnaprej definirane kontrolne spremenljivke (spol, starost …), šele na to se odločamo za morebitne dodatne bivariatne analize, glede na vsebino problema. Pri tem se strogo držimo logike vzročnosti – kategorije spremenljivke, ki je vzrok, so vodoravno (npr. koliko je podpore ta neko stališče med M v eni vrstici in koliko med Ž v drugi vrstici), tako kot je to v osnovni postavitvi kontrolnih tabel.
- Grafi: odločimo se torej za neko strategijo, npr. grafi bodo (ali ne) pri univariatni analizi in bodo (ali ne) pri bivaraitnih analizi. Lahko nimamo nobenega grafa, ne za univariatne ne za bivariatne analize (ampak samo tabele). In obratno, imamo lahko samo grafe, nobene tabele. Niso nujni, so pa seveda zelo učinkoviti. Lahko jih dodamo sistematično povsod, na osnovi naše odločitve, lahko pa le tam, kjer ocenimo, da so učinkoviti. Vse to je odvisno od narave poročila.

5) Primerjava s prejšnjim leti in drugimi raziskavami: če imamo podatke za prejšnja leta ali rezultate kakih drugih raziskav, jih obvezno prikažemo v dodatni skupni pregledni tabeli. V primeru podatkov po letih je posebej primeren poligon povprečij (ali odstotkov) za različna leta. V primeru, da imamo za vsako leto več ordinalnih/razmernostnih kategorij (npr. slabo, srednje, dobro), potem lahko za vsako leto naredimo svojo linijsko črto (torej je na abscisi kategorija in ne leto). Če kategorije niso urejene, je primernejši radar, kjer so na krakih kategorije, na linijah pa leta.

Pomembno: Pri analizi je torej smiselno in običajno tudi potrebno, da uporabimo vseh pet zgoraj prikazanih komponent analize. Praviloma bodo torej v poročilu skoraj vedno nastopile vse točke 1-5. Pri tem pa bo formalna struktura poglavij takšna le izjemoma.

V vsakem primeru pa ob točkah 1-5 vedno podajamo celovito interpretacijo:

celotno statistično interpretacijo, ki pa ne sme biti trivialno ponavljanje podatkov iz tabel (tako npr. v primeru spola rečemo, da je moških značilno več kot žensk),
vključitev informacij virov izven ankete (npr. v primeru spola navedemo, kakšno je siceršnje razmerje v populaciji, npr. 48.%),
vsebinsko interpretacijo (npr. zakaj je moških toliko več),
predvsem pa navajamo posledice in kontekst glede na cilje, hipoteze in teoretski okvir (npr. kakšna je posledica za odvisne spremenljivke, v čem se moški razlikujejo, kaj lahko rešimo z uteževanjem ipd.). Pri tem upoštevamo siceršnja priporočila glede analitičnosti.