Kā top “Simta” prognozes?

Roberts Veics
2021. g. 31. aug.
Lasīts 6 min

Updated: 2022. g. 20. jūl.

Metode un loģika

Darbs pie “Simta” sākās pēc 13. Saeimas vēlēšanām 2018. gada oktobrī. Kā pirms katrām Saeimas vēlēšanām, arī toreiz pēdējos mēnešos tika publicētas daudzas balsstiesīgo aptaujas, ko veidoja dažādas pētījumu aģentūras. Tomēr no šiem datiem bija grūti spriest par partiju un apvienību izredzēm vēlēšanās. Vai 4,1 % nozīmē, ka saraksts netiks Saeimā? Cik mandātus saņems katra partija? Kā interpretēt pretrunīgus rezultātus no dažādām aģentūrām?

Lai varētu atbildēt uz šiem jautājumiem, vispirms vajadzēja apkopot vēsturiskos aptauju datus. Paralēli tam bija nepieciešams izstrādāt prognozes metodi. Tai bija vienlaikus jāatrisina vairākas problēmas. Pirmkārt, dažiem sarakstiem priekšvēlēšanu aptaujas ir precīzākas nekā citiem. Otrkārt, vairāku aptauju rezultāti ir jāapvieno vienā prognozē. Treškārt, publicētajās aptaujās tiek ziņots tikai, cik procenti balsstiesīgo plāno balsot par partijām un apvienībām. Taču interesantāk ir noskaidrot, cik mandātus katrs saraksts var saņemt, un arī tam ir jāizdomā metode.

Pirmā problēma – vai un kā aptauju rezultātus ir nepieciešams koriģēt? Vēsture rāda, ka priekšvēlēšanu aptaujās neizlēmušie vēlētāji parasti nesadalās proporcionāli izlēmušajiem vēlētājiem. Ir saraksti, kuri saņem mazāku daļu neizlēmušo vēlētāju. Piemēram, vairākas Saeimas vēlēšanas pēc kārtas “Saskaņas” (agrāk – “Saskaņas centra”) atbalsts izlēmušo respondentu starpā aptaujās ir bijis augstāks nekā vēlēšanās.

Lai atrisinātu šo problēmu, es izmēģināju dažādus veidus, kā sagrupēt sarakstus. Atkarībā no grupas, katra saraksta rezultātam aptaujā tiek piereizināts koeficients. Tādā veidā tiek simulēta neizlēmušo vēlētāju nosliekšanās par labu kādam sarakstam. Ja saraksts ir grupā, kuras popularitāte aptaujās vēsturiski ir bijusi novērtēta pārāk zemu, tā reitings tiek pacelts augstāk. Visprecīzākās prognozes ieguvu, izveidojot trīs grupas: latviešu pilsētu saraksti, latviešu reģionu saraksti un krievvalodīgo saraksti.

Otrā problēma – kā apvienot dažādas aptaujas vienā prognozē? Lai to saprastu, vispirms ir jāizdomā, kādi lielumi katram sarakstam ir nepieciešami, lai izveidotu prognozi. Lai aprēķinātu 95 % ticamības intervālu, ir jāzina vidējā prognoze un standartnovirze. Ja ir pieejama tikai viena aptauja, tas ir vienkārši – vidējā prognoze ir konkrētā saraksta reitings, un standartnovirzi var aprēķināt no reitinga un aptaujas respondentu skaita.[1]

Taču ko darīt, ja ir piecas dažādas aptaujas? Viens variants ir veidot Montekarlo simulāciju. Zinot vidējo prognozi un standartnovirzi, ar nejaušu skaitļu ģeneratoru var veidot iespējamos iznākumus – uzskatīsim tos par vēlēšanu scenārijiem. Pie gana liela scenāriju skaita to kopums atspoguļo aprēķinātās vērtības: kopas vidējais rezultāts ir vienāds ar vidējo prognozi, arī standartnovirze un 95 % ticamības intervāls atbilst gaidītajam.

Simulācija tiek veikta katrai aptaujai atsevišķi, taču scenāriju skaits visām aptaujām ir vienāds. Turklāt tie aptauju starpā nav neatkarīgi – ja kādā scenārijā ir saraksts, kura rezultāts ir divas standartnovirzes zem aptaujas rezultāta, tas pats šajā scenārijā notiks arī pārējās aptaujās. Tā tiek panākts, ka aptauju kļūda dažādu aģentūru starpā nav neatkarīga. Kad katrai aptaujai ir aprēķināti scenāriji, tiek aprēķināts katra scenārija vidējais rezultāts. Tas ir svērtais vidējais no atsevišķajām aptaujām, kur aptaujas svars ir vienāds ar kvadrātsakni no respondentu skaita.

Kaut arī minētā pieeja ir relatīvi vienkārša un efektīva, tās lielākais trūkums ir tas, kā tajā tiek aprēķināta standartnovirze. Ja aptaujas sniedz ļoti atšķirīgus datus par kāda saraksta popularitāti, var gadīties, ka neviena no aptaujām neietilpst “Simta” prognozes ticamības intervālā. Ideālā gadījumā sarakstam ar mazu reitingu izkliedi būtu šaurāks ticamības intervāls nekā sarakstam ar lielu reitingu izkliedi. Tā kā man pagaidām nav izdevies atrast labu metodi, kā to panākt, pašlaik reitingu izkliede ticamības intervālu “Simta” prognozē ietekmē minimāli – par to plašāk sadaļā “Piemērs”.

Trešā problēma – kā no šiem datiem nonākt pie vietu prognozes? Pēc pirmo divu problēmu atrisināšanas mēs varam prognozēt, cik liela daļa vēlētāju Saeimas vēlēšanās nobalsos par katru no sarakstiem. Tomēr Saeimas mandāti sarakstiem tiek piešķirti atbilstoši rezultātiem piecos vēlēšanu apgabalos – Kurzemē, Latgalē, Rīgā, Vidzemē un Zemgalē. Tādēļ no saraksta rezultāta valstī kopumā ir nepieciešams nonākt pie rezultātiem katrā no vēlēšanu apgabaliem.

Šeit noder sarakstu grupēšana, kas tika pielietota, koriģējot aptauju rezultātus. Krievvalodīgie, lauku latvieši un pilsētu latvieši dažos apgabalos ir pārstāvēti vairāk nekā citos. Piemēram, krievvalodīgo partijām vislabākie rezultāti ir Latgalē un Rīgā – vietās, kur ir lielāks krievvalodīgo īpatsvars nekā citur Latvijā. Zinot saraksta popularitāti valstī kopumā un tā piederību vienai no trim grupām, var nonākt pie prognozes katrā vēlēšanu apgabalā.

Kad tas ir izdarīts, atliek sarēķināt, cik deputāti katram sarakstam ir ievēlēti katrā apgabalā. Latvijā gan Saeimas, gan pašvaldību, gan Eiropas parlamenta vēlēšanās mandātu skaits tiek aprēķināts pēc Senlagī metodes. “Simta” prognozē katram sarakstam ir aprēķināts gan balsu īpatsvars valstī kopumā, gan balsu īpatsvars katrā vēlēšanu apgabalā. Ar Senlagī metodes palīdzību piecu procentu barjeru pārvarējušajiem sarakstiem tiek aprēķināts arī iegūto mandātu skaits katrā apgabalā.

Tā kā aptaujas nav ideālas, ir nepieciešams modelēt statistisko kļūdu. Šajā gadījumā tiek pieņemts, ka aptaujas kļūda ir normāli sadalīta. Pēc otrajā solī veiktās aptauju apvienošanas katram sarakstam ir zināms vidējais reitings un standartnovirze. Standartnovirzi aprēķina no vidējā reitinga un respondentu skaita. Jo reitings ir tuvāks 50 procentiem un jo mazāk respondentu, jo nenoteiktība (tātad – arī standartnovirze) ir lielāka. Balstoties uz šīm divām vērtībām, ar nejaušu skaitļu ģeneratora palīdzību var simulēt iespējamos vēlēšanu iznākumus.

Viena no normālsadalījuma īpašībām ir tā, ka vienas, divu un trīs standartnoviržu attālumā atrodas, attiecīgi, aptuveni 68 procenti, 95 procenti, un 99,7 procenti visu elementu. Tas nozīmē, ka, piemēram, ja kāda saraksta reitings ir 10 % un standartnovirze ir 2 %, tad ir aptuveni 68 % varbūtība, ka īstais rezultāts būs vienas standartnovirzes ietvaros (t.i., no 8 līdz 12 procentiem), un aptuveni 95 % varbūtība, ka tas būs divu standartnoviržu ietvaros (t.i., no 6 līdz 14 procentiem).

Ar nejaušu skaitļu ģeneratora palīdzību tiek izveidoti 10 000 dažādu vēlēšanu iznākumu. “Simta” grafikos tiek parādīti katra saraksta 95 % ticamāko scenāriju – tātad netiek iekļauti 250 nelabvēlīgākie un 250 labvēlīgākie scenāriji. Kad rakstos vai koalīcijas simulatorā tiek minēta kāda notikuma varbūtība, to aprēķina, izdalot scenāriju skaitu, kuros notikums piepildās, ar kopējo scenāriju skaitu (10 000). Piemēram, 70 % varbūtība nozīmē, ka notikums piepildījās 7 tūkstošos simulāciju no 10 tūkstošiem.

Piemērs

Visdrīzāk, vieglāk par sausu metodes aprakstu būs uztvert kādu piemēru ar izdomātiem skaitļiem. Tāpēc iedomāsimies, ka Saeimas vēlēšanās piedalās seši saraksti – Brūnais, Melnais, Oranžais, Rozā, Tirkīzzilais un Violetais. Par pirmajiem diviem sarakstiem tipiski balso latvieši reģionos, par nākamajiem diviem – latvieši pilsētās, un par pēdējiem diviem – krievvalodīgie. Aptaujas veic trīs aģentūras. Tās īsi pirms vēlēšanām publicē šādus reitingus:

Kā redzams, 3. aptaujā reitingi jau ir sarēķināti tikai izlēmušo vēlētāju starpā. Tas nozīmē, ka koriģēt varēs tikai 1. un 2. aptauju. Korekcijas rezultātā pilsētu latviešu, reģionu latviešu un krievvalodīgo sarakstiem tiek piešķirtas dažādas neizlēmušo vēlētāju daļas. No visu aptaujas respondentu skaita tiek aplēsts aptuvens izlēmušo respondentu skaits. Šis skaitlis tiks izmantots turpmākajos aprēķinos, jo citādi reitingam tiktu piedēvēta pārāk liela precizitāte.

Pēc 1. un 2. aptaujas korekcijas skaitļi ir šādi:

Dažas lietas, kam es pievērsīšu īpašu uzmanību:

abiem latviešu reģionu sarakstiem (Brūnajam un Melnajam) vidējais rezultāts ir ļoti līdzīgs, taču aptauju izkliede ir atšķirīga;
Melnajam un Tirkīzzilajam sarakstam pirms korekcijas bija identiski rezultāti visās trijās aptaujās;
Oranžais saraksts pat pēc korekcijas nevienā aptaujā nesasniedz 5 procentu robežu.

“Simta” balsu īpatsvara prognozes piemērs izdomātā vēlēšanu scenārijā

Salīdzinot Melnā un Brūnā saraksta panākumus, var novērot ko negaidītu – kaut arī Brūnajam sarakstam aptauju izkliede bija daudz plašāka, tā prognozēto rezultātu amplitūda ir mazāka nekā Melnajam sarakstam. Tā kā abi saraksti ir vienā grupā, to vienīgā atšķirība ir aptauju izkliede. Šīs parādības pamatā ir tas, ka katrā scenārijā aptauju kļūda vienam sarakstam ir vienāda visās aptaujās. Taču tā ir vienāda nevis procentpunktu, bet statistiskās ticamības ziņā – to nosaka standartnovirze, un zemākam reitingam arī tā ir zemāka.

Brūnajam sarakstam 2. un 3. aptaujas scenārijos ir lielāka amplitūda nekā Melnajam sarakstam, taču to ar uzviju kompensē salīdzinoši mazā amplitūda 1. aptaujā. Apvienojot aptaujas, tas rezultējas kopumā zemākā amplitūdā . Kā jau minēju, šis ir viens no pašreizējās pieejas trūkumiem – šajā gadījumā par Melnā saraksta rezultātu ir vairāk skaidrības, bet balsu īpatsvara prognoze to neatspoguļo. Šī ir viena no lietām, ko prognožu modelī vēlos uzlabot.

Pēc korekcijas krievvalodīgo atbalstītajam Tirkīzzilajam sarakstam divās aptaujās bija mazliet zemāks rezultāts nekā reģionu latviešu Melnajam sarakstam. Tas ir novērojams arī balsu īpatsvara prognozē, kura Melnajam sarakstam ir par aptuveni 2 procentpunktiem augstāka. Tomēr amplitūda ir visai plaša, un par spīti korekcijai Tirkīzzilais saraksts saglabā labas izredzes pārspēt Melno sarakstu.

Visbeidzot, par spīti vājajiem aptauju rezultātiem, Oranžā saraksta 95 % varbūtības intervālā ietilpst daži scenāriji, kuros tas tomēr pārvar piecu procentu barjeru. Ņemot vērā, ka šeit nav parādīti 2,5 % optimistiskāko scenāriju un varbūtības intervāla augstākā vērtība ir ļoti tuvu barjerai, Oranžā saraksta izredzes iekļūt Saeimā ir aptuveni 3 procenti. Kaut arī šādas varbūtības mēdz piepildīties (apmēram vienā gadījumā no trīsdesmit), aptaujām visdrīzāk būs taisnība un Oranžais saraksts netiks ievēlēts.

“Simta” vietu prognozes piemērs izdomātā vēlēšanu scenārijā

Vietu prognoze atspoguļo to pašu, ko jau varēja novērot balsu īpatsvara prognozē. Melnajam un Brūnajam sarakstam ir identiska prognoze, Tirkīzzilais saraksts savas grupas dēļ ir mazliet zemāk. Oranžajam sarakstam ir iespēja nonākt Saeimā ar minimālo deputātu skaitu.

Aprakstīto metodi var pielietot ne tikai veidojot jaunākās prognozes, bet arī prognozējot iepriekšējo vēlēšanu rezultātus, balstoties uz socioloģiskajām aptaujām. Tas ļauj pārliecināties par metodes precizitāti. Taču par to rakstīšu nākamajā rakstā.

Piezīmes

Rēķinot standartnovirzi, tiek ņemts nevis pilns aptaujas respondentu skaits, bet aptuvens izlēmušo respondentu skaits. Ja nav informācijas par respondentu skaitu, tiek pieņemts, ka aptaujā kopā bija 500 respondenti.
Vidējais rezultāts tabulas pēdējā kolonnā ir svērtais vidējais no trim aptaujām. Aptaujas svars ir kvadrātsakne no respondentu skaita.