Pedro Magalhães

Margens de Erro

Cinco gráficos sobre as eleições, já com resultados finais

Posted October 5th, 2015 at 8:06 am4 Comments

1. Afinal, a participação eleitoral oficial não aumentou, como se chegou a pensar na base das projecções das televisões (provavelmente, a afluência no final do dia foi menor que o habitual). Contudo, é altamente provável que a participação "real" (votantes sobre população com idade de voto residente - dados aqui), tenha aumentado, tendo em conta a emigração dos últimos anos. Mas mesmo esse deverá ser um aumento modesto. Particip 2. O "arco da governação" abana: PSD+PS+CDS têm a menor votação desde 1985, o ano do PRD. Nada que se compare, é certo, com o que se passou na Grécia ou se prepara para Espanha. Contudo, nos discursos de Portas, Costa e Passos Coelho ontem, foi bem visível, implícita e nalguns casos explicitamente, a preocupação com estes desenvolvimentos. Arco 3. PSD+CDS têm 38,6%. Pior só em 2005, com Santana Lopes. Enough said. PSDCDS 4. PS tem 32,4%, menos do que em 1983 (depois dos governos AD), menos do que em 2002 (depois do "pântano"), menos do que em 2009 (depois do 1º governo Sócrates). PS 5. O BE tem 10,2%. Bom resultado, mas pouco acima de 2009. Já sabemos o que fez com esse resultado de 2009. Veremos o que fará desta vez. BE

by Pedro Magalhães

PSD+CDS nas projecções eleitorais

Posted October 4th, 2015 at 8:08 pm4 Comments

Usando a média dos pontos centrais das projecções dos três canais, PSD+CDS só tiveram menos em 2005 e 1975. Mas ao contrário do que sucede à conclusão sobre o "arco da governação", isto exigirá actualização dos dados. Podem ainda ultrapassar resultados como o de 2009, 1985 e 1983.

PSD+CDS

by Pedro Magalhães

O “arco de governação” nas projecções

Posted October 4th, 2015 at 8:04 pm4 Comments

Usando a média dos pontos centrais da projeções dos três canais, PSD+CDS+PS somados têm o pior resultado desde...1985. Arco    

by Pedro Magalhães

Abstenção nas projecções das televisões

Posted October 4th, 2015 at 7:32 pm4 Comments

Presumindo que as projecções da abstenção avançadas nas televisões estão globalmente correctas (uso o ponto médio dos três intervalos apresentados), ficaria assim a evolução da participação eleitoral desde 1975. abstenção Inversão de tendência, já não é mau.

by Pedro Magalhães

As últimas sondagens e as eleições

Posted October 2nd, 2015 at 4:47 pm4 Comments

São as da Aximage (divulgada hoje), da Católica (divulgada ontem), da Intercampus (idem), da Eurosondagem (idem) e da Marktest (anteontem). Quadro:

Últimas sondagens Apesar de não parecer (porque só se vê média aritmética e intervalo min-max), reduziu-se a dispersão. A Marktest é que está um pouco desalinhada (o que não é juízo nenhum da minha parte). Se retirarmos Marktest, temos 37-39 para coligação, 32-33 para o PS, 9 para CDU e 7-9 para BE.

A nossa estimação no POPSTAR já andava há uns tempos por estes números. Contudo, integradas todas as sondagens, a coincidência não é completa.

Screen Shot 2015-10-02 at 15.12.46 Screen Shot 2015-10-02 at 15.14.52 Primeiro, como explicado ontem, a estimação tende a "resistir" às mudanças mais repentinas, integrando informação anterior. Logo, não coloca o PS tão baixo como na média aritmética das últimas sondagens, nem o BE tão alto. Segundo, as dimensões das amostras são tomadas em conta. Terceiro, importa não esquecer que há uma sondagem divulgada ontem cujo trabalho de campo terminou antes daquele que serviu para sondagens divulgadas dias antes, se me faço entender. Mas a maior parte das sondagens cabem nos nossos intervalos de confiança. Isso é também importante porque duas destas últimas sondagens foram conduzidas presencialmente e com simulação de voto em urna, o que mostra que os resultados são robustos a métodos diferentes. Globalmente,a mensagem é clara quanto aos maiores partidos: a coligação estará com mais intenções de voto do que o PS. No caso da CDU e do BE, enquanto a nossa estimação diz o mesmo para a sua diferença, as sondagens mais recentes não. Sobre PDR e Livre melhor não falar muito, porque temos muito menos informação.

Partindo do princípio que temos um bom retrato das intenções de voto (e enviesamentos amostrais e ocultação de intenções podem ter afectado isso, mas vamos suspender a questão), o que podemos dizer sobre o que será o comportamento de voto dia 4? Dizer que estas intenções se converterão em comportamentos e resultados é um pouco como estar numa 6ª feira de sol em Agosto e dizer que por isso Domingo irá fazer sol também: é bem provável que sim, mas... Há basicamente três coisas que podem acontecer que implicariam diferenças:

1. "Indecisos": a Católica reporta 17% de pessoas que dizem ir votar mas não sabem em quem (15%) ou não dizem (2%); 11,3% na Intercampus; 18% na Eurosondagem. Se estas pessoas acabarem por ir votar e se distribuírem de forma significativamente diferente pelos partidos daquela que caracterizará aqueles que tinham um intenção de voto e a realizem, pode haver mudanças relevantes, nunca dramáticas tendo em conta estes números, mas politicamente relevantes. Pelo contrário, se se distribuírem mais ou menos da mesma forma ou se a maior parte desses indecisos se abstiver, muito pouco poderá mudar.

2. "Late swings": as "intenções" declaradas podem ser substituídas por comportamentos distintos dessas intenções. Um conhecido artigo fala em "waking up in the poll booth": há flutuações de intenções de voto na campanha mas, chegados ao dia da eleição, um percentagem não negligenciável dos eleitores acaba por retornar ao sentido de voto que tinha antes da campanha, esquecendo o ruído das últimas semanas e votando na base de uma reflexão mais geral sobre o que foi a governação e a legislatura. Outro tipo de mudança aponta para voto estratégico, ou seja, eleitores que, na base de informação de sondagens, trocam na recta final o seu partido preferido por outro, para promoverem ou evitarem um determinado desfecho em termos de formação de governo.

3. Abstenção diferencial: um dos grandes desafios das empresas de sondagens consiste em separar os inquiridos que quase certamente irão votar (e assim realizar as intenções declaradas - desde que não as mudem, ver ponto 2.) daqueles que dizem que irão votar mas afinal não acabam por não ir. Preferindo dizer que irão votar quando não sabem se o irão fazer, ou mesmo quando já decidiram abster-se, alguns inquiridos contribuem para inflacionar os valores da participação em sondagens. Isso pode acabar por não ter qualquer reflexo na comparação entre os resultados das sondagens e os resultados eleitorais, se as intenções de voto que essas pessoas declararam não se distribuíam de forma diferente das dos restantes. Mas nem sempre isso acontece. Por vezes há "abstenção diferencial". Os primeiros resultados de um estudo recente sobre as últimas eleições britânicas sugerem precisamente que o problema terá estado aqui: "Labour lead among unlikely voters grew hugely between 2010 and 2015, suggesting that differential turnout is an important factor in explaining the polling miss: considerably fewer of those saying they were going to vote Labour are likely to have actually turned out to vote".

Vamos ver o que acontece. Não me ocorre mais nada para dizer na base da informação que existe.

Tenho recebido referências muito amáveis em relação ao Popstar, que agradeço. Relembro que o Popstar foi um projecto apoiado pela FCT, e teve o trabalho, num momento ou noutro, do Mário Silva, do Sílvio Moreira, da Eduarda Rodrigues, do Pedro Saleiro, do Carlos Soares, da Paula Carvalho, da Nina Wiesehomeier, do João Filgueiras, do Manuel Távora (vê lá se arranjas um site, pá) e, mais intensamente no que tocou à componente sondagens, do Miguel Maria Pereira e do Luís Aguiar-Conraria (espero não me ter esquecido de ninguém). No que toca a estas eleições, o Popstar acaba aqui a sua função mais imediata, mas pode naturalmente ser fonte para trabalhos futuros. Os dados estão disponíveis.

by Pedro Magalhães

Ponto de situação a três dias das eleições

Posted October 1st, 2015 at 9:44 am4 Comments

1. Introduzidas as sondagens mais recentes divulgadas ontem, o filtro do Popstar estima as intenções na coligação PàF nos 38,5%, no PS em 34,6%, na CDU em 8,9% e no BE em 6,3%. Infelizmente, há muito tempo que não temos informação nova sobre o PDR e o Livre, pelo que não é sensato estar agora a falar neles. Os intervalos de confiança entre a coligação e o PS e entre a CDU e o BE não se sobrepõem, o que é relevante, especialmente tendo em conta que são estimados de forma "conservadora", ou seja, sendo mais amplos do que seriam exclusivamente na base de erro amostral. Por outras palavras, são ínfimas as dúvidas de que, na população, haja mais pessoas que tencionam votar na coligação do que no PS, e mais na CDU do que no BE.

2. Outra coisa em que o nosso modelo é conservador é na integração de nova informação. Se olharem para os gráficos, verificarão que a linha azul da coligação está abaixo da maior parte dos pontos azuis mais recentes e que a linha rosa está acima da maior parte dos pontos rosa mais recentes. Por outras palavras, a estimação não é uma mera média móvel das sondagens mais recentes. Isso sucede porque o modelo integra, por definição, informação anterior, e especialmente porque os parâmetros que o governam foram estimados numa altura em que havia poucas sondagens e poucas mudanças. Mas o Luís Aguiar-Conraria esteve a trabalhar sobre isto e enviou-me hoje as estimações que resultariam de usar toda a informação até hoje e assim tornar estes parâmetros menos "conservadores", ou seja, mais sensíveis a mudanças de curto prazo: 38,8% para a PàF e 33,5% para o PS. Como vêem, não é muito importante. E mais: o "conservadorismo" do nosso modelo significa apenas que, se vemos mudanças, elas são robustas. Vamos por isso continuar com ele.

3. Há, contudo, algo a que as nossas estimativas de intenções de voto não são robustas: à possível existência de enviesamentos comuns às sondagens que têm sido divulgadas. Se, por alguma razão, as amostras que têm sido constituídas tiverem um perfil político sistematicamente distinto do da população, ou se, por alguma razão, houver apoiantes de um determinado partido que sejam mais atreitos a ocultar ou dissimular a sua real intenção dos inquiridores, isso passará ao lado das sondagens e, logo, ao lado de quaisquer estimações que possamos fazer. Contudo, há algo que pode ajudar: as sondagens feitas presencialmente e com simulação de voto em urna que, creio, conheceremos hoje e amanhã. Por serem presenciais, têm um procedimento amostral distinto. E por usarem simulação de voto, ajudam a contrariar a possível indisponibilidade dos eleitores a revelaram a sua real intenção de voto. O mais importante aqui não é presumir que estas sondagens são "superiores" às outras (se bem que, por alguma razão, alguns institutos escolhem este procedimento apenas para as suas últimas sondagens). O mais importante é que esta metodologia é diferente da que tem sido usada. E sendo diferente, se produzir resultados congruentes, a presunção de que possa haver um enviesamento comum a todas as sondagens torna-se menos plausível.

4. Estamos a falar de intenções, não de comportamentos. Daqui até às eleições, por definição, umas teriam que se transformar nos outros para que se pudessse dizer que estas estimativas serviriam como prognóstico eleitoral. Mas como não sabemos se será assim, não as podemos apresentar como tal. Amanhã, com as estimativas finais das intenções de voto no fim da campanha, falarei um pouco mais sobre isto.

by Pedro Magalhães

Um guia para os perplexos

Posted September 28th, 2015 at 9:30 am4 Comments

"Como é possível que a coligação governamental possa chegar a estas eleições sem ser castigada eleitoralmente?"

A coligação vai ser castigada eleitoralmente. Vamos imaginar que no dia 4 tinha os 38% que o agregador do Popstar lhe dá neste momento. Presumindo que a participação eleitoral não muda muito de 2011 para 2015, isto implicaria que a coligação perderia 700.000 votos, 1 em cada 4 dos votos de 2011. Desde 1974, PSD+CDS só tiveram menos em conjunto nas eleições de 2005. Perdas acima dos 12 pontos percentuais para um governo só tivemos de 1983 para 1985 para os partidos do Bloco Central (mas isso foi no ano do PRD), de 1991 para 1995 para o PSD, e de 2002 para 2005 para a coligação PSD/CDS. Claro que, se tiver algo mais perto dos 41% que a Católica lhe atribui neste momento, as perdas serão menores. Mas mesmo assim seriam cerca de 550.000 votos, 1 em cada 5 dos de 2011.

"OK, mas mesmo assim como é possível que a coligação tenha hipótese de ganhar esta eleição, depois de quatro anos de austeridade?"

Quatro anos de austeridade sob este governo talvez seja esticar um pouco a coisa. A medida convencional de ajustamento orçamental é a mudança no défice estrutural, o défice calculado em relação ao PIB potential, retirada a componente cíclica (sei que há controvérsias mas para este efeito não fazem grande diferença). A evolução ao longo dos últimos anos na Europa do Sul foi descrita há pouco tempo num artigo da Bloomberg:

-1x-1 Primeiro, note-se que a austeridade já vinha de 2009 para 2011. Segundo, sendo certo que se acentua claramente de 2011 para 2012, desacelera de novo até 2014 e - surpresa - inverte de 2014 para 2015, segundo as previsões. O FMI anda-se a queixar há uns tempos, mas o PM já explicou que são uns grandes pessimistas.

"OK, mas isso é demasiado abstracto. As medidas tomadas inicialmente geraram mesmo assim uma espiral recessiva, não foi?"

Não, não foi. O gráfico abaixo mostra, no eixo y da direita, a taxa de desemprego (fonte). A partir de Fevereiro de 2013, o desemprego começa a descer.

polls and unemployment Do lado direito vemos as intenções de voto do conjunto PSD+CDS (até Maio) e da coligação pré-eleitoral PSD/CDS (a partir daí). Os partidos de governo perdem continuamente até Setembro de 2012, perdem ainda mais de forma súbita nesse mês (toda a gente sabe porquê), atingem o ponto mínimo em Julho de 2013 (também toda a gente sabe porquê), e a partir daí mantêm-se mais ou menos estáveis. Não deve ser um acaso.

Podemos também olhar para o crescimento do PIB (por trimestre, real, em relação ao trimestre anterior, fonte) e veremos mais ou menos o mesmo:

polls growth "OK, mas as pessoas não andam a ver dados económicos em sites do Eurostat ou do BCE. O que importa é a percepção que têm, e essa não melhorou."

Melhorou sim, pouco mas melhorou. O gráfico abaixo mostra o valor médio das respostas à pergunta "Como avalia a situação actual da economia portuguesa", numa escala de 1 (muito má) a 4 (muito boa), do Eurobarómetro. De Novembro de 2013 para Junho de 2014 subiu, e continuou a subir.

Screen Shot 2015-09-28 at 08.35.26 Vê-se o mesmo quando se olha para a resposta à pergunta "Quais são as suas expectativas para os próximos doze meses: os próximos doze meses serão melhores, piores ou iguais, no que diz respeito à situação económica em Portugal?" (fonte).

Screen Shot 2015-09-28 at 08.39.22 E vê-se também quando se olha para a confiança do consumidor (fonte):

polls consumer Em suma, a coligação sangra até Julho de 2013, mas a partir daí estanca. Na verdade, a pergunta que apetece colocar é por que razão a coligação não recuperou mais. Não sei a resposta a essa. O desemprego melhora, mas sabemos que em parte devido à criação de emprego e em parte devido à emigração e emprego precário. O crescimento foi positivo, mas modesto. As percepções da economia a a confiança do consumidor melhoraram, mas ainda estão do lado negativo. O primeiro ministro e o vice-primeiro ministro continuam extremamente impopulares (se encontrarem no país cartazes onde eles aparecem digam, sim?). A confiança no governo aumentou, mas continua a níveis muito baixos. Os pensionistas são uma parte muito importante do eleitorado do PSD, mas foram um alvo preferencial. Etc. Eu não sei a resposta, mas aqui o que importa é que a pergunta certa talvez não seja bem a que muita gente tem colocado.

"OK, mas mesmo com isto tudo, o PS chegou a ter as eleições na mão. Como é possível que esteja em risco de as perder?"

A pergunta aqui também parte de um pressuposto errado. O gráfico abaixo mostra a evolução das estimativas do agregador de sondagens no Popstar, nomeadamente de intenção de voto no PS, na coligação (ou soma PSD+CDS) e a diferença entre as duas:

margin ps O PS foi recuperando apoio ao longo da legislatura até à segunda metade de 2013. Perdeu apoio durante a luta interna pela liderança, e voltou a recuperá-lo. Mas a maior margem que o PS alguma vez teve sobre a coligação foi de 3 (três) pontos, durante breves períodos, durante as lideranças quer de Seguro quer de Costa. A última vez foi no fim de Julho de 2015. O PS nunca teve estas eleições na mão. Ou melhor: só as esteve enquanto a PSD e CDS não tinham ainda decidido ir juntos a eleições. Ou seja, vendo bem, nunca teve.

"Mas então, o que tem impedido o PS de subir?"

Não sei. Parte da resposta já teremos visto: o que impede o PS de subir será em parte o mesmo que impede a coligação de descer. Quanto ao resto, só posso oferecer um pouco de especulação informada. Em 2011, no estudo pós-eleitoral do ICS, quase dois em cada três eleitores, e metade dos que simpatizam com o PS, diziam que o PS era "muito" ou "extremamente responsável" quer pela situação da economia nessa altura quer pelo resgate. Veremos no inquérito pós-eleitoral de 2015 em que medida isto ainda é verdade, mas é possível que uma coisa destas não se desfaça facilmente. O caso britânico mostra que há momentos históricos em que se instalam "gaps" na percepção de competência económica entre partidos, que esses "gaps" demoram muito tempo a ser vencidos e que, no caso britânico, esse "gap" instalou-se com a crise económica a favor dos Conservadores e ampliou-se com os primeiros sinais de retoma em 2013. Em Portugal as sondagens não perguntam nada disto (queixas aqui), mas é possível que tenhamos algo semelhante e que isso dite um "tecto" ao crescimento do PS que seria sempre difícil de vencer.

"Os resultados da eleição ainda podem ser diferentes daquilo que as sondagens têm estado a dizer?"

Claro. Ainda só conhecemos as últimas sondagens da penúltima semana de campanha. Em 2011, o PSD teve quase 39% na eleição, quase mais 4 pontos do que lhe davam as sondagens nessa penúltima semana. O PS teve 28%, quase menos 6 pontos do que lhe davam essas sondagens. Mudanças desse calibre, num sentido ou noutro, podem ou ampliar muito a vantagem da coligação ou, pelo contrário, anulá-la. Dito isto, não me recordo de eleições legislativas desde 1991 (antes disso não vale de todo a pena olhar para sondagens) em que um partido que estivesse à frente nesta altura tivesse perdido a eleição. Mas há sempre uma primeira vez para tudo.

Esta é uma história possível sobre esta legislatura. Outros contarão outras, focadas nas personalidades e actuação dos líderes, acidentes de campanha, discurso político, cobertura dos media, etc. Eu acho isso tudo perfeitamente legítimo. Mas esta é a história que eu acho que sei contar com alguma segurança. Qual é a vossa?

by Pedro Magalhães

Falta uma semana

Posted September 27th, 2015 at 9:21 pm4 Comments

Conhecidos os resultados do tracking de hoje da Católica (41, 34, 9, 7) , eles completam um novo ciclo em que a amostra se renovou e se tornou independente da sondagem cujo trabalho de campo terminou a 22 (a última que incluímos no Popstar). Ontem isso aconteceu com a da Intercampus, e 6ª feira com a da Aximage, isto nas tracking polls. Ficou-se também a conhecer o resultado da Eurosondagem ontem.

Entramos assim na última semana da campanha. Vale a pena comparar com o que ocorreu em eleições passadas. No quadro abaixo, apresenta-se a média simples das últimas sondagens apresentadas por cada empresa até ao fim da penúltima e da última semanas de campanha, e o intervalo entre os piores e melhores resultados (não creio que as médias dêem as melhores estimativas — estas sim — mas apresento-as para fins de comparação). No caso das de 2015, só conhecemos obviamente as primeiras. Arrendondo tudo à unidade no que toca às sondagens.

Penúltima semana Nesta eleição, e nesta penúltima semana, os intervalos entre os melhores e os piores resultados para PS e para a coligação nas sondagens (5 pontos para a coligação, 3 para o PS) são amplos, mas não inéditos. Em 2005, o intervalo entre o melhor e o pior resultados para o PS foi de 4 pontos, de 5 pontos em 2009 e 4 pontos em 2011. E nessa eleição foi de 3 pontos para o CDS, uma incerteza grande tendo em conta a comparativamente pequena dimensão do partido.

Importa também notar que os resultados das sondagens da última semana trazem por vezes mudanças não irrelevantes. Em 2002, o CDS passou de 5% para 7%, acabando por ter 8.7% na eleição. Em 2011, o PSD passou de 35% para 37%, acabando por ter um resultado de 38.6%. Em direcção contrária, na mesma eleição, o PS passou de 34% para 31%, acabando com um resultado de 28.1%. É curioso que estes três casos, aqueles em que há mudanças mais relevantes nas sondagens da penúltima para a última semana, sejam também casos em que o resultado final acaba por prolongar essa tendência (de subida ou de descida).

by Pedro Magalhães

Redistribuindo indecisos na Aximage e outros assuntos

Posted September 24th, 2015 at 10:03 am4 Comments

A Aximage apresenta a distribuição das intenções de voto por partido excluindo os presumíveis ou declarados abstencionistas mas deixando no denominador os que não sabem em que partido votariam (os "indecisos"). No Popstar, temos até agora introduzido os resultados tal como a Aximage os divulga. Fizemos isso porque, do ponto dinâmico, para as nossas estimativas, isso não faz diferença, e também porque nos custa impor pressuposições que os autores das sondagens não partilham. Mas de um ponto de vista estático isto faz diferença: os resultados da Aximage, por incluírem indecisos, não são directamente comparáveis aos das outras empresas desse ponto de vista e, no geral, contribuem para baixar as estimativas de todos os partidos em cada momento.

Assim, decidimos fazer essa redistribuição desde que há sondagens para a coligação, e calcular a partir de hoje o filtro com os novos dados. O efeito em relação às estimativas anteriores é muito simples: todos sobem proporcionalmente à sua dimensão, como seria de esperar quando se redistribuem indecisos pelas opções de voto proporcionalmente (o que é equivalente a pressupor que não votam, uma pressuposição heróica, mas a única que podemos adoptar com a informação que temos). Nada muda de fundamental, mas passamos a lidar com dados comparáveis para todas as empresas. Assim, as nossas novas estimativas, com os novos intervalos de confiança:

PSD/CDS: 37,8% [32,1%, 43,5%]

PS: 36,1% [32,2%, 40%]

CDU: 9.1% [7,3%, 10,8%]

BE: 5.6% [3,7%, 7,5%]

PDR: 2.5% [1,1%, 4%]

Livre: 1,9% [0,4%, 3,3%]

Recordem que há bastante tempo que não temos informação nova sobre o PDR ou o Livre.

Outra coisa: reparem nos intervalos de confiança. São amplos, mais amplos do que se justificaria se fossem calculados apenas tendo em conta o erro amostral, especialmente aquele que decorre da agregação de várias amostras (mesmo que pequenas). E não são igualmente amplos para todos os partidos (isso seria sempre assim, mesmo que o intervalo de confiança fosse calculado apenas na base do erro amostral, mas neste caso há uma razão adicional). Na estimação usando o filtro de Kalman, não presumimos que a única fonte de erro é o erro amostral, mas estimamos também uma constante adicional para cada partido que procura captar o erro não-amostral (causado por enviesamentos na construção da amostra, erros de medição, etc). Sucede que, à excepção da CDU, como explicado ontem, este valor é estatisticamente significativo, aumentando os intervalos de confiança em relação ao que seria de esperar se estivéssemos apenas a lidar com erro aleatório.

by Pedro Magalhães

Filtrar o ruído das sondagens – republicação

Posted September 23rd, 2015 at 4:36 pm4 Comments

Republico um post antigo, de Agosto de 2013, que explica o método que usamos para estimar intenções de voto na base das sondagens que vão sendo publicadas, para esclarecer dúvidas, actualizando apenas os gráficos:

Escrito conjuntamente com Luís Aguiar-Conraria.

Analistas políticos encontram muitas vezes dificuldades em lidar com a imensa variabilidade nas sondagens. A principal dificuldade é mesmo compreender o motivo de tal variabilidade. Se hoje observarmos uma sondagem com resultados radicalmente diferentes da maioria das anteriores, deveremos interpretar essa diferença como sendo o resultado de uma forte alteração da opinião pública ou, pelo contrário, olhar para esse resultado como um mero resultado estatístico de uma sondagem que, pela sua própria natureza é sempre incerta?

Intuitivamente a resposta é simples. Se presumirmos que a opinião pública é estável ao longo do tempo, então a melhor abordagem é, simplesmente, calcular uma média das várias sondagens (eventualmente, ponderada pelo tamanho da amostra de cada uma). Se, pelo contrário, admitirmos que a opinião pública é extremamente volátil ao longo do tempo, então o melhor será olhar para os resultados da última sondagem e praticamente esquecer as anteriores.

A dificuldade em avaliar o que está descrito no parágrafo anterior é óbvia. Como separar a variabilidade da opinião pública da variabilidade das sondagens quando a única forma de medir a opinião pública é recorrendo a sondagens? Haverá forma de interpretar de forma sistemática estatisticamente rigorosa as novas informações que nos chegam diariamente? Felizmente, a resposta é sim.

No Público de hoje apresentamos a ideia geral, mas aqui damos uma explicação mais detalhada. A técnica que vamos usar, o filtro de Kalman, nasceu em 1960 na engenharia e é actualmente usada em todos os domínios científicos. O filtro de Kalman original já foi generalizado em várias direcções. Nas ciências sociais, o filtro de Kalman é bastante usado em modelos de estimação do estado latente (state-space models) — lamentamos o jargão, mas não sabemos como evitá-lo.

A ideia principal destes modelos, aplicados ao nosso caso, é considerar que há dois tipos de variáveis. Um tipo de variáveis, a que chamamos variáveis latentes, que não observamos directamente — no nosso caso a opinião pública — e um tipo de variáveis que observamos e que são uma medida imperfeita das variáveis não observadas — no nosso caso, as sondagens. O modelo a estimar reduz-se então a um sistema de duas equações. Uma equação — a que chamamos equação de transição — descreve a evolução do estado latente, ou seja da opinião pública. A outra descreve a relação entre o estado latente e a variável observada, ou seja entre a opinião pública e as sondagens.

No nosso modelo, vamos considerar que, se nada de especial acontecer, então a opinião pública não muda. Ou seja, a percentagem que apoia um dado partido hoje é igual à de ontem. Se houver algum choque externo, então a percentagem de apoiantes pode mudar. Matematicamente:

%Partidot = %Partidot-1+ ut

Em que ut representa os choques externos ou inovações, que presumimos serem gaussianos com média zero e variância σu2. Para já presuma que sabemos o valor de σu2.

A segunda equação capta relação entre as sondagens e a realidade. Aqui vamos presumir que cada sondagem é uma estimativa não enviesada da realidade que, no entanto, está sujeita a um termo de erro:

%Sondagemt= %Partidot + εt

em que εt representa o termo de erro que, mais uma vez, presumimos ser gaussiano de média zero. Neste caso, em princípio, saberíamos exactamente a variância do termo de erro: uma sondagem feita no dia t com Nt entrevistados que atribuísse ao partido uma percentagem de votos π teria variância de σ2ε,t = πt (1 – πt) / Nt.

Com excepção de σu2, todos estes dados estão disponíveis e já poderíamos processar de forma bastante eficiente a informação oferecida por cada nova sondagem. Mas, na verdade, podemos fazer um pouco melhor. Infelizmente, para explicar exactamente o que fazemos, teremos de recorrer a uma linguagem mais técnica.

Em primeiro lugar, podemos aproveitar o facto de podermos facilmente generalizar o modelo para analisar várias variáveis em simultâneo. Pelo que podemos considerar um vector com as intenções de voto de todos os partidos, bem como considerar simultaneamente as sondagens para os cinco partidos com representação parlamentar, podendo ainda considerar um sexto “partido” chamado OBN (Outros, Brancos e Nulos).

Tudo se resume ao seguinte modelo a estimar por máxima verosimilhança:

yt = zt + νt , νt ~ N(0,Σν,t)

zt = zt-1 ωt , ωt ~ N(0,Σω)

em que Yt é um vector com as sondagens para os seis partidos sob análise (PS, PSD, BE, CDS, CDU e OBN), Zt é um vector com o valor latente de cada um dos partidos, νt é o vector com os termos de erro associados às sondagens e ωt o vector com as inovações que afectam cada um dos partidos.

Note-se que as únicas variáveis observáveis são as sondagens (Yt). Todas as outras são estimadas. A matriz de variâncias e covariâncias associadas aos erros das sondagens é dada por Σν,t e, como o subscrito indica, varia de sondagem para sondagem. Na diagonal principal, temos as variâncias, cujo valor teórico será yi,t (1 – yi,t) / Nt, para i = PS, PSD, BE, CDS-PP, CDU e OBN. As covariâncias teóricas também são conhecidas: (–yi,t yj,t ) / Nt.

Infelizmente, a variância do erro amostral será maior do que yi,t (1 – yi,t) / Nt. Este valor para a variância é um valor teórico mínimo que só seria possível se as sondagens fossem feitas com um rigor impossível de garantir, não sofrendo de nenhum dos problemas de que as sondagens tipicamente padecem (erros de cobertura da amostra, erros de medição, etc.). Assim, ao estimarmos o modelo consideraremos que a variância dos termos de erro será igual a σ2ν,t= yi,t(1 – yi,t)/Nt + αi , em que αi será uma constante não negativa a estimar. Vale a pena referir que os vários αi’s estimados são estatisticamente bastante significativos, com excepção do associado à CDU. Tal indica que o erro não-amostral é muito importante e que poderá ainda haver margem para as empresas de sondagem melhorarem nos seus métodos de amostragem e de inquirição, mesmo tendo em conta as limitações de tempo e de recursos que este tipo de trabalho impõe.

O mesmo exercício foi feito para as covariâncias. No entanto, as constantes acrescentadas às 15 diferentes covariâncias teóricas deram quase todas estatisticamente não significativas, pelo que por uma questão de parcimónia, resolvemos excluí-las do modelo. Também não incluímos no modelo variáveis que permitissem considerar os chamados house effects, o que implica que todas as casas de sondagens são tratadas da mesma forma. É algo que poderemos mudar no futuro, mas para já consideramos ser a melhor opção, especialmente à luz de trabalhos anteriores. O pressuposto de que as variáveis latentes seguem um passeio aleatório também poderia ser relaxado para, por exemplo, um processo auto-regressivo mais geral, mas a verdade é que a literatura demonstra que os ganhos com tal modelização são mínimos.

A nossa modelização é diária. Isto quer dizer que sempre que sai uma nova sondagem, actualizamos as nossas previsões relativamente ao estado de cada um dos partidos. Consideramos que o dia da sondagem corresponde ao último dia de trabalho de campo da mesma. Naturalmente, em dias em que não se revelam novas sondagens, não há novas informações pelo que a estimativa não se altera. No entanto, o intervalo de confiança em torno da estimativa aumenta dado que com o decorrer do tempo aumenta a incerteza a ela associada. Desta forma, em cada momento do tempo apresentamos a melhor estimativa possível (bem como o seu intervalo de confiança) dada a informação disponível até ao momento.

Os gráficos abaixo resultam da estimação do modelo referido com base em todas as sondagens publicadas desde as últimas eleições legislativas:

Screen Shot 2015-09-23 at 16.30.08 Screen Shot 2015-09-23 at 16.31.00 Nunca é demais realçar que o que estamos a fazer mais não é do que um método tecnicamente sofisticado de agregação de sondagens. Tal como uma refeição não pode ser melhor do que os ingredientes que a compõem, as nossas previsões só podem ser exactas na exacta medida em que as sondagens nos dêem uma fotografia não enviesada da realidade. Contudo, esperamos contribuir para que, de cada vez que sai uma sondagem, possamos olhar para ela não como um ilusório retrato definitivo da opinião pública, mas sim como uma (importante) fonte de informação que ajuda a compor um retrato mais geral e mais completo da opinião pública num determinado momento.

by Pedro Magalhães