Pedro Magalhães

Margens de Erro

Quando o Público fizer 30 anos e uma nova antologia dos disparates, este terá lugar de destaque.

Posted June 5th, 2009 at 1:44 pm4 Comments

As minhas “previsões” para a noite eleitoral (1)

Posted June 5th, 2009 at 1:20 pm4 Comments

Os representantes dos pequenos partidos que me desculpem, mas, dado que nenhuma sondagem lhes dá uma votação suficientemente relevante para elegerem um deputado que seja, neste post vou esquecê-los.
Juntando a informação sobre as últimas sondagens realizadas  que o Pedro Magalhães recolheu (com a incerteza sobre alguma destas informações que o Pedro também detalhou). Ficamos com o seguinte quadro:



Os totais não dão 100% precisamente por causa das pessoas que declaram ir votar em Outros/Brancos/Nulos. Se nos centrarmos apenas nas votações dos 5 grandes partidos, ficamos com a seguinte repartição:



Olhando para a ordenação dos partidos a sondagens parecem razoavelmente consensuais. Apenas 2 elementos de discórdia: de acordo com a Marktest é o PSD que lidera a corrida e a CESOP põe a CDU à frente do BE.
Olhando para este quadro não se vê nenhuma sondagem se seja brutalmente diferente das outras. Se tivermos em consideração intervalos de confiança de 95%, é fácil de ver que há resultados finais que são compatíveis com todas as sondagens.
Mas em que sentido é que eu digo que os resultados são compatíveis com as sondagens? Haveria algumas formas de responder a esta pergunta. Por exemplo, o Pedro Magalhães já calculou as médias ponderadas, o que é uma boa forma de lidar com a questão, dado que estas médias correspondem ao estimador de máxima verosimilhança (admitindo distribuições multinomiais como base e mais alguns pressupostos)
Eu vou recorrer a um teste muito simples, que é dado nos cursos de Introdução à Estatística que é o teste do Qui quadrado. Basicamente, Suponhamos que queremos testar a hipótese de que o PS  tem 25% dos votos, o CDS 15% e todos os outros 20%. E, para tal, usamos a sondagem da CESOP. De acordo com a nossa hipótese, em 1426 entrevistados, 357 devia ter declarado votar no PS, 285 no PSD, na CDU e no BE e, finalmente, 214 no CDS. Mas, de acordo com o quadro acima, houve 539 que declararam votar no PS, 507 no PSD, 143 no BE, 174 na CDU e 63 no CDS. Para ver se estas diferenças são estatisticamente relevantes, calcula-se:



Quanto mais próximos esta conta for de zero, mais razoável é a nossa hipótese de partida. Para ver testar se este valor é suficientemente próximo de zero usa-se a distribuição do Qui-quadrado.  Neste caso, rejeitava-se a hipótese de a nossa hipótese ser correcta com uma certeza de 99,99999%.
O exercício que vou fazer no meu próximo post é simples. Usando este teste do Qui-quadrado, perguntar qual seria a votação para cada partido que é mais compatível com as últimas sondagens feitas. Para tal calculo o Qui-quadrado associado a cada uma das sondagens e minimizo a sua soma.
Não entrei aqui em grandes detalhes estatísticos, mas em bom rigor, tal procedimento apenas seria válido se as amostras fossem aleatórias (o que não é o caso), se as sondagens fossem independentes (o que não é garantido), etc, etc. Vejam isto como eu vejo: um mero exercício que apenas seria absolutamente correcto sob condições óptimas.

by Pedro Magalhães

Como?

Posted June 5th, 2009 at 12:26 pm4 Comments

O conjunto das sondagens (2)

Posted June 5th, 2009 at 10:34 am4 Comments

Mas não temos de ficar por aqui. Uma abordagem possível consiste em tratar as quatro sondagens como uma única. Há, claro, muitas objecções a isto. Mas há uma que, pelo menos, é grandemente afastada: o facto das sondagens terem sido conduzidas em momentos diferentes. Isso ainda sucede, claro, mas a aproximação temporal é muito maior do que sucedia quanto aplicávamos a mesma ideia ao conjunto de todas as sondagens conduzidas até ao momento. Vamos lá, então:





A amostra agora é de 4109 inquiridos. Sobre o CDS-PP ser o quinto partido não há novidades, claro. Mas agora a vantagem do PS sobre o PSD torna-se significativa. Claro que esta abordagem tem vantagens e desvantagens. Estamos a valorizar mais as sondagens com amostras maiores, como deve ser. Mas estamos a desvalorizar sondagens que podem ter eventualmente, apesar de uma amostra menor, uma qualquer outra característica que lhe tenha permitido contornar melhor todas as outras restantes fontes de erro. Estou a pensar na Marktest, claro. Mas entre uma quase certeza (maior amostra, maior precisão) e uma incerteza, creio que ficamos a saber mais quando olhamos para os dados assim.

by Pedro Magalhães

O conjunto das sondagens (1)

Posted June 5th, 2009 at 10:04 am4 Comments

Tenho apenas conhecimento de quatro últimas sondagens. Vamos olhar para elas:



Duas telefónicas, duas presenciais com simulação de voto em urna. Uma com amostragem por quotas (Marktest), três com amostragem estratificada aleatória, sendo que duas delas (CESOP e Marktest) fazem ponderação pós-amostral com base em dados das estatísticas nacionais. Três tratam indecisos como abstencionistas, outra usa um modelo próprio (Aximage). Apesar de tudo, uma razoável diversidade de abordagens.

Questões concretas:
1. Quem estava à frente no momento em que foi feito o trabalho de campo? A única sondagem que "diz" saber a resposta a essa pergunta com elevado grau de confiança é a Eurosondagem. A sua resposta é "o PS". Como vemos no quadro abaixo, tendo em conta a dimensão da amostra, a diferença de 4,1 pontos nessa sondagem é estatísticamente significativa. As restantes três sondagens não sabem a resposta a essa pergunta. Nem mesmo a Aximage, apesar de dar 5,3 pontos de vantagem ao PS. É o preço a pagar por uma amostra reduzida (mas pode ser um preço compensador se isso resultar de uma boa exclusão de não-votantes; com mais de 60% de não-votantes na Aximage, isso pode ser o caso).



2. Quem estava à frente no momento em que foi feito o trabalho de campo: BE ou CDU? A única sondagem que "diz" saber a resposta a essa pergunta é a do CESOP. "CDU", é a resposta. Para todas as outras, as diferenças num sentido ou noutro não têm significância estatística.

3. Qual era o quinto partido no momento em que foi feito o trabalho de campo? Pelo menos, aqui há consenso: o CDS-PP.

Tudo o que está acima presume que as amostras são genuinamente probabilisticas e que não há fontes de erro para além do erro amostral. Não é verdade. Mas é o que temos.

by Pedro Magalhães

Europeias. Eurosondagem, 1-2 Junho, N= 2033, simulação em urna.

Posted June 5th, 2009 at 9:48 am4 Comments

PS: 36,0%
PSD: 31,9%
BE: 10,1%
CDU: 9,0%
CDS-PP: 6,1%
OBN: 6,9%

A amostra é de 2033. Desses, 16,4% estavam indecisos, pelo que as percentagens acima são calculadas em relação a um total de, no máximo, 1700 inquiridos. Não se fala na notícia do Expresso em abstencionistas, pelo que teremos de os presumir ausentes da amostra.

by Pedro Magalhães

Europeias. Aximage, 1-4 Junho, N=1274, Tel.

Posted June 4th, 2009 at 8:53 pm4 Comments

PS: 36,2%
PSD: 30,9%
BE: 10,2%
CDU: 10,1%
CDS-PP: 5,0%


Não sei se é resultado antes ou depois de redistribuição de indecisos. Sei apenas que a soma disto dá 92,4%. É provavelmente mais sensato esperar pelo Correio da Manhã de amanhã antes de tirar mais conclusões sobre esta sondagem.

Actualização (5 de Junho):
1. OBN é mesmo 7,6%. Estas percentagens já excluem indecisos e não respostas. Segundo o CM, a distribuição dos indecisos "foi realizada a partir de um modelo que combina perguntas sobre o tipo de indecisão (abstenção/voto em quem), voto anterior, dinâmica de vitória e simpatia pelos principais candidatos". Interessante.
2. A amostra é de 1274 inquiridos. 65,3% disseram que não iriam votar. Sobram 442. Alguns deles terão dito que estão indecisos, pelo que as percentagens acima terão como base um valor inferior a 442. Mas a julgar pelas anteriores sondagens da Aximage, esse valor não há de ser muito inferior. Vamos considerar 442.

by Pedro Magalhães

Europeias. CESOP, 30 Maio-2 Junho, N=3375, simulação voto urna.

Posted June 4th, 2009 at 6:16 pm4 Comments

PS: 34%
PSD: 32%
CDU: 11%
BE: 9%
CDS-PP: 4%
MEP: 2%
PCTP-MRPP: 1%
Outros: 3%
Brancos e nulos: 4%

Esta estimativa tem como base as intenções de voto dos inquiridos que afirmaram "ter a certeza" que irão votar e que forneceram intenções de voto válidas, em branco ou nulo: foram 1584. Podem descarregar mais detalhes aqui.

by Pedro Magalhães

Outlier: "credibilidade"

Posted June 4th, 2009 at 3:51 pm4 Comments

Para o TVI24, eu ponho "em causa a credibilidade dos números do INE".

by Pedro Magalhães

O que aí vem.

Posted June 4th, 2009 at 12:34 pm4 Comments

Os quadros seguintes mostram o template que vou usar para analisar cada sondagem.

Um primeiro quadro dá alguma informação geral, mostra as estimativas de resultados eleitorais e o intervalo de confiança a 95% (aproximação à normal) associado a cada estimativa, na base da dimensão da sub-amostra de inquiridos que exprimiram uma intenção de voto, mesmo que seja em branco ou nulo. Um segundo quadro mostra diferenças entre partidos na sondagem, assim como a margem de erro da diferença. Quando a diferença na amostra é inferior à margem de erro, isso significa que essa diferença carece de significância estatística a 95%, e assinalo isso a vermelho. Quando a diferença na amostra é superior, isso significa que a diferença é estatisticamente significativa a 95%, e assinalo isso a verde. Respeitarei a opção de cada instituto de apresentar resultados com ou sem casas decimais. Tudo isto pressupõe, claro, amostragem probabilística, que sabemos ser uma pressuposição inválida. Mas enfim.

Comecemos então pela Marktest. Desde logo, a dimensão da sub-amostra de intenções válidas não se pode calcular na base das notícias saídas até ao momento. Por isso, para já, irei presumir que a percentagem de abstencionistas declarados, indecisos e não respostas é igual à do estudo anterior, o que resulta numa sub-amostra de 383.





O que nos dizem estes quadros:

1. Estritamente na base da sondagem Marktest, não é possível dizer, com um elevado grau de confiança, se a vantagem do PSD sobre o PS na amostra correspondia, à data da sondagem, a uma vantagem real na população.
2. A mesma afirmação serve para a relação entre o BE e a CDU.
3. O mesmo já não sucede com o CDS-PP: a vantagem encontrada da CDU e do BE sobre o CDS-PP é estatisticamente significativa.

by Pedro Magalhães