Pedro Magalhães

Margens de Erro

Deputados

Posted June 8th, 2009 at 12:50 pm4 Comments

(Graças a comentários de leitores, rectificado. Obrigado. ):

Num comentário abaixo, sugere-se que seria interessante ver qual seria a distribuição de deputados numas legislativas se os resultados por distrito fossem exactamente iguais aos de ontem. Recorrendo ao site da RTP - que ao Ministério da Justiça, por alguma razão, não consigo aceder - é possível obter os dados por distrito. Não os tenho em base de dados, pelo que os valores foram introduzidos à mão, podendo - espero que não - haver erro de digitação. Mas com estas salvaguardas, os resultados (com a nova distribuição de deputados que está em vigor para as eleições de Setembro/Outubro) seriam os seguintes:

PSD: 96 deputados
PS: 73 deputados
CDU: 23 deputados
BE: 21 deputados
CDS: 16 deputados
MEP: 1 deputado

Estou aqui a presumir que os resultados nos círculos Europa e Fora da Europa seriam iguais aos de 2002. Em suma, neste exercício, PSD+CDS têm 112 deputados. PS+CDU+BE têm 117.

Uma das rectificações que menciono na abertura teve a ver com o MEP. De facto, com 46 deputados a serem eleitos em Lisboa, os 2,32% do MEP seriam suficientes para 1 deputado.

A outra tem a ver com os dados a que acedi de manhã no site da RTP, que estavam incorrectos. Um parágrafo que estava aqui anteriormente sobre me ter chamado a atenção o facto do BE ter ultrapassado os 10% em vários distritos a Norte do Tejo deixou de fazer sentido assim que pude ver os dados no site do MJ.

Safa. Vou mudar o nome deste blogue para A Lei de Murphy. Bem, nem isso consigo: já há.

by Pedro Magalhães

Rescaldo

Posted June 7th, 2009 at 11:49 pm4 Comments

Os resultados ainda são provisórios, mas é muito improvável que qualquer mudança tenha qualquer espécie de importância deste ponto de vista. Avancemos, então, para o rescaldo das sondagens nestas eleições:

1. Serviram as sondagens como um bom elemento de previsão para os resultados? Bem, é evidente que não, mas vejamos a coisa em mais detalhe. O que sempre se faz aqui neste blogue é calcular o chamado "erro 3 de Mosteller", ou seja, simplesmente a média dos desvios absolutos entre os resultados eleitorais e das últimas sondagens para os principais partidos:



Em média, as sondagens diferenciaram-se dos resultados eleitorais de cada um dos cinco maiores partidos em 2,5 pontos no caso da Marktest, 2,8 nos casos do CESOP e da Eurosondagem e 3 pontos no caso da Aximage. A "média das médias" é 2,8 pontos. As diferenças entre o desempenho das diferentes sondagens não é muito relevante: são uniformemente distantes dos resultados finais, em especial em comparação com o desempenho geralmente muito superior nas eleições nacionais imediatamente anteriores, como as Presidenciais ou as Legislativas. Mas a Marktest, para além de ter o menor erro médio, tem uma clara vantagem em relação às outras num aspecto crucial: foi a única a, correctamente, colocar o PSD à frente do PS. Parabéns à Marktest.

2. Nas sondagens à boca das urnas - que medem comportamentos em vez de intenções - o desempenho, claro, foi superior, quando comparamos os resultados com os pontos centrais dos intervalos fornecidos:



O erro médio da Intercampus foi 0,5, do CESOP 0,9, e da Eurosondagem 1,1 pontos. A Intercampus foi quem esteve globalmente mais perto.

3. Vai correr alguma tinta sobre a falta de "credibilidade" das sondagens pré-eleitorais, e é inteiramente justo que se aborde a coisa assim à luz destes resultados. Mas note-se que isto não é novidade em relação às Europeias. Em 2004, "a média dos erros absolutos médios" cometidos pelas quatro últimas sondagens pré-eleitorais foi de 2,5 pontos, pouco menor que em 2009. E em geral, como tinha recordado aqui no dia 5, este é o padrão geral na comparação entre as sondagens feitas para as Europeias com o que se passa nas Legislativas desde 1991. Grande candidato para explicar o problema? A abstenção, evidentemente. Mas isto não isenta quem faz sondagens de responsabilidades: infelizmente, há uma frase de um artigo que escrevi em 2005 que continua a ser verdade:

"However, large errors remain the norm in polls pertainingto European Parliament elections, suggesting a shared inabilityof Portuguese polling organizations in dealing appropriatelywith the problems caused by low turnout."

Fica-me a fraca consolação de não ter de lhe mudar uma vírgula.

4. E tendo em conta tudo o que se passou na campanha no que respeita a sondagens, especialmente, desta vez, em relação ao CDS-PP e (não só, mas especialmente) ao CESOP, já sei o que me espera nos próximos dias. "Eu bem te disse" será o mínimo dos mínimos. Pois. Mas notem:

- continua a ser verdade que o CDS-PP não é invariavelmente subestimado, nas sondagens pré-eleitorais, em todo o tipo de eleições e, nalguns casos, essa subestimação (ou sobrestimação) é estatisticamente irrelevante.
- a hipótese de que o eleitor do CDS-PP é mais atreito a ocultar o seu sentido de voto, várias vezes aventada para explicar os casos em que as sondagens pré-eleitorais têm resultados inferiores aos das eleições, colide com a capacidade das sondagens à boca das urnas para captarem o voto no CDS-PP, como se pode ver acima. Se ocultaram numa, porque não ocultaram nas outras?

Dito isto, obviamente, o que se passou desta vez tem peso, e não só por ser mais notório à luz da controvérsia ocorrida: é que a subestimação do CDS-PP, desta vez, foi muito maior do que tinha ocorrido antes quando o CDS-PP foi subestimado no passado (mais do que nas legislativas de 2002, certamente, e até mais do que nas Europeias de 1999, se a memória não me falha aqui). As sondagens pré-eleitorais subestimaram o CDS-PP entre 5,1 (Marktest) e 2,3 (Eurosondagem) pontos. Basta ver a olho para perceber que é muito ponto para um partido com menos de 10% dos votos. Por mero acaso é que isto não aconteceu. Mas porquê? Dificuldade em captar a tendência (ascendente) do CDS-PP em campanha? A tal "ocultação" (mas como compaginá-la com os resultados da boca das urnas)? Problemas de amostragem (mas como é que sondagens telefónicas, presenciais, aleatórias e por quotas partilham o mesmo problema)? Mais hipóteses (não conspirativas)? Se as têm, seria interessante discuti-las.

Obrigado pela atenção, e até breve.

by Pedro Magalhães

Últimas palavras

Posted June 5th, 2009 at 5:19 pm4 Comments

Assim de repente, ocorrem-me três maneiras de falar destas sondagens e da sua relação com as eleições de Domingo:

1. A primeira é a que se tem seguido até ao momento: pôr os números a falar o mais possível. Haveria eventualmente mais coisas que se poderia fazer, mas a verdade é que com quatro sondagens, ou mesmo com as 13 ao longo de toda a campanha e pré-campanha, há limites para o que se pode fazer. As ideias gerais não vou repetir: estão aqui, aqui, aqui e aqui. Já agora, algumas das coisas que fizemos decorreram directa ou indirectamente de comentários aqui no blogue. Só por isso, já valeu a pena abrir a caixa. Obrigado a todos.

2. Tudo o que diz respeito ao ponto anterior partiu sempre da pressuposição que a única fonte de erro na capacidade das sondagens medirem as intenções de voto no momento em que foram feitas era o erro aleatório associado à selecção de uma amostra que dava a mesma probabilidade a cada membro do universo de ser seleccionado. Sabemos que as coisas não se passam assim. Nenhuma amostra é verdadeiramente aleatória, mesmo que se tente (as pessoas não são bolas nas esfera do Euromilhões, e recusam-se a ser "medidas" ou não estão "lá" para ser medidas quando "deviam" estar). Algumas sondagens até são por quotas. E há uma miríade de potenciais problemas de medição daquilo que se quer medir. Já discuti isto neste blogue muitas vezes, mas no confronto entre as eleições e as sondagens, quase todas as eleições mostram que há um partido ou mais partidos que são sobrestimados pelas sondagens e outros que são subestimados. Claro que isso se pode dever a algo que ocorra entre o trabalho de campo e a eleição. E claro que, ao contrário do que defendem algumas pessoas particularmente imunes ao confronto com os factos, nem sempre são os mesmos partidos que são sobrestimados ou subestimados. Mas isto sugere também a possibilidade de que haja enviesamentos sistemáticos comuns a todas as sondagens num dado contexto eleitoral. Logo, tudo o que resulta das análises descritas no ponto 1 tem de ser visto também deste ângulo mais céptico.

3. Finalmente, a eleição do dia 7 está no futuro, enquanto as sondagens estão no passado. Entre o passado e futuro nem sempre ocorrem coisas que provoquem mudanças nas intenções dos eleitores ou, pelo menos, se ocorrem, dão às vezes ar de se cancelarem umas às outras. Mas há sinais de que, noutros casos, ocorrem. A abstenção é talvez o problema fundamental. Por um lado, está ligado ao ponto anterior (de medição): como apurar se, num determinado momento, alguém tenciona realmente abster-se ou não? As pessoas resistem - porventura cada vez menos - a admitir isso e, logo, dão intenções de voto que não se realizam. Se essas forem sistematicamente diferentes das do que realmente votam, temos o caldo entornado. Mas é também um problema de diferença entre intenções presentes e comportamentos futuros: eu posso achar hoje que vou votar e, no Domingo, arranjar algo melhor para fazer. Se quem chega a esta conclusão for sistematicamente diferente daqueles que não chegam, o caldo entorna-se ainda mais. Em geral, todos os estudos mostram, inclusivamente em Portugal (shameless plug), que eleições de alta abstenção tendem a exibir maiores diferenças entre as sondagens e os resultados. E esta do dia 7 é, claro, desse terrível género.

Tudo isto para dizer aquilo que estas sondagens dizem sobre o que ocorrerá no Domingo tem limites, uns estimáveis (ponto 1), outros infelizmente não (pontos 2 e 3). Logo, se se importam com os resultados, o melhor que têm a fazer é ir votar. E é com esta nota profundamente cívica - abstendo-me de estimar a probabilidade de um voto individual ser decisivo para não desmoralizar ninguém - que me despeço até 2ª feira.

by Pedro Magalhães

Previsível empate técnico

Posted June 5th, 2009 at 5:18 pm4 Comments

Não consigo imaginar o que quererá o Público dizer quando diz que um dos resultados mais previsíveis na noite eleitoral será um empate técnico. Penso que quer Vital quer Rangel disseram que a vitória era ter mais um voto do que o oponente. Pelo que, provavelmente, o Público quererá mesmo dizer que os dois terminarão com o mesmo número de votos. Nem sei bem como calcular a probabilidade de que ambos acabem com o mesmo número de votos, mas vou fazer um esforço por quantificar tais quantidades.

Para começar, Portugal tem cerca de 8 milhões de eleitores. Destes, cerca de 65% não votarão, pelo ficamos com 2 milhões e 800 mil votantes. Como apenas queremos analisar a possibilidade de empate entre o PS e o PSD, retiremos os restantes eleitores. Admitamos, para simplificar que o PS e o PSD terão cerca de 2 milhões de votos ao todo. Para haver empate é necessário que vote um número par de pessoas (se o número for ímpar o empate é impossível). Simplifiquemos ao máximo e admitamos que votam exactamente 2 milhões de pessoas (um número par, portanto).

Lamento, mas ainda não chega. Temos de simplificar um pouco mais. Admitamos que a nossa percepção é de uma divisão completa. Ou seja, quando olhamos para um tipo pela rua, atribuímos-lhe a probabilidade de 50% de votar no PS e de 50% de votar no PSD. Com todas estas simplificações, a probabilidade de um empate é 0,00056. Um cenário probabilíssimo, como se vê. Mas, admitamos uma hipótese um pouco mais realista. Dado que o mesmo Público nos diz que o PS aparece à frente em quase todas as sondagens, é razoável admitir que um tipo que encontremos na esquina da rua vá votar PS com uma probabilidade de, digamos, 50,5%. Votará no Paulo Rangel com probabilidade de 49,5%. Com estes novos números, qual seria então a probabilidade de cada um ter um milhão de votos? A resposta a esta pergunta é de 0,000000000000000000000000000000000000000000000021 (salvo qualquer erro a digitar os quarenta e seis zeros). É este cenário que o Público, o melhor jornal Português, considera como um dos mais previsíveis.

by Pedro Magalhães

A "previsão" do LA-C

Posted June 5th, 2009 at 4:42 pm4 Comments

Nesta "previsão" do LA-C no post abaixo, tal como explicado ainda mais abaixo, lida-se com a grande variabilidade dos OBN's tomando com base apenas a votação nos 5 maiores partidos. Mas da maneira que isto está em termos de comentário a estes assuntos (ver aqui ou aqui), o Luís ainda se arrisca a que venham dizer que, afinal, "o partido x teve y nas eleições quando a previsão dava y + z".

Logo, apesar do verdadeiro confronto desta previsão com os resultados poder vir a ser feita logo após as eleições (tomando como base, obviamente, o resultados dos cinco maiores), fica aqui a "tradução" da previsão do LA-C em resultados eleitorais "convencionais", presumindo que os OBN serão 9,2%, ou seja, a média ponderada para as 4 sondagens. O que diz a Bola de Cristal do Qui-Quadrado?

PS: 34,5%
PSD: 31,8%
CDU: 9,9%
BE: 9,5%
CDS: 5%
OBN (presumido): 9,2%

Confirmas, Luís? Os intervalos encolherão um pouco, claro. E esta minha operação, evidentemente, "força" a semelhança com a média ponderada. Mas era só para ter a certeza que a coisa era devidamente compreendida.

by Pedro Magalhães

As minhas “previsões” para a noite eleitoral (2)

Posted June 5th, 2009 at 4:29 pm4 Comments

E, seguindo a metodologia explicada no post anterior, aqui ficam as minhas previsões:


by Pedro Magalhães

Quando o Público fizer 30 anos e uma nova antologia dos disparates, este terá lugar de destaque.

Posted June 5th, 2009 at 1:44 pm4 Comments

As minhas “previsões” para a noite eleitoral (1)

Posted June 5th, 2009 at 1:20 pm4 Comments

Os representantes dos pequenos partidos que me desculpem, mas, dado que nenhuma sondagem lhes dá uma votação suficientemente relevante para elegerem um deputado que seja, neste post vou esquecê-los.
Juntando a informação sobre as últimas sondagens realizadas  que o Pedro Magalhães recolheu (com a incerteza sobre alguma destas informações que o Pedro também detalhou). Ficamos com o seguinte quadro:



Os totais não dão 100% precisamente por causa das pessoas que declaram ir votar em Outros/Brancos/Nulos. Se nos centrarmos apenas nas votações dos 5 grandes partidos, ficamos com a seguinte repartição:



Olhando para a ordenação dos partidos a sondagens parecem razoavelmente consensuais. Apenas 2 elementos de discórdia: de acordo com a Marktest é o PSD que lidera a corrida e a CESOP põe a CDU à frente do BE.
Olhando para este quadro não se vê nenhuma sondagem se seja brutalmente diferente das outras. Se tivermos em consideração intervalos de confiança de 95%, é fácil de ver que há resultados finais que são compatíveis com todas as sondagens.
Mas em que sentido é que eu digo que os resultados são compatíveis com as sondagens? Haveria algumas formas de responder a esta pergunta. Por exemplo, o Pedro Magalhães já calculou as médias ponderadas, o que é uma boa forma de lidar com a questão, dado que estas médias correspondem ao estimador de máxima verosimilhança (admitindo distribuições multinomiais como base e mais alguns pressupostos)
Eu vou recorrer a um teste muito simples, que é dado nos cursos de Introdução à Estatística que é o teste do Qui quadrado. Basicamente, Suponhamos que queremos testar a hipótese de que o PS  tem 25% dos votos, o CDS 15% e todos os outros 20%. E, para tal, usamos a sondagem da CESOP. De acordo com a nossa hipótese, em 1426 entrevistados, 357 devia ter declarado votar no PS, 285 no PSD, na CDU e no BE e, finalmente, 214 no CDS. Mas, de acordo com o quadro acima, houve 539 que declararam votar no PS, 507 no PSD, 143 no BE, 174 na CDU e 63 no CDS. Para ver se estas diferenças são estatisticamente relevantes, calcula-se:



Quanto mais próximos esta conta for de zero, mais razoável é a nossa hipótese de partida. Para ver testar se este valor é suficientemente próximo de zero usa-se a distribuição do Qui-quadrado.  Neste caso, rejeitava-se a hipótese de a nossa hipótese ser correcta com uma certeza de 99,99999%.
O exercício que vou fazer no meu próximo post é simples. Usando este teste do Qui-quadrado, perguntar qual seria a votação para cada partido que é mais compatível com as últimas sondagens feitas. Para tal calculo o Qui-quadrado associado a cada uma das sondagens e minimizo a sua soma.
Não entrei aqui em grandes detalhes estatísticos, mas em bom rigor, tal procedimento apenas seria válido se as amostras fossem aleatórias (o que não é o caso), se as sondagens fossem independentes (o que não é garantido), etc, etc. Vejam isto como eu vejo: um mero exercício que apenas seria absolutamente correcto sob condições óptimas.

by Pedro Magalhães

Como?

Posted June 5th, 2009 at 12:26 pm4 Comments

O conjunto das sondagens (2)

Posted June 5th, 2009 at 10:34 am4 Comments

Mas não temos de ficar por aqui. Uma abordagem possível consiste em tratar as quatro sondagens como uma única. Há, claro, muitas objecções a isto. Mas há uma que, pelo menos, é grandemente afastada: o facto das sondagens terem sido conduzidas em momentos diferentes. Isso ainda sucede, claro, mas a aproximação temporal é muito maior do que sucedia quanto aplicávamos a mesma ideia ao conjunto de todas as sondagens conduzidas até ao momento. Vamos lá, então:





A amostra agora é de 4109 inquiridos. Sobre o CDS-PP ser o quinto partido não há novidades, claro. Mas agora a vantagem do PS sobre o PSD torna-se significativa. Claro que esta abordagem tem vantagens e desvantagens. Estamos a valorizar mais as sondagens com amostras maiores, como deve ser. Mas estamos a desvalorizar sondagens que podem ter eventualmente, apesar de uma amostra menor, uma qualquer outra característica que lhe tenha permitido contornar melhor todas as outras restantes fontes de erro. Estou a pensar na Marktest, claro. Mas entre uma quase certeza (maior amostra, maior precisão) e uma incerteza, creio que ficamos a saber mais quando olhamos para os dados assim.

by Pedro Magalhães