Pedro Magalhães

Margens de Erro

Europeias, Ponto de Situação

Posted May 29th, 2009 at 1:07 pm4 Comments



Já agora, mesmo ciente das objecções possíveis, aqui vão os resultados caso estas sondagens fossem uma única (ou seja, uma média ponderada de todas as sondagens), com uma amostra de 5326 inquiridos com intenções de voto válidas, branco e nulo:



Reporto apenas intervalos de confiança com aproximação à normal, dado que, com uma amostra destas, os resultados são exactamente (à décima) iguais aos dos intervalos exactos. Notem como as diferenças entre PS e PSD, BE e CDU, e CDU e CDS estão todas acima da margem de erro (explicação aqui, com links para fontes).

Sobre intervalos de confiança para distribuições multinomiais, há uma discussão interessante entre o LA-C e um comentador aqui. Segundo percebo, o paper mais citado sobre o assunto é este. Mas o tema está muito para além das minhas capacidades.

by Pedro Magalhães

Europeias. Eurosondagem, 25-27 Maio, N= 2525, Tel.

Posted May 29th, 2009 at 12:53 pm4 Comments

PS: 35,5%
PSD: 32,5%
CDU: 9,2%
BE: 8,8%
CDS-PP: 6,5%

A soma disto dá 92,5%, pelo que presumo que OBN:7,5%.

A notícia menciona igualmente que, entre os 2525, 19,2% (485) não sabe ou não responde. Pelo que a sub-amostra de eleitores com intenções de voto será de 2040 inquiridos. Não há menção de abstencionistas declarados nas várias notícias que consultei, pelo que presumo que, entre os 2525, todos afirmaram que iriam votar. Mas estou a presumir.

by Pedro Magalhães

Intervalos de confiança exactos (e outros)

Posted May 28th, 2009 at 3:07 pm4 Comments

Para os cálculos que o LA-C fez aqui à unha (ou seja, com o Matlab), há um bom simulador online que calcula quatro tipos de intervalo de confiança. O intervalo habitualmente estimado (por aproximação normal à binomial, que usei aqui) é o Wald. O que o Luís calculou é o exacto. Quanto aos outros, a página explica, mas eu vou ter de ruminar mais um bocadinho sobre o assunto. Há também estimativas pontuais alternativas. Um maná.

E um mini-paper que desenvolve o que o Luís explicou.

by Pedro Magalhães

Ainda o empate entre o PS e o PSD

Posted May 28th, 2009 at 2:53 pm4 Comments

Há quem não goste da estratégia de tratar de várias sondagens como se de uma só (grande) sondagem se tratasse. Os argumentos são legítimos: Não podemos saber se não terá havido uma pessoa a responder a mais do que uma sondagem, as metodologias das sondagens são diferentes, o tratamento dos indecisos é diferente, etc, etc. Todos estes argumentos são válidos apesar de, na minha opinião, serem pouco relevantes. De qualquer forma, podemos pegar no problema por outra perspectiva.
Vamos admitir que o PS e o PSD estão, de facto, empatados. Se esta hipótese estiver correcta, então a probabilidade de o PS aparecer à frente numa dada sondagem é de 0,5 (50%). A probabilidade de aparecer à frente em duas sondagens é de 0,5x0,5=0.25 (25%). A probabilidade de aparecer à frente nas seis sondagens já realizadas seria de 0,5^6=0,015625 (1,56%). Ou seja, se os partidos estivessem empatados, a probabilidade de nas 6 sondagens já feitas o PS aparecer sempre à frente seria de 1,56%. Podemos então pôr de parte essa hipótese de ambos estarem empatados com um grau de certeza de 98,4%. É impossívelque estejam empatados? Não, apenas altamente improvável. O mesmo raciocínio se aplica à disputa pelo terceiro lugar, entre o BE e o CDS, e à disputa para o 4º lugar no pódio, disputa entre o CDS-PP e a CDU.

by Pedro Magalhães

Intervalos de confiança (só para nerds)

Posted May 27th, 2009 at 9:27 pm4 Comments

Num dos seus últimos posts, o Pedro explicou com algum detalhe como se calculam intervalos de confiança a partir das sondagens. Penso que explicou muito bem, mas houve algo que não explicitou.

A ideia de um intervalo de confiança é tentar perceber que votações num dado partido são compatíveis com uma dada sondagem. Por exemplo. Suponhamos que uma sondagem dá 40% ao PS. É apenas uma sondagem, não podemos ter a certeza de que a percentagem de votantes no PS seja, de facto, 40%. Pergunta-se então que valores que são compatíveis com os 40% da sondagem? Se a sondagem aponta para 40%, então não é razoável acreditar que o verdadeiro valor das intenções de voto seja 80%, por exemplo. Já 38 ou 42% parecem valores razoáveis. E 48%?, é razoável? É na definição dos extremos que entram os intervalos de confiança.

Por qualquer motivo, que desconheço, convencionou-se que um bom intervalo de confiança era o de 95%. A ideia é subtil. Escolhe-se um intervalo de tal forma que se se fizessem muitas sondagens, 95% delas incluiriam o verdadeiro valor da votação do PS nos seus intervalos de confiança. Isso quer dizer que se, se fizer muitas sondagens, uma em cada 20 errará por muito.

Como calcular esse intervalo de confiança? Quem sabe uns rudimentos de estatística, sabe que a distribuição dos votos segue uma lei de probabilidade binomial. Mas esta é daquelas distribuições que é chatinha de usar, pelo que a maioria das pessoas usa a lei normal, que é muito simples de usar e é uma aproximação bastante razoável na maioria dos casos.

Infelizmente, quando se fala de partidos com pequenas votações a aproximação deteriora-se bastante, podendo até levar a situações de puro nonsense. Imagine o leitor que numa amostra de 400 pessoas, 0,7% declararam votar no POUS. Um intervalo de confiança de 95% incluiria todos os valores desde o 0,1% negativos até ao 1,5% positivo. Ou seja, estar-se-ia a considerar como hipótese razoável que o POUS tivesse um número negativo de votos. Já se se usasse a lei binomial concluir-se-ia, correctamente, que o intervalo de confiança ia de 0,15% até 1,79%. Refaço o quadro que o Pedro fez com os intervalos de confiança para a última sondagem da Aximage, com percentagens calculadas para um universo de 401 pessoas):



Veja-se que a aproximação que o Pedro fez é quase perfeita para o PS e PSD, subestima um pouco a votação dos pequenos partidos (BE, PCP e CDS) e prejudica bastante os micro partidos (o meu intervalo inferior é 30% mais elevado que o do Pedro). Repare-se que este fenómeno pode ajudar a explicar a sensação que muitas vezes se tem de que as votações dos pequenos partidos, sistematicamente, se situam na parte superior do intervalo de confiança. Muitas vezes ouvi dirigentes do PCP e do CDS a queixarem-se disto mesmo.

Olhando para os intervalos de confiança estimados a partir desta sondagem, não se poria de parte a hipótese de o PSD ser o mais votado, nem de o CDS-PP ser a terceira força. Infelizmente para uns, e felizmente para outros, o facto de haver várias sondagens permite reduzir os intervalos de confiança. Como mero exemplo académico, imagine o leitor que em vez de uma sondagem da Aximage, havia 4 sondagens diferentes, feitas seguindo a mesma metodologia e que em média, os resultados são iguais ao quadro de cima. Excluindo a hipótese de haver alguém que tenha respondido a mais do que uma sondagem, temos o equivalente a uma grande sondagem feita com base em 1604 pessoas:



Os intervalos de confiança ficam bem estreitos. Dado que já várias sondagens foram feitas e que todas apontam para uma vitória do PS é difícil de aceitar a hipótese de o PSD e o PS estarem empatados. Para já, o PS leva vantagem.

by Pedro Magalhães

Europeias: ponto de situação

Posted May 27th, 2009 at 4:09 pm4 Comments

by Pedro Magalhães

Casa séria

Posted May 27th, 2009 at 4:07 pm4 Comments

Dentro de pouco tempo, o Luís Aguiar-Conraria vai explicar como, mesmo assim, a estimação de intervalos de confiança para proporções pequenas de uma amostra é ainda mais complexa do que aquilo que eu sugeri. E assim, finalmente, tornar este blogue uma casa séria.

by Pedro Magalhães

Desopilar

Posted May 27th, 2009 at 1:39 pm4 Comments

A última sondagem da Aximage, reloaded

Posted May 27th, 2009 at 12:14 pm4 Comments

Ora bem: tudo esclarecido na versão em papel do Correio da Manhã (parabéns ao CM, já agora):

Abstenção: 64,7% (776 dos 1200 inquiridos, na base do gráfico apresentado)

Intenções de voto antes de redistribuição de indecisos:
PS: 38,0%
PSD: 31,1%
BE: 8,5%
CDU (PCP): 7,9%
CDS-PP: 6,3%
OBN: 2,8%
Indecisos: 5,4%

Intenções de voto após redistribuição de indecisos (tratados como abstencionistas; meu cálculo):
PS: 40,2%
PSD: 32,9%
BE: 9,0%
CDU (PCP): 8,4%
CDS-PP: 6,7%
OBN: 3,0%
(Soma dá 100,2% devido a arredondamentos)

Agora notem uma coisa interessante. Se na amostra há 776 declarados abstencionistas, e se nos 424 que indicaram que iriam votar há 5,4% de indecisos (23 pessoas), então a sub-amostra na base da qual os últimos resultados são calculados é composta por 401 observações. E se é assim:


Então esta sondagem dá (espero não ter errado nenhuma fórmula)... outro empate técnico entre o PS e o PSD, seja do ponto de vista mais vulgar da "sobreposição de intervalos" seja do ponto de vista mais correcto da significância estatística da diferença entre as duas proporções. Não parecia, pois não? Isto, claro, na presunção de que os 64,7% de abstencionistas correspondam a 64,7% da amostra. Mas no CM em papel não ficam dúvidas disso.

Por outro lado, como expliquei aqui no outro dia, não é de todo indiferente que esta seja a sexta de seis sondagens onde, havendo "empates técnicos", há sempre mais intenções de voto no PS que no PSD...

by Pedro Magalhães

Europeias. Aximage, 18-22 Maio, N=1200, Tel.

Posted May 26th, 2009 at 11:27 pm4 Comments

PS: 38,0%
PSD: 31,1%
BE: 8,5%
CDU: 7,9%
CDS-PP: 6,3%

Aqui e aqui. As notícias são omissas sobre indecisos, pelo que talvez possamos presumir que o que falta aqui para 100% (8,2%) serão votos para outros partidos, brancos e nulos.

by Pedro Magalhães