Pedro Magalhães

Margens de Erro

Eurosondagem, 15 de Janeiro

Posted January 15th, 2005 at 11:30 pm4 Comments

Mais uma: Eurosondagem, publicada no Expresso de 15 de Janeiro, realizada também para a SIC e a Rádio Renascença. Resultados tal como destacados no jornal:

PS: 45,7%
PSD: 32,5%
CDU: 6,5%
CDS:6,5%
BE: 5,4%

A soma dá 96,6%. Os restantes 3,4% deverão corresponder aos outros partidos, brancos e nulos. Os indecisos já estão fora disto, dado que se assinala no jornal que estes resultados decorrem de "um exercício meramente matemático, presumindo que os 7,9% que responderam 'Não sabe/Não responde' se abstêm".

Não me vou repetir sobre as malditas casas decimais...

by Pedro Magalhães

Teaserzinho

Posted January 14th, 2005 at 3:29 pm4 Comments

Eu também tenho o meu teaser: fizemos ontem na Católica uma sondagem para a última edição do Prós e Contras na RTP e para o Público. É sobre as eleições, é telefónica e tem uma amostra de dimensão modestinha (655). Mas as perguntas não são sobre intenção de voto nem sobre nada que exija uma precisão acima do convencional. São sobre:

- o grau de interesse dos portugueses pela política;

- se alguma vez tiveram um contacto directo com algum deputado do seu círculo eleitoral (a coisa está formulada de forma a não perder um único contacto seja com quem tenha sido);

- se sabem o nome de algum cabeça de lista de algum partido que alguma vez tenha concorrido em eleições passadas no seu círculo eleitoral;

- e se concordam ou discordam com uma série de items normalmente usados em estudos de cultura política, sobre, por exemplo, se os políticos se interessam pelas opiniões das pessoas, se os partidos são todos iguais ou sobre até que ponto as eleições são importantes para mudar os curso dos acontecimentos.

Tenho os resultados à minha frente, mas não os posso dar aqui antes de o Público o fazer, o que acontecerá na próxima 2ª feira. Contudo, o teaser é este: a eminente previsibilidade dos resultados obtidos (estão alinhados com os resultados de anteriores inquéritos) não chega para mitigar o enorme choque que eles produzem.

by Pedro Magalhães

Limites e virtudes da "poll of polls"

Posted January 14th, 2005 at 2:32 pm4 Comments

Tenho recebido vários e-mails, todos invariavelmente amistosos. Estou aliás a ponderar se a minha renitência em permitir comentários aos posts deste blogue (motivada pelas horripilantes experiências a que tenho assistido noutros blogues) não será injustificada.

E outra coisa interessante é que tenho recebido mensagens de pessoas que parecem perceber realmente de Estatística. Para compreender o que esse "realmente" quer dizer bastará dizer que percebem muito mais do que eu. Nos cursos de Ciência Política aprendem-se umas coisas, com a prática e as leituras outras, mas saber é saber. Quando começo a ouvir falar em "heterocedasticidade", a mente começa-me a ficar ligeiramente turva.

Isto para dizer que recebi uma amável mensagem onde se faz uma observação a algo que escrevi antes: que fazer uma poll of polls, uma média dos resultados obtidos por diferentes sondagens em momentos próximos do tempo, ajudaria a "cancelar" o erro amostral. A observação é a seguinte:

Já agora faço um ligeiro reparo à sua observação sobre a "Poll das Polls": Não seria o erro de enviezamento (não amostral) que tenderia a anular-se quando se comparam sondagens com diferentes formatações de processos amostrais? É que a Distribuição Amostral da Variância (erro amostral) deve (penso eu) ser uma variável independente nos dois processos amostrais seguidos pelas empresas em causa, pelo que constituiria um factor de agravamento no cômputo do Erro Aleatório Total da (digamos) Sondagem Consolidada...

Ora muito bem. Expliquei-me certamente mal, e pode até suceder que, por muito bem que me consiga explicar, continue a estar fundamentalmente enganado. Mas o que penso estar correcto é o seguinte:

1. Se o erro associado a uma estimativa sobre uma distribuição na população for meramente erro "não sistemático", "amostral", aquele que resulta de usar apenas uma parte (amostra) dessa população para fazer inferências, a média obtida tendo como base um número infinito de amostras extraídas no mesmo momento da mesma população com os mesmos procedimentos de amostragem deveria convergir para a média da população. Estou correcto?

2. Sabemos, claro, que:
- não temos um número infinito de amostras;
- elas não são extraídas no mesmo momento;
- os procedimentos de amostragem são diferentes;
- os questionários são diferentes.

3. Contudo, mesmo que usemos um número não-infinito de amostras recolhidas em momentos próximos no tempo e com dimensões diferentes (são três - bem sei - violações aos pressupostos anteriores) e façamos a média dos resultados obtidos, não estaremos nós, no entanto, a continuar a contribuir para reduzir o erro amostral? Não é como se estivéssemos, simplesmente, a aumentar a dimensão da amostra?

4. Parece-me a parte do erro que que as médias nunca servem para corrigir é o erro sistemático. Por exemplo: se todas as sondagens forem telefónicas, e se houver algo que faça com que os eleitores que não tenham telefone sejam substancialmente diferentes dos restantes, fazer a média não corrige o erro sistemático (enviesamento) que daí decorre. Outro exemplo: se houver um factor socio-político que leve a que potenciais eleitores de um determinado partido ocultem mais as suas opções aos inquiridores do que potenciais eleitores de outro partidos, posso fazer um número infinito de sondagens que não é isso que me vai eliminar essa fonte de erro. O erro sistemático aparecerá em todas as sondagens e, logo, também na média.

5. Dito isto, aproximando-me agora do autor da mensagem, há quem defenda que, se não tivermos quaisquer expectativas acerca de que procedimentos de amostragem e inqurição melhor ajudam à eliminação de fontes de erro sistemático, calcular a média simples de sondagens que utilizam metodologias de amostragem e inquirição substancialmente diferentes é uma maneira de o reduzir. Isto porque há trade-offs que fazem com que a eliminação de algumas fontes de erro sistemático através de determinados procedimentos leve ao aparecimento de outras, pelo que a média tende sempre a ser a melhor estimativa. Ver, por exemplo, Armstrong, J. Scott (2001), "Combining Forecasts," in J. Scott Armstrong (Ed), Principles of Forecasting, Norwell, Kluwer;

6. E dito isto, os problemas na nossa poll of polls mantêm-se: são muito poucas, são muito espaçadas no tempo e, a acreditar no Sr. Armstrong, não utilizam procedimentos suficientemente diversos. Mas quanto mais não seja - e é talvez isso que deveria ter dito desde o princípio - a "poll of polls" dá-nos a capacidade de comparar as sondagens entre si por meio de um referencial fornecido pela média de todas elas.

Terei razão no todo ou em parte desta argumentação? Estou bem menos que 100% seguro, ou não fosse o título deste blogue aquele que é. Vejam, por exemplo, a animada discussão que se seguiu a este post do Mistery Pollster sobre o assunto. Gostava muito de ouvir mais "estatísticos a sério" - e eu não pertenço à classe - pronunciarem-se sobre isto...

by Pedro Magalhães

E obrigado ainda

Posted January 13th, 2005 at 2:43 pm4 Comments

À Inês (informando-a que este não foi trazido ao mundo por mim, mas sim por alma caridosa cuja identidade desconheço), ao food-i-do, ao Salvos e Afogados, aos (In)separáveis, ao Nortadas, ao Picuinhices, à Rua da Judiaria, ao Felgueiras Blog, ao ABsurdo Ponto, ao Ponto Media, a O Vilacondense, ao Perguntas Pertinentes (havemos de falar sobre internet polls), ao Resistente Existencial, ao Blogue de Esquerda, a A Fonte, ao André (e ao Daniel, e ao Pedro, e restantes barnabitas), ao Opiniões Facciosas, ao Abnoxio, ao Dito Cujo, ao Briteiros, ao Sentidos da Vida, ao Cartas de Londres, a os estados da nação, ao acanto, ao cibertúlia, ao Fumaças, ao Atrium e ao Homem a Dias (tenho um amigo que resume admiravelmente a minha carreira académica como consistindo em "fazer essas tretas do qui-quadrado").

Vou tentar não esquecer ninguém, mas confesso que continuo baralhado com o Technorati.

by Pedro Magalhães

Poucos mas bons? (longo)

Posted January 12th, 2005 at 12:08 pm4 Comments

Quando se olha para os quadros dos posts anteriores, é impossível não se pensar no número reduzido de sondagens eleitorais que se publica em Portugal: apenas 6 passado mais de um mês após o anúncio da dissolução da AR, e a pouco mais de um mês das eleições. Não é preciso que nos comparemos com exemplos estratosféricos para perceber isso (tais como este). Basta ir a Itália.

Porquê? Suponho que há três razões fundamentais:

1. Recursos. Estas coisas são caras, especialmente se não forem feitas pelo telefone, e o tempo para a imprensa é de vacas magras. E mesmo que os media estivessem cheios de dinheiro, os institutos/empresas carecem eles próprios dos recursos necessários para fazerem trabalhos de qualidade com grande frequência. É aliás frequente que as sondagens sejam feitas para consórcios, mesmo formados por jornais ou canais de televisão sem ligação empresarial directa (Expresso/SIC/RR; RTP/RDP/Público), para fins de repartição de custos. E até acontece que um órgão de comunicação anuncie os resultados de sondagens encomendadas por outros, prática que não me parece censurável em si mesma mas é totalmente impensável noutros países.

2. Risco e reputação. Sem ter dados concretos, julgo saber que - em parte pela razão anterior- os estudos eleitorais conduzidos para os jornais e as televisões constituem uma parcela ínfima do volume de negócios da maior parte dos institutos/empresas de sondagens em Portugal. Esse é composto, na sua maioria, por estudos de mercado e de audiências, seguidos provavelmente pelas sondagens feitas para partidos (cujos resultados raramente vêm a público).

Contudo, há uma grande desproporção entre esse (reduzido) peso das sondagens eleitorais na actividade dos centros e a (enorme) exposição pública a que os sujeitam. Isto levanta problemas. Para quem olha para isto de fora, as eleições têm a vantagem singular de constituirem a única ocasião em que as inferências feitas na base de uma amostra podem ser imediatamente confrontadas poucos dias depois com os comportamentos da população. Mas para quem olha para isto de dentro, isto pode ser uma desvantagem: um trabalho que corre mal (e pode correr muito mal, mesmo que se faça tudo "bem" do ponto de vista metodológico) pode ser fatal para a reputação de uma empresa que, na verdade, não vive de sondagens eleitorais, mas sim de outras áreas de trabalho.

Como resultado, com a passagem do tempo, só tende a ficar nesta área quem simultaneamente se sente seguro de dispor dos recursos técnicos e materiais suficientes para fazer consistentemente um bom trabalho e/ou (e este "e/ou" é importante, porque os casos variam) tem um nível de dependência maior da área eleitoral do que de outras áreas de negócio.

3. Regulação. Apesar de todos os problemas que persistem, a mudança na lei das sondagens de 2000 veío contribuir para tornar o mercado menos selvagem. A partir daí, os institutos/empresas passaram a carecer de credenciação especial da Alta Autoridade para a Comunicação Social para trabalharem nesta área, uma credenciação cuja concessão depende da satisfação de um conjunto de exigências técnicas e de continuidade de trabalho. Como resultado, por exemplo, o fenómeno das empresas que de repente apareciam a fazer sondagens antes das eleições para logo de seguida voltarem à obscuridade tem, ele próprio, vindo a desaparecer (uma curiosidade: sabiam que uma empresa chamada Compta já fez sondagens? Na última sondagem que fez antes das eleições legislativas de 1995 - publicada no Semanário no dia 16 de Setembro - dava o PS e o PSD com "empate técnico").

Resultado: poucas sondagens eleitorais. Mas é possível argumentar que a perda de quantidade levou a um aumento geral da qualidade. Quando olhamos para as sondagens feitas antes das eleições de 2002, acho que é impossível não constatar que, afinal, o público não terá sido muito mal servido. E se tiverem (muita) paciência, olhem para aqui: desde o início dos anos 90 até hoje, a precisão das estimativas eleitorais feitas em Portugal melhorou bastante. Quem ficou faz, em geral, bom trabalho, apesar das inúmeras deficiências que persistem na forma como os resultados são divulgados.

(Sei que não terei convencido muita gente sobre este último ponto, mas prometo insistir com dados mais concretos em posts futuros).

by Pedro Magalhães

Mais agradecimentos

Posted January 12th, 2005 at 11:16 am4 Comments

E obrigado também, pelas referências e palavras amáveis, ao Mau Tempo no Canil, ao Tugir, ao Adufe, ao Causa Nossa, ao Intermitente, ao Paulo Gorjão, ao Contra Santana, ao Uma Campanha Alegre, ao Linha do Horizonte, ao Blasfémias, ao Tempestade Cerebral (que coloca "a mãe de todas as perguntas" sobre as sondagens eleitorais, à qual prometo tentar responder em breve), ao Incursões, ao Speakers Corner Liberal Social, ao meu estimado colega Rogério Santos, ao ...Blogo Existo, ao Amicus Ficaria , ao Devaneios Lusos, ao Quando-O-Blog-Bate-mais-Forte, ao Maré Alta, ao Terra do Sol, ao Luciano e, last but certainly not least, ao outro Pedro Magalhães. Quanto aos mails recebidos, o que posso prometer é que a resposta vai ser lenta mas segura.

by Pedro Magalhães

Obrigado

Posted January 11th, 2005 at 12:38 pm4 Comments

Ao Ivan, à Desassossegada e ao Filipe (e ao Pula Pula Pulga pela inclusão nas leituras).

by Pedro Magalhães

Poll of Polls II

Posted January 11th, 2005 at 12:15 pm4 Comments

Com a nova sondagem da Aximage, o panorama geral desde o anúncio de dissolução do parlamento passa a ser o seguinte:



Fazer a poll of polls, com resultados que sejam comparáveis entre si e, para melhor compreensão intuitiva, com resultados eleitorais, torna-se complicado quando não se divulgam como se repartem indecisos e votos válidos. Mas façamos a pressuposição - sempre questionável - que a percentagem de indecisos nesta sondagem da Aximage foi igual à encontrada na sondagem anterior: 7,8%. Ficamos assim, após redistribuição, com as seguintes estimativas:



Não há novidades substanciais. Começa a notar-se uma tendência para que a Aximage estime vantagens mais dilatadas para o partido vencedor do que a Eurosondagem, mas as diferenças estão ainda dentro do que seriam as margens de erro caso todas as sondagens fossem verdadeiramente aleatórias. E estamos ainda dentro do reino das "telefónicas" e de métodos - escolhidos ou por mim "impostos" - simplesmente proporcionais de redistribuição dos indecisos. Aguardemos...

by Pedro Magalhães

Aximage, 10 Janeiro

Posted January 11th, 2005 at 11:13 am4 Comments

Não há fome que não dê em fartura. Dois dias depois da sondagem do Expresso, saiu ontem (2ª feira) uma nova sondagem eleitoral no Correio da Manhã, pela Aximage, que até já mereceu comentário no Causa Nossa. Resultados apresentados:

PS: 45,6%
PSD:27,5%
CDU:6,6%
CDS: 6,6%
BE: 3,4%

Alguns comentários técnicos:

1. Escuso de me alongar muito sobre o que significa usar uma amostra de 600 inquiridos e apresentar resultados com casas decimais (ver post sobre sondagem anterior).

2. Qual é a margem de erro desta sondagem? Há duas respostas para esta pergunta:

a. A primeira resulta da ficha técnica: "desvio padrão máximo de 0,020". Entenderam? Não? Eu também não. Há anos que a Aximage apresenta esta informação na sua ficha técnica, e estou convencido que isto há-de querer dizer qualquer coisa de relevante que eu só não compreenderei por desconhecimento. Mas permitam-me que especule imodestamente que, se eu não sei o que isto é, deverá haver muita gente que também não sabe. Uma ficha técnica deve dar informação compreensível por quem quer saber mais sobre a sondagem, e não me parece que isto satisfaça essa condição.

b.Há uma segunda resposta possível, claro, para a questão sobre a margem de erro: não é possível calculá-la. Se não vejamos. A ficha técnica descreve o método de amostragem da seguinte forma: "aleatória estratificada por região, habitat, sexo, idade, actividade, instrução e voto legislativo". O que isto significa é que, na base de informação do INE, a amostra foi seleccionada de forma a que os indivíduos que a compõem se distribuam pelo território e em termos das suas características socio-demográficas e socio-políticas (sexo, idade, instrução, actividade e anterior comportamento eleitoral) de forma semelhante à população eleitoral em geral. Mas se isto foi assim, então a amostra não é aleatória. A partir do momento em que escolhemos quem inquirimos não na base de um método de selecção aleatório (por exemplo, a próxima pessoa fazer anos) mas sim na base de características individuais que se querem ver representadas na amostra numa determinada proporção, a amostra passa a ser por quotas. E a amostragem por quotas não tem margem de erro, ou melhor, tem uma margem de erro indeterminada, pelo simples facto de que o cálculo da margem de erro pressupõe aleatoriedade na selecção.

Não quero com isto criticar a amostragem por quotas, tema complicado e que merece grande debate. Nem estou a dizer que a margem de erro se pode calcular para todas as amostras que se dizem "aleatórias". Mas se a Aximage não quer dizer - com razão - a margem de erro, por que razão vem com a conversa do "desvio padrão"? E por que designa a sua amostra como "aleatória"? Admito, repito, que seja ignorância minha, mas por isso mesmo gostava um dia que me ajudassem a decifrar este mistério.

3. A soma dos resultados apresentados é 89,7%. O que são os 10,3% que faltam? Outros partidos? Votos brancos ou nulos? Inquiridos que dizem não saber em que partido votariam? Inquiridos que recusam responder à pergunta?

O Correio da Manhã escusa-se a fornecer-nos essa interessante informação. Depois de ter visto ontem os resultados na net, fui hoje de manhã comprar a edição de ontem do jornal só para me certificar. E confirma-se: não ficamos a saber como se distribuem os tais 10,3%.

Os efeitos disto do ponto de vista da interpretação substantiva dos resultados não são propriamente dramáticos. Se esse 10,3% fossem todos "outros, brancos ou nulos", o PS apareceria com 18% de vantagem sobre o PSD. Se fossem todos"indecisos", a sua redistribuição proporcional pelas restantes opções válidas de voto passaria essa vantagem para 21%. E devo dizer também que sei bem, por experiência própria, que entre a informação que os institutos de sondagens enviam aos jornais e aquilo que acaba por ser publicado há, por vezes, algumas falhas.
Mas espero que se começe a perceber uma das coisas mais preocupantes no panorama das sondagens em Portugal: os standards adoptados para a divulgação dos resultados são, em geral, pura e simplesmente miseráveis. Se não acreditam, vejam como deveria ser.

by Pedro Magalhães

"Exercício técnico-científico"

Posted January 9th, 2005 at 2:53 am4 Comments

Não posso deixar de comentar a projecção de deputados da sondagem no Expresso de 8 de Janeiro. Queria começar por dizer que a Eurosondagem tem tido boas prestações quando se confrontam as suas sondagens com aqueles que acabam por ser os resultados das eleições (melhor nas sondagens pré-eleitorais, mais vacilante nas sondagens à boca das urnas). E que acho que o Rui Oliveira e Costa tem intuição para estas coisas. E quando a intuição se confirma várias vezes, deixa de ser intuição para se tornar saber propriamente dito.

Contudo, a projecção de deputados avançada no dia 8 - "exercício técnico-científico realizado por Rui Oliveira Costa" - é um bocado assustadora. Se não vejamos:

1. Os deputados são eleitos por círculo. Logo, para calcular deputados eleitos, precisamos de amostras representativas de cada um dos círculos para obter boas estimativas percentuais, não das intenções do total dos eleitores portugueses, mas sim das intenções dos eleitores em cada círculo.

2. Para ter não mais de, digamos, 5% de margem de erro (e pode já ser muito) em cada círculo, uma amostra aleatória tem de ter, pelo menos, 380 inquiridos.

3. Portugal tem 20 círculos, sem contar com Europa e Fora da Europa.

4. Logo, para ter estimações dos resultados de cada círculo com menos de 5% de margem de erro em cada um necessitamos de 7600 inquiridos.

5. Mas esta sondagem foi feita com cerca de 2000 entrevistas.

6. Claro que se pode dar a volta ao texto não indo a alguns círculos e pressupondo que as tendências que se apanham naqueles a que se vai se vão aplicar àqueles onde não se vai. Pode-se até usar algumas freguesias-tipo e, digamos, rezar para que o continuem a ser. Não sei se isto foi feito. Pelo menos, nada disto é dito no Expresso.

7. Acresce que, a acreditar na ficha técnica, a escolha dos inquiridos nesta sondagem respondeu a uma estratificação por região: o peso na amostra dos inquiridos em cada região foi proporcional à distribuição da população eleitora por regiões.

8. Isto significa que 2,6% dos inquéritos foram feitos na Madeira. São 56 pessoas. E que 2,3% foram feitos nos Açores. 46 inquiridos. E que as estimativas feitas para os círculos de Évora, Beja, Faro e parte de Setúbal foram feitos com os inquiridos na região Alentejo e Algarve. São 8,9%, 179 inquiridos.

"Técnico-científico"? Até pode dar certo. Mas só por mero acaso.

by Pedro Magalhães