Pedro Magalhães

Margens de Erro

Amanhã.

Posted November 3rd, 2008 at 5:51 pm4 Comments

Não me passa pela cabeça tentar dizer-vos aquilo que outros podem dizer e explicar muito melhor do que eu. De resto, uma das coisas mais espantosas desta eleição - que já se antevia em eleições passadas - é a qualidade e sofisticação das análises disponíveis sobre as eleições americanas. Desde o Pollster - cuja encarnação anterior, o Mistery Pollster, é uma das razões que me fez criar este blogue - até ao FiveThirtyEight, passando pelo The Ballot ou o The Monkey Cage, tudo o que há para dizer de interesse está lá dito.

O que sobra é apenas reforçar algumas ideias para a noite de 4 para 5 de Novembro. Aqui vão (e espero não me ter enganado nas contas no meio desta complicação):

1. Quais os estados onde a vitória de Obama é uma quase certeza absoluta, na base das sondagens e dos resultados de eleições anteriores? Os seguintes: Vermont, Connecticut, Delaware, Illinois, Maine, Maryland, Massachussets, DC, New Jersey, Michigan, Minnesota, New York, Rhode Island, Wisconsin, California, Hawaii, Oregon e Washington. Aqui não há "efeito Bradley" que valha. Perder é quase impensável. Feitas as contas, são 227 votos eleitorais. Faltam 43 para Obama ganhar.

2. Depois há alguns estados onde Obama tem vantagens muito expressivas nas sondagens mas que, na história recente, nem sempre foram ganhos por candidatos democratas. Falamos de New Hampshire (onde W. Bush ganhou a Gore), New Mexico (onde W. Bush ganhou a Kerry) e Iowa (idem). Neste momento, a estimativa da vantagem de Obama sobre McCain nestes três estados oscila entre os 9 e os 13 pontos. De resto, Clinton em 1992 e Kerry em 2004 ganharam NH, ao passo que Clinton em 1992 e Gore em 2000 ganharam Iowa and New Mexico. As dúvidas são muito poucas. Somem lá mais 16 votos. Faz 243. Ficam a faltar 27 para Obama ganhar.

3. Onde poderá Obama ir buscar esses 27? Há um estado onde a vantagem, não sendo tão expressiva como nos casos anteriores, é ainda assim muito relevante: Pennsylvania. Nas sondagens realizadas desde finais de Abril passado, há apenas uma em que McCain estava à frente de Obama, e isso foi em 12 de Setembro e era uma sondagem da Zogby (enough said). Nas sondagens realizadas na última semana (desde dia 27 de Outubro), a vantagem de Obama anda entre os 4 e os 14 pontos. Clinton ganhou Pennsylvania em 1992 (9 pontos) e 1996 (idem). Gore ganhou em 2000 (4 pontos). Kerry ganhou em 2004 (3 pontos). Vamos, com algumas cautelas, colocar já estes 21 votos do lado de Obama. Faz 264. Ficam a faltar 6.

4. Onde pode Obama ir buscar os 6 votos que faltam? Todos os restantes estados têm ou vantagens curtas para um ou outro candidato ou resultados passados menos tranquilizadores para os Democratas.

Mas notem: só faltam 6 votos. Segue-se uma lista de estados onde Obama pode ganhar e onde, se ganhar apenas um deles (e na base das pressuposições anteriores), ultrapassa os 270 votos. Por ordem de encerramento das urnas:
- Virginia: 13 votos, vantagem de 6 pontos nas sondagens;
- Carolina do Norte: 15 votos, vantagem de 1 ponto nas sondagens;
- Ohio: 20 votos, vantagem de 5 pontos nas sondagens.
- Florida: 27 votos, vantagem de 3 pontos nas sondagens;
- Missouri, 11 votos, vantagem de 2 pontos nas sondagens;
- Colorado, 9 votos, vantagem de 7 pontos nas sondagens.

Por outras palavras: se tudo o que está nos pontos 1, 2 e 3 der certo, basta que um destes estados caia para Obama para os 270 estarem garantidos. E a isto acrescem alguns estados que estão com ligeira vantagem para McCain nas sondagens mas ainda competitivos: Georgia (15 votos) e Indiana (11 votos). E há ainda estados que, sózinhos, não chegam aos 6 votos, mas estão, neste momento, ambos inclinados para Obama: North Dakota (3 votos) e Nevada (5 votos).

5. Logo, como se sugere aqui, atenção então a Virginia, Indiana e Georgia, que encerram à meia-noite de Lisboa. Se um deles cair para Obama, ficamos com sinais muito fortes de que tudo poderá estar terminado. Mas se nenhum deles cair para Obama, ainda haverá várias outras hipóteses.

6. Dito isto, muito cuidado com as sondagens à boca das urnas. Quatro razões:

- É sempre possível que haja fuga de dados durante o dia, apesar da equipa responsável estar de quarentena, fechada numa sala, até às cinco da tarde. Mas mesmo que haja fugas, serão dados parciais e não ponderados ou até, possivelmente, pura desinformação.

- Os dados que estarão disponíveis nos sites após o encerramento serão mais fiáveis, mas há uma razão para que esses dados, comuns e iguais para todas as estações, sejam trabalhados em cada uma delas por um batalhão de analistas. Quando dizem too close to call, é por que é too close to call. Já ninguém confia apenas nas sondagens à boca das urnas, a não ser que as vantagens sejam muito grandes. E se são muito grandes, não deverá ser em nenhum dos estados que interessam.

- O voto antecipado está a ser muito grande nalguns estados. Nalguns estados muito importantes para a decisão de amanhã, os números são incríveis. No Colorado, por exemplo, as pessoas que já votaram correspondem a 74% dos todos os que votaram em 2004. 54% na Florida. 61% na Georgia. 67% no Nevada. 73% no Novo México. Neste contexto, só se fossem atrasados mentais é que as pessoas na Edison-Mitofsky se limitavam a conduzir sondagens no dia das eleições. Como é óbvio, não são. O consórcio encarregado da sondagem à boca das urnas tem vindo a fazer sondagens em 18 estados de forma a medir o comportamento daqueles que já votaram, e ponderará esses elementos no dia das eleições. Mas seja como for, não é preciso ser-se atrasado mental para cometer erros e usar pressuposições erradas nessas ponderações.

- Também devido ao voto antecipado, será preciso ter cuidado com os primeiros dados "reais" a virem das assembleias de voto e que são usados para tomar decisões em conjugação com os dados das sondagens à boca da urnas. Como avisa Michael MacDonald,

Beware of election night results released at poll closing, as they may be misleading. Many states and localities quickly report results for their early voters. The reporting method varies widely among states. If these surveys are correct that Obama supporters are voting early at higher rates than McCain supporters, these early election results may give a false impression of what the actual election result will be once all votes are counted.

7. Finalmente: muito do que está acima presume que as centenas e centenas de sondagens divulgadas estão a dar informação fiável sobre as intenções de voto, ou pelo menos informação onde os enviesamentos são aleatórios ou, se não forem aleatórios, se cancelam mutuamente ou, se não se cancelarem mutuamente, são enviesamentos relativamente limitados. Há algumas razões para supor que isto não é necessariamente verdade. Estão muito bem resumidas e discutidas aqui por Anthony Wells, mas a ideia com que se fica é que não são suficientes para nos convencerem de que aquilo que julgamos estar a ver com as sondagens está fundamentalmente errado. E no entanto...

E é tudo. Sei que há muita gente interessada nisto por aí. Isto foi escrito um pouco à pressa. Logo, se encontrarem algum erro de raciocínio ou de contabilidade no que está acima, agradeço mesmo que me avisem.

by Pedro Magalhães

Horas de fecho das urnas no dia 4.

Posted November 2nd, 2008 at 9:24 am4 Comments

Tudo aqui, bem explicadinho, no Swing State Project.


by Pedro Magalhães

If at first you don’t succeed, try, try again.

Posted November 1st, 2008 at 1:51 am4 Comments

1. "O CDS sobe, talvez por efeito dos ecos do bom resultado eleitoral nos Açores." Vem no site da SIC Notícias e foi dito em off na peça televisiva por uma jornalista. A subida consistiu em ter passado de 4,8 para 5,2%, ou seja, uma subida de uns espectaculares 0,4 pontos percentuais. Por outras palavras, nem sequer sabemos se o CDS subiu, desceu ou ficou na mesma. E a dos "ecos do bom resultado eleitoral dos Açores", então, é de truz. Uma relação causa-efeito tão credível como se ela tivesse dito que o CDS subiu na sondagem por causa do pastel de nata que eu comi ontem pela tarde.


2. A propósito dos rankings das escolas, reponho de seguida o que escrevi há um ano. Nada mudou, os disparates que se diziam continuam a ser ditos, continuam a ser refutados, e nada disto, pelos vistos, faz qualquer espécie de diferença. Não faz mal. 

A citação do W.C. Fields que dá o título a este post não acaba aqui. Continua assim: "Then quit. No use being a damn fool about it." Mas eu sou um damn fool.

Sobre os rankings e o cheque-escolar (5-11-2007):
No Público de ontem, sobre os rankings, para além de ser provavelmente o primeiro colunista na história da imprensa escrita a usar a expressão Hierarchical Linear Modelling num jornal de grande circulação, André Freire diz o óbvio, mas um óbvio que vale a pena repetir:

"Penso que é preciso ultrapassar este nível de discussão (até agora baseado numa troca de argumentos sustentada, na melhor das hipóteses, numa análise metodologicamente insuficiente dos dados) para passarmos a um debate alicerçado em evidência empírica avaliada com as metodologias adequadas."

Mas importa perceber o que significa "ultrapassar este nível de discussão". Em primeiro lugar, como assinala o próprio André Freire, significa que é imperioso recolher dados a nível individual de forma a que as "causas" (na medida em que qualquer estudo observacional possa apurar causas) do desempenho escolar individual, em particular as ligadas ao ambiente escolar, possam ser estimadas controlando os efeitos de variáveis ligadas ao capital escolar e económico dos pais.

Em segundo lugar, significa também perceber que os efeitos desse capital escolar e económico são, em certo sentido, triviais. É obvio que eles existem e estão mais do que demonstrados. Mas no que diz respeito às políticas públicas, esses efeitos são tão desinteressantes como os efeitos, por exemplo, do desenvolvimento económico na estabilidade dos regimes democráticos. Ou para irmos mais directamente ao tema, são quase tão desinteressantes como os efeitos das capacidades cognitivas inatas (que também existem) dos alunos no seu desempenho escolar. Aquilo que queremos saber é
que outros factores, cuja modificação a curto e médio-prazo esteja ao alcance da vontade dos educadores, dos pais, das escolas e dos decisores políticos, exercem efeitos para além e independentemente (ou em interacção com) esse capital escolar e económico ou essas capacidades inatas. É verdade que - voltando ao ponto anterior - só podemos saber que factores são esses se controlarmos os efeitos do capital escolar e económico das famílias (e seria bom termos medidas de capacidades inatas, mas como provavelmente nao podemos em contextos não experimentais, o que teremos no final é muita variância não explicada). Mas o ponto é este: se é verdade que essas variáveis de controlo não podem ser esquecidas, também não se pode pressupor que tudo é subsumido por elas. É preciso estudar o assunto como deve ser, e pronto.

Em terceiro lugar, ultrapassar o actual nível de discussão significa também assumir que a simples dicotomia público/privado é uma péssima e provavelmente inválida maneira de medir seja o que for de relevante sobre o ambiente escolar e os efeitos que esse ambiente pode induzir sobre o desempenho. Citando
o relatório que André Freire menciona no seu artigo:

"It should be borne in mind that private schools constitute a heterogeneous category and may differ from one another as much as they differ from public schools. Public schools also constitute a heterogeneous category. Consequently, an overall comparison of the two types of schools is of modest utility."

Como deveria ser óbvio - pensava eu - o que interessa é estimar os efeitos de atributos do ambiente escolar - condições físicas e materiais, práticas educativas, currículos, etc, etc, etc - que podem ou não estar correlacionados entre si ou com a dicotomia público/privado. Se não estimarmos os efeitos destes aspectos, não ficamos a saber nada de relevante no final. "Privado melhor do que público"? "Público não é pior que privado"? Frases úteis para discussões puramente ideológicas, inúteis para tudo o resto.

Em quarto lugar, ultrapassar o actual nível de discussão significa também pressupor que os bons modelos explicativos do desempenho escolar serão certamente muito complexos, incluindo efeitos de interacção entre características individuais, efeitos de características contextuais sobre desempenhos individuais e efeitos de interacção entre contextos e atributos individuais.

by Pedro Magalhães

Sondagens à la carte.

Posted October 31st, 2008 at 8:33 am4 Comments

Quem está esperançoso ou angustiado com a possibilidade de as sondagens nos Estados Unidos estarem erradas, e muito especialmente quem acha que os resultados das sondagens são condicionados pelas preferências de quem as faz ou do meio de comunicação social que as encomenda e publica, pode ver todos os seus anseios ou receios confirmados por este paper: Evidence of Systematic Bias in 2008 Presidential Polling (via Andrew Gelman).

Claro que sou suspeito, mas por que não pensar que parte do enviesamento se deve ao próprio inquirido, recusando responder para certas sondagens ou ocultando-lhes o seu comportamento?

by Pedro Magalhães

Obamercial 2

Posted October 30th, 2008 at 2:44 pm4 Comments

Aqui está ele:



O melhor comentário que li até agora, na Slate:
"whatever the next four years may bring, we're in for some damn good camera angles."

by Pedro Magalhães

Obamercial

Posted October 29th, 2008 at 7:10 pm4 Comments

Hoje, vai passar um anúncio/programa com a duração de meia-hora, publicidade da campanha da Barack Obama, na Fox, NBC, CBS, Univision, MSNBC e BET, em horário nobre. Só a ABC e a CNN ficam de fora. NBC e CBS vão receber um milhão de dólares cada. Não se via disto desde Ross Perot.

by Pedro Magalhães

Ainda sobre "forecasting", a questão racial e as sondagens

Posted October 29th, 2008 at 2:54 pm4 Comments

Recebi hoje a PS, e voltei a olhar para os modelos de forecasting de que tenho falado várias vezes. E há uma coisa muito interessante de que não me tinha dado conta. O modelo de Lewis-Beck e Tien prevê, como eu dizia aqui, 43% dos votos para McCain na base de quatro variáveis: popularidade de Bush em Julho; crescimento real do PNB do último trimestre de 2007 até ao 2º trimestre de 2008; se o incumbent concorre ou não; e o crescimentos dos empregos.

Simplesmente, Lewis-Beck e Tien defendem que "Obama will lose a chunk of votes because he is black". Logo, estimam factores de correcção para a votação inicialmente prevista para Obama - 57%. Esses factores de correcção resultam de duas fontes:

1. Um estudo de 2007 sobre a prediposição para votar num presidente negro;
2. A comparação entre as votações, estado a estado, de Kerry e Obama nas primárias.

E concluem que Obama terá 50,1%. Ora aqui vamos ter uma boa oportunidade para perceber se Lewis-Beck e Tien deviam ter mexido no modelo original ou não por causa da questão "racial".

by Pedro Magalhães

Outlier: chá e torradas

Posted October 29th, 2008 at 1:01 pm4 Comments

Há uns tempos, João Pinto e Castro sugeria à SEDES que, em vez de andar a dizer "renhaunau renhaunau" de seis em seis meses após reuniões com chá e torradas, desse ao pedal e criasse um blogue que "estimulasse a reflexão colectiva sobre temas de grande relevância para o país". Sobre "estimular a reflexão colectiva" ou a "grande relevância para o país" não sei, mas pelo menos o blogue já está. Agora deixa cá comer mais uma torradinha.

P.S.- E aí está, estimulada "a reflexão colectiva sobre temas de grande relevância para o país". Isto dos blogues é um bocadinho menos complicado do que parece :-)

by Pedro Magalhães

Vale a pena ler

Posted October 27th, 2008 at 12:17 pm4 Comments

James Stimson, sobre os resultados das sondagens nos Estados Unidos:

Saturday 10/25: Stability and Variability
Variability: This is a race of considerable variability in various organization's estimates of what should be the same quantity. And at the same time I have never seen such stability in my estimates of the daily lead. A typical day sees about ten organizations report an Obama lead varying between 1 and 14 points. Thirteen points difference is a lot, more than double what would be expected from sampling fluctuation alone. This arises chiefly, it appears, from two sources, (1) initial assumptions about the partisan makeup of the electorate, and (2) varying likely voter assumptions.

Ler o resto aqui.

by Pedro Magalhães

Uma tempestade perfeita

Posted October 26th, 2008 at 11:24 am4 Comments

O meu artigo de amanhã no Público é sobre - suspense - as eleições americanas. É o último que escrevo antes do dia 4 de Novembro. Quem se interesse poderá ler amanhã no jornal e depois de amanhã aqui. Mas quem se interesse muito - sim, estou a falar de vocês os três - pode descarregar isto, uma apresentação em Powerpoint que fiz há dias na Faculdade de Direito da UL e onde se coligem uma série de dados sobre os fundamentals desta eleição:

1. Mudanças na composição social do eleitorado (o famoso argumento Judis/Teixeira);
2. Mudanças na identificação partidária nos últimos anos;
3. Mudanças nas posições ideológicas nos últimos anos;
4. Avaliação do titular (incumbent);
5. Economia e percepções do estado da economia;

E ainda:
6. Temas da campanha;
7. Avaliação dos candidatos;
8. Mobilização.

Nada disto tem grandes pretensões nem grandes teorias por detrás a não ser as de coligir dados dispersos, ter uma visão das eleições que vá para além das sondagens de intenções de voto e presumir que há factores de médio e até longo prazo que ditam muito do que estamos a observar e cujo conhecimento ajuda a reduzir as incertezas.

by Pedro Magalhães