Pedro Magalhães

Margens de Erro

Notoriedade na twittosfera

Posted May 11th, 2011 at 10:16 am4 Comments

Desde o dia 29 de Abril até às 19h de ontem, quais os líderes partidários mais mencionados na twittosfera? Na base dos dados do REACTION, a resposta não oferece qualquer espécie de dúvida:























E de cada vez que foram mencionados, como se distribuíram essas menções por "negativas", "neutras" e "positivas"?























José Sócrates foi quem, proporcionalmente (e também em termos absolutos, naturalmente), recebeu mais menções negativas. Mas foi também, depois de Portas, o que recebeu proporcionalmente mais menções positivas.

by Pedro Magalhães

Posted May 10th, 2011 at 11:27 pm4 Comments

by Pedro Magalhães

Sócrates vs. Portas

Posted May 10th, 2011 at 10:42 pm4 Comments

Na twittosfera, Portas ganhou no último dia:


















Sócrates teve mais menções entre as 19h de ontem e as 19h de hoje, mas especialmente à custa de menções negativas. Portas também tem muitas menções negativas: de resto, estes líderes partidários, como veremos mais à frente, são os que suscitam mais tráfego e maior polarização dos utilizadores do Twitter. Mas Portas teve, quer em termos relativos quer absolutos, menos menções negativas e mais positivas que Sócrates.

Dados: REACTION. Vejam este post para uma explicação do que está aqui feito.

by Pedro Magalhães

Gráfico actualizado

Posted May 10th, 2011 at 1:13 pm4 Comments

Presumindo que amostra da última Intercampus é inteiramente nova:

by Pedro Magalhães

REACTION

Posted May 10th, 2011 at 11:44 am4 Comments

REACTION significa "Retrieval, Extraction and Aggregation Computing Technology for Integrating and Organizing News", e é um projecto coordenado por Mário Silva que envolve equipas da Faculdade de Ciências da Universidade de Lisboa, da Faculdade de Engenharia do Porto, da Universidade do Texas Austin e da Universidade Nova de Lisboa (o Centro de Investigação Media e Jornalismo onde está o António Granado), assim como equipas do SAPO e do Público. Um dos objectivos do REACTION consiste em detectar e analisar conteúdos online com referências a instituições, pessoas e eventos, fazendo-o de forma automatizada.

Imaginem que queríamos saber quantas vezes é que, na twittosfera, eram mencionados os diferentes líderes partidários. E que queríamos, na base dos textos, inferir automaticamente se o teor dos comentários sobre esses líderes era positivo ou negativo? Se pudéssemos fazer isto, ficávamos com uma espécie de barómetro da opinião tal como veiculada na twittosfera. E quem diz isto diz outros conteúdos online, tal como blogues, notícias ou opinião online,  comentários a uns e outros, etc. Ora bem, o REACTION deu um primeiro passo neste sentido. Desenvolveram um crawler que recolhe os tweets de 25.000 utilizadores portugueses do Twitter e analisa:

1. Menções aos líderes dos cinco principais partidos. Para isso, foi preciso desenvolver recursos que permitam detectar que "José Sócrates" é a mesma coisa que "Eng. Pinto de Sousa" e que o "Jerónimo", neste caso, não é um índio apache. Testes confrontando análise manual com os resultados dos algoritmos mostram que a capacidade de identificação correcta já está bem acima dos 90%.

2. Análise da "polaridade" das mensagens, distinguindo aquelas que emitem juízos positivos, negativos e meramente "descritivos" (ou neutros). Isto é mais díficil, e exige a automatização de uma análise linguística, nomeadamente um léxico de adjectivos e sua associação a um determinado alvo.

Os primeiros resultados começaram a estar disponíveis a partir do passado dia 29 de Abril, medindo o número de menções na twittosfera a cada um dos líderes partidários e a sua polaridade (positivo, neutro ou negativo) por dia (entre as 19h do dia 18 e as 19h do dia 29). Deste então, o sistema tem gerado resultados diários.

O que é então o gráfico no post abaixo?


















As colunas da esquerda mostram o número absoluto de tweets mencionando Jerónimo de Sousa e Paulo Portas e sua polaridade entre as 19h do dia 6 de Maio (o dia do debate Jerónimo-Portas) e as 19h dos dia 7, apanhando portanto o debate e o seu rescaldo. Várias precauções:

1. Os tweets não eram necessariamente apenas sobre o debate.
2. A análise de polaridade é muito conservadora, ou seja, haverá certamente tweets na categoria neutra que emitem uma avaliação, mas que o sistema está a classificar como neutros para não cometer falsas identificações.
3. Quando começarmos a olhar para isto dia-a-dia, vamos detectar uma volatilidade brutal, marcada por eventos, memes  que circulam na net, etc.


Resultados: primeiro, Portas foi muito mais mencionado na twittosfera do que Jerónimo. Logo, naturalmente, recebe, em termos absolutos, muitos mais comentários quer negativos quer positivos. O saldo para ambos os políticos é negativo, ou seja, é mais frequente serem criticados que elogiados, padrão habitual nos estudos congéneres. Mas na distribuição de comentários - colunas à direita - Portas recebe, proporcionalmente, mais comentários positivos que Jerónimo e o saldo é-lhe mais favorável.

O que significa tudo isto? Bem, não sei. Vamos ver. Como é óbvio, a ideia de que os utilizadores na twittosfera são representativos da população eleitoral é absurda. Mas há vários estudos que sugerem que o conteúdo da twittosfera pode ser um bom preditor de fenómenos políticos relevantes. Só dois exemplos. Este mostra que a distribuição de menções aos partidos na Alemanha (partidos, atenção, não líderes) se aproximou bastante da distribuição final dos votos, para além de revelar que as associações conjuntas de partidos reflectem proximidades políticas e ideológicas reais e que os sentimentos expressos em relação aos líderes reflectem padrões intuitivamente previsíveis. E este mostra correlações interessantes entre indicadores do mesmo género e as sondagens políticas e os índices de confiança do consumidor. Temos um problema de escala, claro, e a twittosfera portuguesa é muito menos "politizada" do que poderíamos pensar (apenas cerca de 1% do total dos tweets menciona líderes políticos). Mas vamos ver onde isto nos leva. Logo vamos olhar para um gráfico semelhante ao anterior, mas desta vez, claro, sobre Portas e Sócrates.

P.S.- Daqui a dias, estará disponível um site no SAPO com resultados destas análises.

by Pedro Magalhães

O que será isto?

Posted May 10th, 2011 at 7:29 am4 Comments

Logo explico.

by Pedro Magalhães

Intercampus, 4-8 Maio, N=1020, Tel.

Posted May 9th, 2011 at 9:47 pm4 Comments

Bem, agora fico com uma dúvida. O trabalho de campo da anterior sondagem da Intercampus ocorreu entre os dias 2 e 5 de Maio. Esta, a divulgada hoje, entre os dias 4 e 8 e Maio. Quererá isto dizer que parte da amostra da anterior está a ser usada na de hoje? Não há nada de errado com isso: seria uma tracking poll. Mas se é assim, importa perceber que, em cada sondagem, só parte dos resultados são novos. Enfim, talvez seja lapso. Mas a proximidade muito grande com os resultados da anterior sugerem a possibilidade de que seja mesmo uma tracking. Assim que souber digo.

PSD: 36,2% (-0,8)
PS: 35,1% (+0,3)
CDS-PP: 10,9% (+0,4)
CDU: 7,7% (-0,2)
BE: 6,5% (-0,5)

by Pedro Magalhães

House effects

Posted May 9th, 2011 at 4:00 pm4 Comments

O modelo que estima os resultados por mês onde o trabalho de campo foi terminado controlando os efeitos do facto de as sondagens terem sido feitas por empresas diferentes sugere que o PSD voltou a descer de Abril para Maio (2 pontos) mas que o PS deixou de subir. Por outras palavras, o apertar da diferença das sondagens realizadas de Abril para Maio dá-se à custa de uma descida do PSD, não de uma subida do PS (ao contrário do que sucedeu de Março para Abril, em que PS subiu e PSD desceu). Os valores estimados não são importantes, porque variam de acordo com a empresa que seja tomada como categoria de referência. Só as tendências são relevantes nesta análise.

Já agora, quem é que subiu das sondagens de Abril para as sondagens de Maio? O CDS-PP, claro, 1,8 pontos.

by Pedro Magalhães

Não há três sem quatro

Posted May 6th, 2011 at 11:44 pm4 Comments

Intercampus, 2-5 Maio, N=1009, Telefónica
PSD: 37,0% (-1,7)
PS: 34,8% (+1,7)
CDS-PP: 10,5% (+1,1)
CDU: 7,9% (-0,2)
BE: 7,0% (-0,6)

Aqui. Mais do mesmo.

by Pedro Magalhães

Deputados

Posted May 6th, 2011 at 12:33 pm4 Comments

Estou curioso para saber o que estimam algumas das pessoas que aqui fazem comentários e que têm os seus  próprios modelos, mas o meu proportional swing põe o PSD+CDS com maioria absoluta em duas das sondagens anteriores, e quase quase noutra. De resto, o cenário de PS com mais votos e PSD com mais deputados, já aqui levantado várias vezes por comentadores, começa a sair do reino da completa implausibilidade. Isto, mais uma confusão nas mesas de voto do género da que tivemos nas presidenciais, era mesmo a única coisa que nos faltava para irmos parar durante uns tempos às primeiras páginas da imprensa mundial.

by Pedro Magalhães