Ana Frias, João Almeida, Rui Bastos – voluntários DSSG PT
Texto escrito sem novo acordo ortográfico segundo vontade expressa dos autores
O ano de 2020 será certamente recordado como um período que veio criar um “antes” e um “depois”. A forma como a maioria das sociedades operam e o quotidiano de milhões de pessoas tiveram de mudar rapidamente; algumas mudanças irão, certamente, fazer-se sentir durante vários anos.
Este foi um ano em que o Governo teve de assumir medidas restritivas elogiadas por uns e contestadas por outros. Um ano em que palavras como quarentena e confinamento se tornaram parte do nosso vocabulário. Um ano em que o uso da máscara se tornou regra.
Os primeiros 6 meses do ano assinalaram o início da preocupação com o Coronavírus e a declaração de pandemia (em Março). Foi, também, durante este período que se deu o pico da primeira vaga em Portugal, resultando na adopção, pelo Governo, de várias medidas preventivas, incluindo o confinamento obrigatório. Todos estes acontecimentos levaram a uma mudança do estado de espírito dos portugueses. E foi essa mudança que analisamos no nosso projeto, realizado com o apoio da equipa da DSSG PT.
Como desenvolvemos o projeto?
A nossa equipa (Ana Frias, João Almeida, Rui Bastos) usou técnicas de machine learning (ver notas técnicas no final do texto) para analisar o sentimento expresso entre 1 de Janeiro e 30 de Junho de 2020, a partir de:
- notícias com referências ao Coronavírus em dois jornais nacionais (Público e Observador);
- tweets com hashtags ou menções relacionadas com o Coronavírus identificados como tendo sido feitos em Portugal.
As notícias foram retiradas dos sites do Público e do Observador e as medidas governamentais dos Comunicados do Conselho de Ministros.
Os dados relativos às reações dos Portugueses têm por base os tweets publicados durante o período da análise, e onde tenha sido mencionado o vírus no texto ou no hashtag da publicação. É importante notar que para restringir a análise a tweets de pessoas a viverem em Portugal usamos um filtro de localização com algumas limitações, o que pode reduzir a quantidade de tweets e aumentar a incerteza nos dados.
Como evoluiu a pandemia em Portugal?
O primeiro caso de COVID-19 foi detectado a 2 de Março em Portugal. Nos quatro meses que se seguiram, os casos activos aumentaram, consecutivamente, até 10 de Maio, dia em que registaram 24.065 casos, o número mais alto do semestre.
A queda acentuada no número de casos activos registada a 24 de Maio deve-se a um acerto no número de doentes recuperados (Relatórios da DGS de dia 23 de Maio e 24 de Maio.
Quem falou mais sobre o vírus?
Ainda antes do primeiro caso confirmado de COVID-19 em Portugal, a evolução da doença noutros países trouxe o tema para a esfera pública ainda no início de Janeiro de 2020.
Na nossa análise, notamos uma diferença na reacção dos meios de comunicação social e dos utilizadores do Twitter à chegada do vírus a Portugal.
Nos jornais Observador e Público o tema surge e cresce gradualmente a partir de Fevereiro atingindo um auge sustentado a partir do meio de Março – a média diária do número total de notícias dos dois jornais desde 15 de Março a 30 de Junho ronda as 286 e mantém-se estável até ao fim do semestre.
Na rede social Twitter as reacções parecem estar muito mais relacionadas com os acontecimentos mais relevantes. Vemos dois aumentos substanciais no número de tweets: no dia do primeiro caso (2 de Março) e nos dias em que são decretados os estados de emergência e confinamento. Após Março, os tweets relacionados com o coronavírus diminuem, estabilizando numa média de 106 por dia.
Os gráficos apontam também para um fenómeno interessante: enquanto que os tweets vão diminuindo a partir do meio de Março, as notícias relacionadas com a COVID-19 aumentam a partir desse mesmo período. Importa no entanto frisar que os dados do Twitter só incluem posts com menção a um conjunto de palavras-chave, como por exemplo “covid19”, deixando os tweets que se referiram ao vírus de outras formas de fora, bem como os tweets que não mencionam explicitamente nenhum dos termos considerados (a lista completa pode ser vista no fim do texto), enquanto as notícias recolhidas foram todas as que os próprios jornais marcaram com uma palavra-chave referente à pandemia.
Como se sentiram os portugueses na primeira vaga da COVID-19?
Como seria de esperar, o modelo de classificação de sentimento usado nesta análise atribuiu uma média de sentimento negativo a todo o período analisado. No entanto, como é possível observar no gráfico, há flutuações no grau de negatividade e também alguma disparidade entre o sentimento expresso nas notícias e o sentimento expresso nos tweets.
Por exemplo, a reação às medidas governamentais do dia 13 de Março (declaração do Estado de Alerta) e do dia 18 de Março (declaração do Estado de Emergência e confinamento) nas notícias e no Twitter é quase oposta. O sentimento expresso nas notícias mostra-se mais positivo do que o dos tweets, revelando, talvez, que a confiança sentida pela população não era a mesma transmitida pelos meios de comunicação social.
O pico no fim de Abril relativo ao sentimento expresso nos tweets pode estar relacionado com o anúncio do fim do confinamento, publicado no dia 22 de Abril. No mesmo dia, o sentimento expresso nas notícias decresce ligeiramente.
Observamos também que o sentimento expresso nas notícias é mais estável do que o sentimento expresso nos tweets ao longo deste período pandémico.
Como reagiram os portugueses às medidas governamentais?
O gráfico acima mostra o sentimento expressado nas notícias em três momentos: no dia anterior ao anúncio de uma medida, no dia em que a medida é anunciada, e no dia seguinte. Cada linha corresponde a um intervalo de três dias, e as linhas coloridas representam os intervalos com maior variação de sentimento: mais claro para uma variação positiva entre o dia anterior e o dia seguinte, e mais escuro para uma variação negativa.
Em ambos os casos, uma das variações mais significativas ocorreu no início de Maio enquanto a outra ocorreu em meados de Junho. É interessante verificar que as maiores variações negativas ocorram em dias de entrada em vigor de medidas de desconfinamento, talvez sugerindo uma certa apreensão no regresso “ao normal”.
O gráfico acima é similar ao anterior, mas agora relativo aos tweets. Uma das variações mais negativas é referente ao dia em que entraram em vigor as primeiras medidas mais rígidas do confinamento, no início da pandemia, enquanto que ambas as variações mais positivas ocorreram no final de Maio e início de Junho, na altura em que se começou o desconfinamento.
Resumindo…
Num ano tão particular como este, no qual o tema coronavírus foi fulcral em várias áreas da sociedade civil, observamos que o sentimento associado ao vírus é sempre negativo no primeiro semestre de 2020. No entanto, há algumas diferenças na forma como os meios de comunicação e a opinião pública reagiram à situação e às medidas governamentais:
- O número de notícias é mais elevado durante Março e Abril, mas mantém-se relativamente estável até Julho.
- Em relação ao Twitter, vemos um grande aumento de tweets no dia 2 de Março, relacionado com o primeiro caso de COVID-19 em Portugal. Após esta data, o número de tweets diminui para uma média de 106 por dia e as reacções nesta rede social parecem ser imunes à maioria da medidas (excepto o desconfinamento) e ao aumento de casos.
- O número de notícias aumenta a partir do início de Março e mantém-se estável até ao fim do semestre.
- Já em relação à maneira como nos sentimos durante o primeiro semestre do ano, tanto nas notícias como no Twitter, o sentimento é negativo, com algumas flutuações relevantes. O anúncio do desconfinamento trouxe reacções “mais positivas” (mas sempre negativas) no Twitter do que nos meios de comunicação social, o que pode revelar uma sociedade desejosa de voltar ao normal, mas uma comunicação social mais cautelosa.
Notas técnicas
- Todo o código utilizado está disponível no repositório do projecto.
- Todos os dados relativos à propagação da pandemia em Portugal foram obtidos do repositório da DSSG covid19pt-data, que os obtém da Direcção Geral de Saúde – Ministério da Saúde Português, através do dashboard do COVID-19 (aqui) e da base de dados da ESRI Portugal aqui, desde 03/03/2020.
- As notícias foram obtidas através das APIs públicas do Público e do Observador.
- Os tweets foram obtidos com a biblioteca de Python GetOldTweets3, filtrando por localização (um círculo com raio de 500 milhas em redor do centro aproximado de Portugal), tweet escrito em língua portuguesa e menções às seguintes palavras: coronavirus, covid19, covid-19, covid, corona, covid19pt, pandemia, covid_19, sarscov2.
- O texto das notícias e dos tweets foram traduzidos para inglês com a API da Google disponível na biblioteca Python googletrans, uma vez que a biblioteca de análise de sentimento que utilizámos funciona melhor com texto em inglês.
- Todo o texto foi processado recorrendo principalmente à biblioteca de Python nltk e a várias bibliotecas padrão do Python.
- Testámos a análise de sentimento com um modelo baseado em análise individual de palavras, o vaderSentiment, mas depois de analisarmos os resultados decidimos avançar com outro método.
- A análise de sentimento foi feita com a biblioteca de Python transformers.
- O modelo utilizado foi o distilbert-base-uncased-finetuned-sst-2-english, que devolve para cada notícia/tweet dois valores: NEGATIVE/POSITIVE para indicar se o sentimento é negativo/positivo, e um score que pode ser entendido como a confiança do modelo relativamente à classificação, entre 0.5 (pouca confiança) e 1 (100% confiança).
- Para calcular o sentimento total de um dia fez-se uma média ponderada da classificação, considerando -1 para classificações NEGATIVE e 1 para classificações POSITIVE, e com a ponderação dada pelo respectivo score.
- Todos os gráficos foram feitos em Python, recorrendo à biblioteca matplotlib.