Sobre o Projeto


Como funciona?

Ao receber um texto, o sistema aplica métodos para extrair atributos linguísticos desse texto e os utiliza em um modelo de aprendizado de máquina, que classifica a notícia como verdadeira ou falsa. O texto deve ter pelo menos 100 palavras, pois o sistema foi "treinado" dessa forma. Os modelos disponibilizados foram treinados com o córpus Fake.Br.

Estão disponíveis dois modelos de detecção: "Palavras do Texto" e "Classes Gramaticais". O modelo de Palavras do Texto utiliza uma representação Bag of Words do texto, onde a presença ou ausência de uma palavra é marcada como 0 ou 1 em um vetor com 10395 posições (relativas às palavras mais importantes do córpus). O modelo de classes gramaticais calcula a porcentagem de palavras pertencentes à cada classe gramatical, de acordo com o tagger nlpnet.

Os atributos extraídos do texto são aplicados em um classificador Support Vector Machine, que infere automaticamente a classe da notícia (verdadeira ou falsa). Nos testes realizados, em um ambiente de teste controlado, o sistema obteve cerca de 89% de acerto (acurácia geral). Porém, sendo esse sistema apenas uma prova de conceito, não é recomendado o uso do FakeCheck como única fonte de verificação de notícias. O sistema é apenas um apoio para o usuário. Sempre busque fontes confiáveis para todas as notícias que você ler/compartilhar na web!

O projeto

Este site é uma demonstração dos resultados obtidos no projeto "Detecção Automática de Notícias Falsas para o Português", financiado pelo Programa Institucional de Bolsas de Iniciação Científica (PIBIC) do CNPq e também pela CAPES. O projeto visa estudar métodos para a detecção automática de notícias falsas utilizando Processamento de Linguagem Natural (PLN) e Aprendizado de Máquina (AM).

Um artigo sobre o projeto foi publicado na 13th edition of the International Conference on the Computational Processing of Portuguese (PROPOR 2018) e está disponível neste link.

O relatório completo do projeto de iniciação científica está disponível neste link.

Os Autores

Rafael Augusto Monteiro: Aluno de graduação do curso de Bacharelado em Ciências de Computação no ICMC-USP e autor principal do projeto.
Contato em rafaelmonteiro95 (at) gmail (dot) com.

Roney Lira de Sales Santos: Aluno do programa de doutorado em Ciência da Computação do ICMC-USP e colaborador do projeto.

Thiago Alexandre Salgueiro Pardo: Professor e pesquisador no ICMC-USP e orientador do projeto.

Agradecimentos

Ao Murilo Gazzola, por criar o bot do WhatsApp.

Financiamento e Apoio

Este projeto foi desenvolvido no Instituto de Ciências Matemáticas e de Computação da Universidade de São Paulo (ICMC-USP), no campus São Carlos, com colaboração de outros pesquisadores da própria USP e da Universidade Federal de São Carlos. O projeto foi financiado pelo Programa Institucional de Bolsas de Iniciação Científica (PIBIC) do CNPq e pela CAPES, sendo desenvolvido no Núcleo Interinstitucional de Linguística Computacional (NILC).


Financiamento e Apoio