Sobre o Projeto
Como funciona?
Ao receber um texto, o sistema aplica métodos para extrair atributos linguísticos desse texto e os utiliza em um modelo de aprendizado de máquina, que classifica a notícia como verdadeira ou falsa. O texto deve ter pelo menos 100 palavras, pois o sistema foi "treinado" dessa forma. Os modelos disponibilizados foram treinados com o córpus Fake.Br.
Estão disponíveis dois modelos de detecção: "Palavras do Texto" e "Classes Gramaticais". O modelo de Palavras do Texto utiliza uma representação Bag of Words do texto, onde a presença ou ausência de uma palavra é marcada como 0 ou 1 em um vetor com 10395 posições (relativas às palavras mais importantes do córpus). O modelo de classes gramaticais calcula a porcentagem de palavras pertencentes à cada classe gramatical, de acordo com o tagger nlpnet.
Os atributos extraídos do texto são aplicados em um classificador Support Vector Machine, que infere automaticamente a classe da notícia (verdadeira ou falsa). Nos testes realizados, em um ambiente de teste controlado, o sistema obteve cerca de 89% de acerto (acurácia geral). Porém, sendo esse sistema apenas uma prova de conceito, não é recomendado o uso do FakeCheck como única fonte de verificação de notícias. O sistema é apenas um apoio para o usuário. Sempre busque fontes confiáveis para todas as notícias que você ler/compartilhar na web!
O projeto
Este site é uma demonstração dos resultados obtidos no projeto "Detecção Automática de Notícias Falsas para o Português", financiado pelo Programa Institucional de Bolsas de Iniciação Científica (PIBIC) do CNPq e também pela CAPES. O projeto visa estudar métodos para a detecção automática de notícias falsas utilizando Processamento de Linguagem Natural (PLN) e Aprendizado de Máquina (AM).
Um artigo sobre o projeto foi publicado na 13th edition of the International Conference on the Computational Processing of Portuguese (PROPOR 2018) e está disponível neste link.
O relatório completo do projeto de iniciação científica está disponível
neste link.
Os Autores
Rafael Augusto Monteiro: Aluno de graduação do curso de Bacharelado em Ciências de Computação no ICMC-USP e autor principal do projeto.
Contato em rafaelmonteiro95 (at) gmail (dot) com.
Roney Lira de Sales Santos: Aluno do programa de doutorado em Ciência da Computação do ICMC-USP e colaborador do projeto.
Thiago Alexandre Salgueiro Pardo: Professor e pesquisador no ICMC-USP e orientador do projeto.
Agradecimentos
Ao Murilo Gazzola, por criar o bot do WhatsApp.
Financiamento e Apoio
Este projeto foi desenvolvido no Instituto de Ciências Matemáticas e de Computação da Universidade de São Paulo (ICMC-USP), no campus São Carlos, com colaboração de outros pesquisadores da própria USP e da Universidade Federal de São Carlos. O projeto foi financiado pelo Programa Institucional de Bolsas de Iniciação Científica (PIBIC) do CNPq e pela CAPES, sendo desenvolvido no Núcleo Interinstitucional de Linguística Computacional (NILC).