“Compreender o fenômeno da desinformação e sua disseminação pela internet tem sido uma tarefa cada vez mais desafiadora, mas é necessária, uma vez que os efeitos desse tipo de conteúdo têm seus impactos nas mais diversas áreas e geram cada vez mais impactos na sociedade. Uma forma de lidar com esse problema é o desenvolvimento de sistemas automatizados de verificação de fatos utilizando técnicas de inteligência computacional. O primeiro desafio destes sistemas, no contexto Brasil, é relacionado à disponibilidade de conjuntos de dados contendo notícias classificadas entre verdadeiras e falsas em língua portuguesa, para poder compreender a desinformação e dos seus subgrupos. O segundo desafio está relacionado à uma etapa essencial na geração de modelos de classificação que é o pré-processamento de dados e a identificação de dados que porventura possam ser ruidosos e estejam atrapalhando o processo de classificação. Este trabalho propõe: um novo Corpus contendo 19.446 notícias; a busca pelas melhores técnicas no processo de transformação, normalização e seleção de recursos; a exploração dos perfis da desinformação através de técnicas de agrupamento hierárquico e; a identificação de elementos ruidosos através da técnica t-SNE. Como resultado final, um modelo classificador com uma acurácia de 97,33% utilizando a técnica Random Forest foi proposto e implementado no Confere.ai, um projeto para automação de checagem de fatos.”