" O processamento de linguagem natural (Natural Language Processing - NLP) é uma subárea da Inteligência Artificial que visa permitir que os computadores processem o texto em linguagem natural de forma semelhante a humana. Este trabalho propõe uma abordagem de NLP semântica utilizada para caracterização de informações relevantes às atividades do compliance. Neste contexto é proposto um modelo combinando duas técnicas de modelagem de tópicos: a Análise semântica latente (Latent Semantic Analysis – LSA) e a Alocação de Tópicos Latentes (Latent Dirichlet Allocation – LDA), sendo o primeiro utilizado para auxiliar no processo de redução de dimensionalidade, enquanto o segundo foi selecionado para identificar o quantitativo de temas relevantes abordados nos dados processados. Os resultados de avaliação da proposta foram obtidos através da submissão de três bases ao modelo: Base de relatórios de Auditoria emitidos pela Secretaria da Controladoria-Geral de Pernambuco entre os anos 2010 a 2019; Base de acordão emitidos pelo tribunal de contas da União em 2019 e Base de Leis Europeias entre 1952 a 1990. Avaliamos o desempenho de três métodos de aprendizagem de máquina (K- means, LSA e LDA). Em nossos experimentos, observamos que as técnicas de pré-processamento têm influência direta sobre o resultado da extração de tópicos. Além disso, observamos que a técnica Silhouette nos ajudou a encontrar o melhor valor de clusters para uma determinada amostra de dados. Nos resultados o LSA associado ao LDA apresentou o melhor desempenho nas três bases de dados, quanto a qualidade dos clusters identificados, tendo sido alcançado melhores resultados na base de dados de Leis da União Europeia."