Divulgação - Defesa Nº 194

Aluna: Raquel Bezerra Calado

Título: “Aplicação de Técnicas de Mineração De Texto para Categorização de Dados Não Estruturados Extraídos dos Diários Oficiais Brasileiros”.

Orientador: Prof. Alexandre Magno Andrade Maciel

Data-hora: 14/Agosto/2019 (14:00h)
Local: Escola Politécnica de Pernambuco – SALA I-4


Resumo:

“Os diários oficiais brasileiros são fontes ricas de informação governamental, mediante suas publicações os atos oficiais tornam-se públicos e passam a ser considerados válidos. Operadores do direito no exercício de suas funções dependem diretamente dessas publicações em sua rotina de trabalho. No entanto, colher estas informações tem se tornado uma tarefa cada vez mais desafiadora. Os conteúdos que compõem os diários são em grande parte não estruturados e em numerosa quantidade. A cada mês, cerca de dois milhões de novas páginas desses documentos são criadas, esses arquivos contém informações sobre atos oficiais da administração pública executiva, legislativa e judiciária que precisam ser buscados e filtrados diariamente para as mais diversas finalidades. Os métodos de análise de dados tradicionais tornaram-se obsoletos devido ao crescimento do volume desses dados. Uma possível solução para este problema é utilizar técnicas de Mineração Textual (MT). O uso de MT vêm sendo amplamente explorado para processamento, recuperação e extração de informação em documentos escritos em linguagem natural. Apesar desse fato, observa-se uma grande ausência de trabalhos utilizando abordagens de mineração textual em dados dos diários oficiais brasileiros. Neste contexto, este trabalho teve como objetivo propor a modelagem e desenvolvimento de uma solução tecnológica que possibilite a construção de um sistema que aplique técnicas de categorização de conteúdos, oriundas da mineração de textos para classificar conteúdos dos diários oficiais brasileiros. Para validar a abordagem proposta, construíram-se bases de dados não estruturados a partir dos diários mencionados. A quantidade de categorias de cada base de dados varia de acordo com o diário a que ela se refere. Dois experimentos foram realizados para mensurar a eficiência de diferentes classificadores e arquiteturas. O primeiro experimento teve como objetivo confirmar se há relação entre um determinado texto e uma determinada a categoria. O objetivo do segundo experimento foi categorizar os conteúdos apresentados. Os resultados do primeiro experimento apontaram que a montagem da arquitetura utilizando conjuntos de classificadores dinâmicos aumentaram consideravelmente as taxas de acerto da solução proposta. Observou-se que no segundo experimento os classificadores mais eficientes foram os algoritmos baseados em gradient boosting. A partir dos resultados obtidos, concluiu-se que ambas as abordagens propostas demonstraram grande eficiência nas tarefas realizadas em dados não estruturados oriundos dos diários oficiais brasileiros”

Go to top Menu