Divulgação - Defesa Nº 07

Aluno: Ricardo Batista das Neves Junior

Título: “Segmentação de Imagens de Documentos Capturadas por Smartphones: Avaliação e Propostas de Modelos e Bases de Dados”

Orientador: Byron Leite Dantas Bezerra - (PPGEC)

Examinador Externo 1: Cleber Zanchettin (UFPE)

Examinador Externo 2: Gabriel de França Pereira e Silva (UFRPE)

Examinador Interno 1: Bruno José Torres Fernandes - (PPGEC)

Examinador Interno 2: João Fausto Lorenzato de Oliveira - (PPGEC)

Data-hora: 27 de Outubro de 2023, às 09:00h.
Local: Formato Presencial - Sala i4

Resumo:

A Visão Computacional é uma linha de pesquisa da Inteligência Artificial que permite aos computadores processar e analisar dados visuais. Dentre os domínios de atuação da Visão Computacional, a tarefa de segmentação tem sido amplamente explorada na literatura. O emprego de algoritmos de segmentação, no contexto de processamento, análise e reconhecimento de documentos tem recebido bastante atenção na literatura, dado que existe uma ampla produção científica em torno do tema. Neste contexto, o presente trabalho apresenta três novos algoritmos. O primeiro algoritmo é apresentado como uma evolução da U-net, nomeado OctHU-PageScan, proposto para segmentação de documento e zona de texto, apresentando uma redução de tempo de processamento de até 75% e uso de 93% menos espaço em disco em comparação ao baseline. Como evolução do OctHU-PageScan, o segundo algoritmo nomeado HU-PageScan foi proposto para segmentação de documento, mostrando-se eficaz para os cenários de foto de câmera de smartphones e scanner, apresentando resultados equivalentes ao baseline reduzindo o custo computacional em mais de 50% em relação ao baseline (i.e., OctHU-PageScan). O terceiro algoritmo proposto evolui os dois primeiros, utilizando algoritmos de segmentação de imagens como um pré-processamento para realizar a tarefa de classificação de oclusão em documentos fotografados. Além dos algoritmos destacados como contribuições deste trabalho, introduzimos sete novas bases de dados voltadas para o estudo do problema de segmentação de documentos fotografados. São elas: (i) CDPhotoDataset: projetada para a segmentação de documentos de identificação inseridos em diversos backgrounds; (ii) DTDDataset: focada na segmentação de regiões de texto em documentos; (iii) Extended Smartdoc Dataset: uma extensão da base de dados original Smartdoc, elaborada para segmentar os documentos em variados backgrounds; (iv) BID-Dataset, como o primeiro conjunto de dados público brasileiro de documentos de identificação; (v) SBR-Doc Dataset, apresentado na competição ICDAR 2021, um novo conjunto de dados proposto para os desafios de segmentação de diferentes componentes do documento; (vi) Um conjunto de dados para classificação de oclusão (causada por mãos humanas) em documentos de identificação (vii) SpotBID Set: para classificação de oclusão causada pelo efeito spotlight. O desenvolvimento destas contribuições minimiza lacunas na literatura relacionadas ao desenvolvimento de algoritmos livres de template e à escassez de conjuntos de dados públicos para tarefas de processamento de documentos. Ao longo desta sequência de trabalhos publicados, cada artigo não apenas se fundamentou nos insights e descobertas do anterior, mas também buscou superar suas limitações. Esse percurso ilustra a evolução metodológica adotada e evidencia a contribuição contínua e relevante desta pesquisa.

O Programa

Go to top

Divulgação - Defesa de Doutorado Nº 07