Divulgação - Defesa Nº 191

ATUALIZADO EM 29/07/2019

Aluno: Antonio Victor Alencar Lundgren 
Título: “OctMLT e OctShuffleMLT: modelos de Rede Neural Compactos Baseados em Convolução Octave Para Detecção e Reconhecimento de Texto em Cenas Naturais”.

Orientador: Prof. Byron Leite Dantas Bezerra
Data-hora: 30/Julho/2019 (13:00h) 
Local: Escola Politécnica de Pernambuco – SALA I-4


Resumo:

“Nos últimos anos, os campos de detecção e reconhecimento de texto presenciaram um rápido progresso, partindo de técnicas utilizando características pré-definidas e manualmente extraídas, para técnicas de aprendizagem de máquina, em especial no correspondente a técnicas de Redes Neurais Convolucionais, que aprendem características de baixo e alto nível da imagem. Contudo, ainda existem desafios pendentes na aplicação de Redes Neurais Profundas para diversas aplicações de mundo real. Dessas aplicações se destacam aquelas dependentes de plataformas de hardware com sérias limitações, como robôs, drones e smartphones. Para abordar tal desafio, neste trabalho é investigado o problema de detecção e reconhecimento de texto em cenas naturais e o problema de utlização de modelos de Redes Neurais Profundas em plataformas com capacidades limitadas. Como resultado desta pesquisa foram projetados e desenvolvidos dois modelos, intitulados OctShuffleMLT e OctMLT. Os modelos fazem uso de um modelo completamente convolucional que aborda texto em cena de maneira multilíngue como base, e adapta o modelo extremamente leve da ShuffleNet para o problema em questão. A ShuffleNet é uma rede que faz uso de convoluções agrupadas direcionadas por ponto e embaralhamento de canais. Além disso, nos modelos propostos são utilizadas Convoluções Octave, para diminuir o custo computacional e aprimorar a acurácia dos modelos. As Convoluções Octave dividem a extração de canais em características de alta e baixa frequência. Um dos modelos propostos, OctMLT, realiza uma troca entre acurácia e mobilidade, substituindo as camadas da ShuffleNet por camadas Res-Net. Os modelos treinados obtém uma redução de memória de 13.16% (OctShuffleMLT) e 5.52% (OctMLT), e uma redução de FLOPS em 71,86% (OctShuffleMLT) e 48.23% (OctMLT), quando comparados ao modelo de referência. Experimentos foram realizados nas bases de imagens ICDAR 2015 e ICDAR 2017 MLT e comparados com os resultados obtidos com o modelo base. Os modelos apresentados neste trabalho se mostram capazes de produzirem resultados de detecção e reconhecimento precisos em ambas as bases, superando os resultados obtidos pelo modelo de referência.”

Go to top Menú