DEFESA DE DISSERTAÇÃO DE MESTRADO Nº 334

Aluno: Sávio Santos de Araújo

Título: “Towards Post-OCR Spelling Correction of Handwritten Texts using Language Models"

Orientador: Byron Leite Dantas Bezerra

Examinador Externo: Flavio Arthur Oliveira Santos (UFPE)

Examinador Interno: Cleyton Mário de Oliveira Rodrigues

Data-hora: 29 de agosto de 2025 às 9h

Local: Formato remoto - Google meet

Resumo:

"Esta dissertação conduz uma investigação sistemática sobre a aplicação de Modelos de Linguagem (MLs) para a correção ortográfica pós-OCR de manuscritos manuscritos do século XXI. A principal motivação é abordar as taxas de erro inerentes, mesmo aos sistemas de Reconhecimento de Texto Manuscrito (RTH), os mais modernos, que podem comprometer a usabilidade do conteúdo digitalizado. Este trabalho avalia as compensações entre diferentes arquiteturas de modelos, estratégias de tokenização e contextos de correção para identificar os métodos mais eficazes e eficientes para melhorar a qualidade dos textos transcritos. A metodologia centra-se em três estudos experimentais conduzidos em conjuntos de dados de manuscritos contemporâneos em português (BRESSAY), francês (RIMES) e inglês (IAM). A pesquisa avalia uma gama de abordagens, incluindo algoritmos de correção tradicionais, LMs menores e com ajuste fino (como ByT5 e BART), modelos monolíngues especializados em nível de byte (Monobyte) e Large Language Models (LLMs) de código aberto e fechado de última geração, em cenários de correção em nível de linha e de frase completa. O desempenho é medido usando a Taxa de Erro de Caractere (CER) e a Taxa de Erro de Palavra (WER), juntamente com análises de eficiência computacional. As principais descobertas revelam que, para a correção de alta fidelidade, a adequação arquitetural é mais crítica do que a escala do modelo. Modelos especializados em nível de byte superam consistentemente LLMs maiores, baseados em subpalavras, na redução de erros em nível de caractere, demonstrando sua robustez no tratamento de padrões ruidosos e fora do vocabulário típicos de saídas HTR. Embora LLMs maiores possam aproveitar um contexto mais amplo em nível de frase para reduzir efetivamente os erros em nível de palavra, seu desempenho em detalhes em nível de caractere é fundamentalmente limitado por sua estratégia de tokenização. Além disso, a pesquisa destaca uma lacuna significativa na implementação prática, com LLMs de código fechado oferecendo atualmente um melhor equilíbrio entre precisão e eficiência computacional do que seus equivalentes de código aberto. A principal contribuição desta dissertação é a conclusão baseada em evidências de que modelos de linguagem especializados, em nível de byte, representam a arquitetura mais eficaz para maximizar a precisão em nível de caractere na correção ortográfica pós-OCR. Este trabalho fornece uma hierarquia clara de soluções, demonstrando que a abordagem ideal depende de um equilíbrio ponderado entre projeto arquitetônico, ajuste fino específico da tarefa e restrições de implementação prática, oferecendo uma base sólida para futuras inovações em restauração textual."

O Programa

Go to top