Eventos

DEFESA DE DISSERTAÇÃO DE MESTRADO Nº 334

Aluno: Sávio Santos de Araújo

Título: “Towards Post-OCR Spelling Correction of Handwritten Texts using Language Models"

Orientador: Byron Leite Dantas Bezerra

Examinador Externo: Flavio Arthur Oliveira Santos (UFPE)

Examinador Interno: Cleyton Mário de Oliveira Rodrigues

Data-hora: 29 de agosto de 2025 às 9h

Local: Formato remoto - Google meet

Resumo:

"Esta dissertação conduz uma investigação sistemática sobre a aplicação de Modelos de Linguagem (MLs) para a correção ortográfica pós-OCR de manuscritos manuscritos do século XXI. A principal motivação é abordar as taxas de erro inerentes, mesmo aos sistemas de Reconhecimento de Texto Manuscrito (RTH), os mais modernos, que podem comprometer a usabilidade do conteúdo digitalizado. Este trabalho avalia as compensações entre diferentes arquiteturas de modelos, estratégias de tokenização e contextos de correção para identificar os métodos mais eficazes e eficientes para melhorar a qualidade dos textos transcritos. A metodologia centra-se em três estudos experimentais conduzidos em conjuntos de dados de manuscritos contemporâneos em português (BRESSAY), francês (RIMES) e inglês (IAM). A pesquisa avalia uma gama de abordagens, incluindo algoritmos de correção tradicionais, LMs menores e com ajuste fino (como ByT5 e BART), modelos monolíngues especializados em nível de byte (Monobyte) e Large Language Models (LLMs) de código aberto e fechado de última geração, em cenários de correção em nível de linha e de frase completa. O desempenho é medido usando a Taxa de Erro de Caractere (CER) e a Taxa de Erro de Palavra (WER), juntamente com análises de eficiência computacional. As principais descobertas revelam que, para a correção de alta fidelidade, a adequação arquitetural é mais crítica do que a escala do modelo. Modelos especializados em nível de byte superam consistentemente LLMs maiores, baseados em subpalavras, na redução de erros em nível de caractere, demonstrando sua robustez no tratamento de padrões ruidosos e fora do vocabulário típicos de saídas HTR. Embora LLMs maiores possam aproveitar um contexto mais amplo em nível de frase para reduzir efetivamente os erros em nível de palavra, seu desempenho em detalhes em nível de caractere é fundamentalmente limitado por sua estratégia de tokenização. Além disso, a pesquisa destaca uma lacuna significativa na implementação prática, com LLMs de código fechado oferecendo atualmente um melhor equilíbrio entre precisão e eficiência computacional do que seus equivalentes de código aberto. A principal contribuição desta dissertação é a conclusão baseada em evidências de que modelos de linguagem especializados, em nível de byte, representam a arquitetura mais eficaz para maximizar a precisão em nível de caractere na correção ortográfica pós-OCR. Este trabalho fornece uma hierarquia clara de soluções, demonstrando que a abordagem ideal depende de um equilíbrio ponderado entre projeto arquitetônico, ajuste fino específico da tarefa e restrições de implementação prática, oferecendo uma base sólida para futuras inovações em restauração textual."

DEFESA DE TESE DE DOUTORADO Nº 32

Aluno: Mateus Alves Martins

Título: “Recursive calculation for lexicographic graph powers of a function related to the Hall ratio”

Orientador: João Fausto Lorenzato de Oliveira

Coorientador: Pablo Vinicius Alves de Barros ()

Examinador Externo: Carlile Campos Lavor (UNICAMP)

Examinador Externo: Fabricio Cristófani (FITec)

Examinador Externo: Maurício Costa Goldfarb (UPE)

Examinador Interno: Carmelo Albanez Bastos Junior

Data-hora: 27 de agosto de 2025 às 14h

Local: Formato remoto - Google Meet

Resumo:

""Given a graph G and an integer a satisfying 1 ≤ a ≤ α(G) = vertex independence number of G, we define w(a,G) = max {|V(H)| ; H is a subgraph of G and α(H) = a}. The w-function is connected to the Hall ratio, ρ(G) = max { |V(H)| / α(H) ; H is a subgraph of G }. The connection is: ρ(G) = max_a w(a,G) / a. It has proven to be surprisingly difficult to analyze the behavior of the Hall ratio with respect to various graph operations, in particular, the various graph products and the Mycielskian transformation. In this work we give a way of recursively calculating w(a,Gⁿ), where the power of G is taken with respect to the lexicographic product. The process is illustrated in the case where G = W₅, the wheel with 5 spokes."

DEFESA DE DISSERTAÇÃO DE MESTRADO Nº 333

Aluno: João Freire Abramowicz

Título: "Um Sistema Baseado em Processamento de Linguagem Natural (PLN) para Análise de Contratos de Aceite de Termos (EULA) para Adequação à LGPD"

Orientador: Cleyton Mário de Oliveira Rodrigues

Examinadora Externa: Denise Nachtigall Luz (UPE)

Examinador Interno: Domingos Sávio de Oliveira Santos Júnior

Data-hora: 15 de agosto de 2025 às 14h

Local: Formato remoto - Google meet

Resumo:

"O avanço da tecnologia e a crescente digitalização das atividades empresariais resultaram em um volume exponencial de coleta e tratamento de dados pessoais, tornando a conformidade com a Lei Geral de Proteção de Dados (LGPD) do Brasil, que estabelece diretrizes rigorosas para a proteção desses dados, impondo desafios às empresas na adequação, um desafio crítico para as organizações. Dentre os principais pontos de vulnerabilidade, os contratos de Aceite de Termos (EULA – End User License Agreement) representam um risco significativo, pois frequentemente contêm cláusulas críticas que podem estar em desacordo com a legislação vigente. Este projeto propõe um método baseado em Processamento de Linguagem Natural (PLN) para identificar cláusulas auxiliando as empresas no cumprimento da legislação e automatizar a análise de EULAs, identificando cláusulas críticas e sugerindo adequações para garantir conformidade com a LGPD. O método empregará modelos avançados de PLN, como o BERT, para extrair e classificar trechos potencialmente problemáticos, reduzindo a necessidade de revisão manual e acelerando o processo de conformidade regulatória. Além da implementação do modelo, a pesquisa analisará o desempenho da solução em relação a abordagens tradicionais de revisão contratual, utilizando métricas como acurácia, precisão, recall e F1-score. O estudo também explorará a viabilidade da integração do método em fluxos de trabalho empresariais, permitindo que organizações automatizem a detecção de inconformidades e minimizem os riscos associados a penalidades legais. Em última análise, espera-se que o método contribua significativamente para a segurança jurídica e a conformidade regulatória, fornecendo às empresas uma ferramenta eficiente para garantir a conformidade com a LGPD e fortalecer a proteção dos dados pessoais no ambiente digita."

Página 11 de 79

O Programa

Go to top