"Esta dissertação conduz uma investigação sistemática sobre a aplicação de Modelos de Linguagem (MLs) para a correção ortográfica pós-OCR de manuscritos manuscritos do século XXI. A principal motivação é abordar as taxas de erro inerentes, mesmo aos sistemas de Reconhecimento de Texto Manuscrito (RTH), os mais modernos, que podem comprometer a usabilidade do conteúdo digitalizado. Este trabalho avalia as compensações entre diferentes arquiteturas de modelos, estratégias de tokenização e contextos de correção para identificar os métodos mais eficazes e eficientes para melhorar a qualidade dos textos transcritos. A metodologia centra-se em três estudos experimentais conduzidos em conjuntos de dados de manuscritos contemporâneos em português (BRESSAY), francês (RIMES) e inglês (IAM). A pesquisa avalia uma gama de abordagens, incluindo algoritmos de correção tradicionais, LMs menores e com ajuste fino (como ByT5 e BART), modelos monolíngues especializados em nível de byte (Monobyte) e Large Language Models (LLMs) de código aberto e fechado de última geração, em cenários de correção em nível de linha e de frase completa. O desempenho é medido usando a Taxa de Erro de Caractere (CER) e a Taxa de Erro de Palavra (WER), juntamente com análises de eficiência computacional. As principais descobertas revelam que, para a correção de alta fidelidade, a adequação arquitetural é mais crítica do que a escala do modelo. Modelos especializados em nível de byte superam consistentemente LLMs maiores, baseados em subpalavras, na redução de erros em nível de caractere, demonstrando sua robustez no tratamento de padrões ruidosos e fora do vocabulário típicos de saídas HTR. Embora LLMs maiores possam aproveitar um contexto mais amplo em nível de frase para reduzir efetivamente os erros em nível de palavra, seu desempenho em detalhes em nível de caractere é fundamentalmente limitado por sua estratégia de tokenização. Além disso, a pesquisa destaca uma lacuna significativa na implementação prática, com LLMs de código fechado oferecendo atualmente um melhor equilíbrio entre precisão e eficiência computacional do que seus equivalentes de código aberto. A principal contribuição desta dissertação é a conclusão baseada em evidências de que modelos de linguagem especializados, em nível de byte, representam a arquitetura mais eficaz para maximizar a precisão em nível de caractere na correção ortográfica pós-OCR. Este trabalho fornece uma hierarquia clara de soluções, demonstrando que a abordagem ideal depende de um equilíbrio ponderado entre projeto arquitetônico, ajuste fino específico da tarefa e restrições de implementação prática, oferecendo uma base sólida para futuras inovações em restauração textual."
""Given a graph G and an integer a satisfying 1 ≤ a ≤ α(G) = vertex independence number of G, we define w(a,G) = max {|V(H)| ; H is a subgraph of G and α(H) = a}. The w-function is connected to the Hall ratio, ρ(G) = max { |V(H)| / α(H) ; H is a subgraph of G }. The connection is: ρ(G) = max_a w(a,G) / a. It has proven to be surprisingly difficult to analyze the behavior of the Hall ratio with respect to various graph operations, in particular, the various graph products and the Mycielskian transformation. In this work we give a way of recursively calculating w(a,Gⁿ), where the power of G is taken with respect to the lexicographic product. The process is illustrated in the case where G = W₅, the wheel with 5 spokes."
"O avanço da tecnologia e a crescente digitalização das atividades empresariais resultaram em um volume exponencial de coleta e tratamento de dados pessoais, tornando a conformidade com a Lei Geral de Proteção de Dados (LGPD) do Brasil, que estabelece diretrizes rigorosas para a proteção desses dados, impondo desafios às empresas na adequação, um desafio crítico para as organizações. Dentre os principais pontos de vulnerabilidade, os contratos de Aceite de Termos (EULA – End User License Agreement) representam um risco significativo, pois frequentemente contêm cláusulas críticas que podem estar em desacordo com a legislação vigente. Este projeto propõe um método baseado em Processamento de Linguagem Natural (PLN) para identificar cláusulas auxiliando as empresas no cumprimento da legislação e automatizar a análise de EULAs, identificando cláusulas críticas e sugerindo adequações para garantir conformidade com a LGPD. O método empregará modelos avançados de PLN, como o BERT, para extrair e classificar trechos potencialmente problemáticos, reduzindo a necessidade de revisão manual e acelerando o processo de conformidade regulatória. Além da implementação do modelo, a pesquisa analisará o desempenho da solução em relação a abordagens tradicionais de revisão contratual, utilizando métricas como acurácia, precisão, recall e F1-score. O estudo também explorará a viabilidade da integração do método em fluxos de trabalho empresariais, permitindo que organizações automatizem a detecção de inconformidades e minimizem os riscos associados a penalidades legais. Em última análise, espera-se que o método contribua significativamente para a segurança jurídica e a conformidade regulatória, fornecendo às empresas uma ferramenta eficiente para garantir a conformidade com a LGPD e fortalecer a proteção dos dados pessoais no ambiente digita."