"Out-of-Distribution (OOD) generalization remains both a fundamental challenge and an often-overlooked aspect of modern machine learning--especially in the context of Deep Neural Networks (DNNs), which are highly expressive yet prone to overfitting under distributional stress. Classical learning theory highlights the role of regularization in managing the bias-variance trade-off--particularly important for compact models with lower VC dimension. In this work, we explore stochastic data regularization techniques--such as random augmentations and noise injection--applied not only as isolated strategies but also organized through a Curriculum Learning-based framework. By progressively increasing input difficulty during training, the curriculum aligns model capacity with task complexity, promoting more robust generalization. We also propose a novel statistical procedure to assess the consistency of performance estimates across cross-validation folds, mitigating miscoverage effects in confidence interval estimation. Altogether, our findings highlight the importance of a tailored data regularization, where the selection, combination, and scheduling of perturbations become key to achieving OOD robustness in DNNs"
"A extração de entidades em contratos jurídicos longos permanece uma tarefa custosa e propensa a erros quando realizada manualmente. Diferentemente do NER convencional, que opera com poucas categorias bem delimitadas, o cenário real de contratos exige a identificação de dezenas, por vezes centenas, de tipos de entidades, distribuídas ao longo de páginas de texto técnico e terminologia especializada. Nesta dissertação, comparamos três paradigmas para essa tarefa: Grandes Modelos de Linguagem (LLMs), Pequenos Modelos de Linguagem (SLMs) e Geração Aumentada por Recuperação (RAG). A avaliação foi conduzida em dois datasets. O CUAD, benchmark consolidado em inglês, reúne 510 contratos comerciais anotados com 41 tipos de cláusulas. O DI2WIN, contribuição original deste trabalho, contém 359 contratos sociais brasileiros com 143 tipos hierárquicos de entidades. Uma avaliação unificada cross-dataset aplicou ambas as estratégias de prompting (ContractEval zero-shot e few-shot) a ambos os datasets com critérios idênticos (cobertura de tokens ≥ 50%, micro-averaging) e dois LLMs distintos (Gemini-2.0-Flash e Gemini-3-Pro-Preview). O resultado mais marcante foi a superioridade dos SLMs, confirmada com ambos os LLMs: o Legal-BERTimbau alcançou F1=81,60% no DI2WIN, superando o melhor LLM (ContractEval, F1=46,27%) por mais de 35pp (p < 0,001) e com velocidade 35× superior. No CUAD, o Legal-BERT ajustado atingiu F1=60,89%, acima do melhor LLM com Gemini-2.0-Flash (F1=58,81%) e significativamente acima do Gemini-3-Pro- Preview (F1=54,28%, Δbootstrap=+6,96pp, IC: [+2,7; +9,2]pp), com latência 12× menor. Um achado inesperado foi que o modelo mais recente com raciocínio interno (Gemini-3-Pro) obteve desempenho inferior ao Gemini-2.0-Flash em 3 de 4 experimentos, com latência 4–24× superior. Uma análise de sensibilidade a quatro limiares de correspondência confirmou a robustez desses achados com ambos os LLMs. A avaliação também revelou que o ContractEval zero-shot supera consistentemente o few-shot em ambos os datasets e com ambos os LLMs. O RAG foi o pior paradigma em ambos os cenários (F1≈30%). Esses achados demonstram que SLMs ajustados com 110M de parâmetros superam LLMs comerciais, inclusive modelos com raciocínio interno, quando avaliados com critérios unificados. Encerramos com recomendações de implantação que consideram acurácia, velocidade, custo operacional e requisitos de privacidade." ."
"Contexto: Dívida Técnica é um conceito da engenharia de software que descreve decisões que geram benefícios no curto prazo, mas acarretam em custos futuros na manutenção, implicando em retrabalho e redução da qualidade. Na literatura, descrevem-se diversas formas de identificação de dívidas, especialmente por meio de Análise Estática de Código e da Dívida Técnica Auto-Admitida. Contudo, essas abordagens são frequentemente tratadas de forma isolada, limitando a compreensão integrada das dívidas e podendo complicar as decisões estratégicas de priorização. Problema: A priorização da DT é um desafio na gestão dos projetos de software, pois envolve múltiplos critérios técnicos e de negócio. A ausência de modelos estruturados que integrem diferentes fontes de identificação pode resultar em decisões subjetivas ou inconsistentes entre especialistas técnicos e de negócio. Assim, torna-se necessário compreender como essas perspectivas se relacionam e como podem ser integradas de forma sistemática. Objetivo: Identificar como priorizar dívidas técnicas, considerando as abordagens de Análise Estática de Código e a Dívida Técnica Auto-Admitida, e, simultaneamente, os critérios técnicos e de negócio, a fim de apoiar decisões mais alinhadas. Método: A pesquisa adotou uma abordagem com estudos de caso em projetos reais de software. Inicialmente, especialistas técnicos e de negócio realizaram priorizações individuais das dívidas identificadas. O grau de concordância foi avaliado por meio do coeficiente Kappa ponderado quadrático, revelando divergências que fundamentaram a condução de sessões colaborativas para negociação e construção de consenso. As discussões foram analisadas por meio de análise temática, o que permitiu identificar critérios, justificativas e dinâmicas de decisão. Resultados: Os resultados indicaram divergências iniciais relevantes entre as perspectivas técnicas e de negócio, evidenciadas por níveis moderados ou baixos de concordância, o que reforçou a necessidade de uma abordagem de priorização mediada. A análise qualitativa revelou que critérios como risco arquitetural, impacto no cliente, custo de correção e valor estratégico influenciaram as negociações. As sessões colaborativas contribuíram para um maior alinhamento e construção de consenso, demonstrando o potencial da integração das abordagens. Conclusão: A priorização híbrida mostrou-se viável e necessária para lidar com a complexidade das dívidas. A integração entre Análise Estática de Código e a Dívida Técnica Auto-Admitida, aliada à mediação entre critérios técnicos e de negócio, favorece decisões mais consistentes ao integrar indicadores objetivos da análise estática de código com o conhecimento da equipe registrado nas dívidas auto-admitidas, contribuindo para uma gestão mais estratégica das dívidas técnicas."