DEFESA DE DISSERTAÇÃO DE MESTRADO Nº 348

Aluno: Jorge Barros Medeiros

Título: “Análise Comparativa de Técnicas de Aprendizado de Máquina para Extração de Entidades em Documentos Jurídicos Longos"

Orientador: Byron Leite Dantas Bezerra

Examinador Externo: Nuno Ricardo da Cruz Garcia (DI-FCUL)

Examinador Interno: Carlo Marcelo Revoredo da Silva

Data-hora: 01 de Agosto de 2025 às 9h

Local: Formato remoto - Google meet

Resumo:

"A extração de entidades em contratos jurídicos longos permanece uma tarefa custosa e propensa a erros quando realizada manualmente. Diferentemente do NER convencional, que opera com poucas categorias bem delimitadas, o cenário real de contratos exige a identificação de dezenas, por vezes centenas, de tipos de entidades, distribuídas ao longo de páginas de texto técnico e terminologia especializada. Nesta dissertação, comparamos três paradigmas para essa tarefa: Grandes Modelos de Linguagem (LLMs), Pequenos Modelos de Linguagem (SLMs) e Geração Aumentada por Recuperação (RAG). A avaliação foi conduzida em dois datasets. O CUAD, benchmark consolidado em inglês, reúne 510 contratos comerciais anotados com 41 tipos de cláusulas. O DI2WIN, contribuição original deste trabalho, contém 359 contratos sociais brasileiros com 143 tipos hierárquicos de entidades. Uma avaliação unificada cross-dataset aplicou ambas as estratégias de prompting (ContractEval zero-shot e few-shot) a ambos os datasets com critérios idênticos (cobertura de tokens ≥ 50%, micro-averaging) e dois LLMs distintos (Gemini-2.0-Flash e Gemini-3-Pro-Preview). O resultado mais marcante foi a superioridade dos SLMs, confirmada com ambos os LLMs: o Legal-BERTimbau alcançou F1=81,60% no DI2WIN, superando o melhor LLM (ContractEval, F1=46,27%) por mais de 35pp (p < 0,001) e com velocidade 35× superior. No CUAD, o Legal-BERT ajustado atingiu F1=60,89%, acima do melhor LLM com Gemini-2.0-Flash (F1=58,81%) e significativamente acima do Gemini-3-Pro- Preview (F1=54,28%, Δbootstrap=+6,96pp, IC: [+2,7; +9,2]pp), com latência 12× menor. Um achado inesperado foi que o modelo mais recente com raciocínio interno (Gemini-3-Pro) obteve desempenho inferior ao Gemini-2.0-Flash em 3 de 4 experimentos, com latência 4–24× superior. Uma análise de sensibilidade a quatro limiares de correspondência confirmou a robustez desses achados com ambos os LLMs. A avaliação também revelou que o ContractEval zero-shot supera consistentemente o few-shot em ambos os datasets e com ambos os LLMs. O RAG foi o pior paradigma em ambos os cenários (F1≈30%). Esses achados demonstram que SLMs ajustados com 110M de parâmetros superam LLMs comerciais, inclusive modelos com raciocínio interno, quando avaliados com critérios unificados. Encerramos com recomendações de implantação que consideram acurácia, velocidade, custo operacional e requisitos de privacidade." ."

O Programa

Go to top