
Discente: DOURIVAN DIEGO DE MELO PEREIRA
Título: VIABILIDADE DO USO DE MODELOS DE GRANDE ESCALA COMO DESCRITORES DE IMAGEM NA CLASSIFICAÇÃO DE RESÍDUOS SÓLIDOS
Orientador: PROF. DR. CARMELO JOSÉ ALBANEZ BASTOS FILHO
Coorientador: PROFA. DRA. MÁRCIA REJANE OLIVEIRA BARROS CARVALHO MACEDO
Examinador Externo: PROF. DR. CLAUDEMIRO LIMA JÚNIOR
Examinador Interno: PROF. DR. MANOEL HENRIQUE DA NÓBREGA MARINHO
Data: 10 DE DEZEMBRO DE 2025
Horário: 14:00
Local: On-line
Resumo do projeto:
A gestão eficiente de resíduos sólidos urbanos representa um dos maiores desafios para a sustentabilidade nas cidades inteligentes, sendo historicamente limitada pela dependência da triagem manual e pela ineficácia de tecnologias convencionais em lidar com a heterogeneidade e a desordem visual dos materiais. Diante das limitações das Redes Neurais Convolucionais (CNNs) em fornecer descrições contextuais, esta dissertação investiga a viabilidade e o desempenho de Modelos de Linguagem de Grande Escala (LLMs) multimodais como descritores automáticos de imagem para a classificação de resíduos. O objetivo principal foi avaliar a capacidade dessas arquiteturas em gerar descrições semânticas precisas em cenários complexos. A metodologia adotou uma abordagem exploratória e experimental, utilizando um dataset intencional de 10 imagens que representam desafios visuais críticos, como alta sobreposição e homogeneidade em Resíduos Sólidos Urbanos (RSU), Resíduos de Construção e Demolição (RCD) e Resíduos Mistos. Foram avaliados três modelos: Gemini 2.5 Pro, GPT-4o e LLaVA 1.5 7b, submetidos a prompts simples e elaborados. A análise de desempenho baseou-se em uma avaliação a parti de um formulario, utilizando os critérios de Completude e Corretude. Os resultados estatísticos, validados por análise de clustering e árvore de decisão, demonstraram uma hierarquia de desempenho clara. O modelo Gemini 2.5 Pro apresentou a maior robustez operacional, com mediana de completude superior a 4.3, seguido pelo GPT-4o, que exibiu um comportamento conservador. Em contrapartida, o modelo open-source LLaVA 1.5 7b revelou-se inadequado para aplicações críticas devido à inconsistência e à ocorrência de alucinações semânticas graves. Conclui-se que o uso de LLMs como descritores é tecnicamente viável e promissor para a automação da triagem.
Palavras-chave: Inteligência artificial, modelos de larga escala, sustentabilidade.
Rua Benfica, 455 - Madalena - CEP 50720-001 - Recife - PE - Brasil
Tel.: (81) 3184-7570
Email: ppges_secretaria@poli.br
Horário de funcionamento: das 08h às 14h, de segunda a sexta-feira.