Divulgação - Defesa Nº 244

Aluno: Flávio Secco Fonsêca

Título: “Reconhecimento de Emoções pela Análise de Sinais de Voz em Idosos”

Orientador: Wellington Pinheiro dos Santos (PPGEC)

Examinador Externo : Cristine Martins G. de Gusmão - (UFPE)

Examinador Interno : Alexandre Magno Andrade Maciel (PPGEC)

Data-hora: 18/Fevereiro/2022 (10:00h)- AM
Local: Formato Remoto (https://meet.google.com/hyy-zwwn-jon)


Resumo:

O reconhecimento das emoções é uma das áreas que mais avançou com a inteligência artificial. No entanto, criar modelos que compreendam as nuances da linguagem natural e da fala ainda é uma tarefa complexa. Isso é ainda pior quando falamos dos idosos, grupo com maior predisposição a problemas fisiológicos, psicológicos e até sociais. Com o crescimento demográfico e o envelhecimento da população, é fundamental desenvolvermos sistemas para apoiar a qualidade de vida dessas pessoas. Neste capítulo, propomos algumas abordagens clássicas e outras inusitadas para realizar o reconhecimento de emoções em idosos por meio da fala usando o banco de dados público RAVDESS. A ideia é que esses modelos sejam utilizados em interfaces homem-máquina para dar suporte a terapeutas e médicos para esses pacientes. Inicialmente, foi utilizada uma arquitetura CNN com extração do atributo do espectrograma log-mel. Embora os resultados encontrados não tenham ultrapassado 61%, serviram de experimento inicial para os próximos modelos. No segundo experimento, aplicamos a transformada wavelet, convertendo sinais sonoros em imagens por meio de pseudocores. A partir dessas imagens, 2.048 características foram extraídas por uma rede ResNet pré-treinada. Também aplicamos o algoritmo de otimização de enxame de partículas (PSO). Ele selecionou 410 recursos considerados mais influentes entre os extraídos pela rede profunda, na etapa anterior. Assim, para investigar os efeitos do PSO na arquitetura, utilizamos ambas as sub-bases geradas (com 2048 e com 410 features). Essas 2 novas sub-bases serviram para o treinamento e teste dos classificadores inteligentes Bayesian Network, Naive Bayes, árvore de decisão J48, Random Tree, Random Forests e Support Vector Machines (SVM). Os resultados finais foram comparados entre si, considerando diversas métricas. O RBF-kernel SVM com γ = 0,5 mostrou grande potencial. O pré-processamento com aprendizagem por transferência atingiu uma precisão de 81,1%, sendo o melhor modelo. Notamos também a relevância da seleção de atributos para a simplificação do problema. Como os resultados foram em sua maioria muito semelhantes, o modelo com PSO mostrou-se uma alternativa viável. Especialmente quando procuramos soluções móveis fáceis de implementar. Com esses resultados, no futuro, esperamos aplicar a arquitetura proposta a bancos de dados específicos de idosos e, testando outras configurações, pretendemos desenvolver um modelo mais robusto, prático e com melhor desempenho em comparação com o estado da arte atual.

Go to top Menu