Divulgação - Defesa Nº 273

Aluno: Ailton de Souza Leite

Título: “Processamento, reconhecimento e classificação de fala disártrica através do processamento de espectrogramas utilizando modelos híbridos inteligentes”.

Orientador: Sérgio Murilo Maciel Fernandes

Coorientador: Rodrigo de Paula Monteiro

Examinador Externo: Paulo Salgado G. de Mattos Neto (UFPE)

Examinador Interno: Alexandre Magno Andrade Maciel (PPGEC)

Data-hora: 28 de Julho de 2023 às 13:30h.
Local: Formato Remoto

Resumo:

Este trabalho apresenta quatro dos modelos híbridos inteligentes mais utilizados na literatura capazes de processar, reconhecer e classificar a fala disártrica, condição que afeta a produção articulatória e a inteligibilidade da fala, por meio da análise de seus respectivos espectrogramas. Os modelos visam dar suporte aos profissionais de saúde na análise e diagnóstico da fala disártrica, contribuindo para um prognóstico mais preciso e auxiliando na definição do estado de saúde dos indivíduos acometidos por essa condição. Para apoiar os experimentos e validar as aplicações dos modelos, foi utilizada a base de dados de articulação distártrica TORGO, disponibilizada pelo departamento de Ciência da Computação da Universidade de Toronto. O intuito deste trabalho é criar modelos híbridos capazes de distinguir um áudio sem alteração de fala de um áudio com alteração de fala e, também, indicar o sexo do individuo que se expressa. Foi realizado um pré-processamento inicial nos áudios das falas disponíveis na base de dados TORGO para extração dos seus respectivos espectrogramas, que serviram de entrada para os modelos apresentados. Os modelos utilizaram a extração das características dos espectrogramas que geraram características nomeadas para um processamento supervisionado. Essas características foram extraídas utilizando uma Convolutional Neural Network (CNN), com o apoio de técnicas de transferência de aprendizagem e ajustes finos em sua arquitetura e seus hiperparâmetros. Os resultados do processamento da CNN foram entregues a outros algoritmos inteligentes para realização da etapa de reconhecimento e classificação da fala. O primeiro modelo criado utilizou o algoritmo Support Vector Machine (SVM) para reconhecimento e classificação das características extraídas pela CNN e obteve uma acurácia de 98,22%. O segundo modelo utilizou o algoritmo K-Nearest Neighbors (KNN), obtendo uma acurácia de 97,51%. O terceiro modelo utilizou o algoritmo Random Forest (RF), e obteve uma acurácia de 97,16%. O último modelo utilizou o algoritmo Naive Bayes (NB), e alcançou uma acurácia de 89,71%.