Com a diminuição da taxa de natalidade e o aumento da expectativa de vida no Brasil ao longo das últimas décadas, observam-se mudanças significativas no perfil demográfico. Um fenômeno correlato é o aumento da população idosa, que por sua vez está associado ao crescimento da incidência de doenças relacionadas à senescência, tais como osteoporose, hipertensão e demências. Destacam-se, entre estas últimas, a Doença de Alzheimer e a isquemia cerebrovascular como as principais causas. Estudos evidenciam que a musicoterapia apresenta potencial para retardar a progressão de demências por meio de estímulos musicais e educação musical, promovendo a ativação de áreas cerebrais relacionadas à memória, mediadas pelas emoções. Contudo, a eficácia da musicoterapia está intrinsecamente associada ao habilidoso reconhecimento e estímulo de emoções por parte do terapeuta. Recentes avanços nas áreas de inteligência artificial e processamento de sinais propiciaram a aplicação de redes neurais artificiais profundas para resolver problemas complexos, minimizando a necessidade de pré-processamento. Este projeto se concentrou na construção de uma arquitetura de rede neural artificial profunda para o reconhecimento de emoções em sinais eletroencefalográficos (EEG) e de voz. Propôs-se uma abordagem que emprega a Transformada de Wavelet para converter os sinais em imagens, utilizadas como entrada para uma arquitetura híbrida baseada em redes convolucionais pré-treinadas, visando a extração de atributos por meio da aprendizagem por transferência. Algoritmos clássicos foram então empregados para a classificação dos estados emocionais nesses dados. Para avaliar a capacidade do método em interpretar dados emocionais de pessoas idosas, especialmente aquelas com demências, foi construída uma base de dados composta por informações multimodais, incluindo EEG, voz, expressão facial, dados demográficos e de diagnóstico de 39 participantes. Dessa amostra, 21 pertecem ao grupo de indivíduos cognitivamente saudáveis, enquanto 18 são do grupo de pessoas com demência em estágio leve a moderado. Experimentos computacionais foram conduzidos para o reconhecimento automático dos estados emocionais positivo, negativo e neutro a partir dos sinais simultâneos de EEG e voz, além de dados categóricos de idade, gênero e diagnóstico. A aplicação do método proposto resultou em acurácias em torno de 71 e 73% ao utilizar uma arquitetura de LeNet pré-treinada com MNIST para extração de atributos, associada a uma Random Forest com 450 árvores para classificação. A arquitetura desenvolvida servirá como núcleo para uma interface musical humano-máquina destinada ao biofeedback, com a capacidade de investigar as emoções despertadas por estímulos musicais específicos. Essa tecnologia pode ser empregada como suporte à personalização de musicoterapia e outras abordagens terapêuticas.