“Reconhecer traços emocionais na fala é uma tarefa desafiadora que se tornou muito popular nos últimos anos, especialmente devido aos recentes avanços nas redes neurais profundas. Embora muito bem-sucedidos, esses modelos herdaram um problema comum das redes neurais profundas fortemente supervisionadas: um grande número de amostras fortemente marcadas são necessárias, de modo que o modelo aprenda uma representação geral de emoções. Este trabalho propõe uma solução para este problema com o desenvolvimento de uma rede neural semi-supervisionada capaz de aprender a representação da fala a partir de amostras não-rotuladas e utilizá-las em diferentes cenários de reconhecimentos de emoções em fala. Foram realizados experimentos com diferentes conjuntos de dados, representando cenários naturais e controlados. Os resultados mostram que o modelo proposto é competitivo com soluções de ponta em todos esses cenários, compartilhando as mesmas representações aprendidas, que foram aprendidas sem a necessidade de dados rotulados fortes.”