Resumo:
"O recente avanço das tecnologias ocorrido nas ultimas décadas proporcionou a disponibilidade de armazenar e processar grandes quantidades de dados. Além disso, nesse período aumentou o uso de dispositivos com câmeras de vídeos. Assim, diversas áreas da sociedade, tais como vigilância, controle de tráfego e entretenimento, têm exigido cada vez mais o desenvolvimento de técnicas para análise e classificação automática de vídeos. Dentre essas áreas de aplicações, o reconhecimento de atividades humanas é considerado um dos grandes problemas e é bastante discutido no meio científico devido os desafios envolvidos como borramento das imagens, mudança de pespectiva, confusão com fundo do cenário e baixa resolução. Recentemente, as Redes Neurais Convolucionais (RNC) têm proporcionado grandes avanços em várias áreas de pesquisa conseguindo ultrapassar o estado-da-arte em muitas deles, inclusive em problemas de classificação de imagens e vídeos. Entretanto, um dos desafios encontrados no uso dessas redes é entender o ocorre em cada camada. Sabemos que, após a fase de treinamento as camadas tornam-se especialistas em determinado tipo de padrão e a medida que adicionamos mais camadas os padrões se tornam mais complexos. Diante disso, a visualização das saliências nas RNC permite um melhor entendimento de como esses modelos extraem as características e quais são as áreas que consideram importante no processo de classificação. Assim, este trabalho de dissertação tem como objetivo o desenvolvimento de uma RNC 3D para o reconhecimento de ações humanas, bem como o estudo das saliências do modelo proposto. Para isso, utilizamos bases de dados com vídeos com situações do dia-a-dia. Os resultados obtidos pelo modelo superaram o estado-da-arte nas bases avaliadas e são discutidos neste documento."