Gait patterns have emerged as a window into brain function in the early stages of cognitive decline. However, in clinical practice, the most common evaluation methods are still the universal goniometer and the observational gait analysis. The success of the analysis is highly dependent on the professional’s experience and background, resulting in a subjective and often inaccurate evaluation process. Such lack of accuracy is mainly caused by the difficulty to perceive atypical variants in the early stages of diseases. This work presents a set of qualitative and quantitative methods to aid the analysis of gait movement in older adults. Using a secondary database of a dual-task protocol assessment clinical trial, we attempt to help health professionals to make more informed and data-driven decisions based on the individual condition of each patient. On the quantitative front, we carried a classification benchmark to clarify the significance of priority on dual-task exercises. Our extensive experiments highlighted that different protocols of dual-task exercises have undetectable impacts on the development of community-dwelling older adults. However, our best results were driven by one specific type of dual-task exercise, thus we were able to demonstrate the significance of dual-task exercises with variable priority for the classification of other types of dysfunctions such as falls. On the qualitative front, we were able to create new semantic groups highlighting irrelevant, leading, synchronic and stagnant features. Results point out that a small group of features produce significant changes during the course of the clinical trial, similarly, a big group of features is considered irrelevant and therefore can be disregarded by health professionals on evaluation scenarios. The contributions described in this dissertation demonstrate that it is possible to include machine learning algorithms on the arsenal of tools of health professionals to indicate points that require close attention. Our work brings visibility to areas that were out of the spectrum of health professionals. Taken together, we believe that these methods help pave the way for the successful application of advanced machine learning techniques to support a wide range of health professionals in their clinical practice.
O uso de Data Mining (DM) e Machine learning pode levar à extração de informações extremamente úteis quando aplicados a vários contextos. Quando aplicados ao contexto educacional, em um processo chamado de Educational Data Mining (EDM), estas ferramentas ajudam na identificar e predizer fatores que podem influenciar no processo de ensino e aprendizagem dos estudantes, ajudando na abordagem de problemas educacionais, como por exemplo, repetência, reprovação e desempenho acadêmico. As redes neurais fornecem uma alta capacidade de adaptação, podendo ser aplicadas a diferentes contextos, porém o algoritmo padrão de treinamento deste tipo de técnica tende a ser bastante lento, com isso as redes neurais baseadas no algoritmo Extreme Learning Machine (ELM) se destacam graças à sua alta velocidade de treino e alta capacidade de generalização. Porém, este tipo de rede neural pode apresentar instabilidades devido a fatores aleatórios na sua composição, sendo assim a utilização de métodos que busquem corrigir estes problemas de instabilidade podem garantir uma melhoria consistente e robustez. Desta forma, esta pesquisa utiliza modelos combinados através de métodos de ensemble learning baseados em redes neurais do tipo ELM e algoritmos de otimização aplicados ao contexto educacional. Neste contexto, os problemas avaliados foram: a previsão do desempenho de estudantes e da taxa de reprovação em escolas, como também, foram utilizadas bases de benchmark e de simulação para avaliar a consistência dos modelos combinados propostos. Os resultados foram avaliados através de métricas e testes de hipótese para ratificar a eficácia dos modelos combinados propostos. Por fim, foi possível observar os ganhos no uso dos modelos combinados propostos em detrimento dos modelos apresentados na literatura.
Com o aumento da longevidade da população, aumentam também os riscos quanto ao desenvolvimento das chamadas Doenças Crônicas Não-Transmissíveis (DCNT), tais quais diabetes e demências, na parcela mais idosa da população. Dentre as demências, a Doença de Alzheimer (DA) foi, segundo a Organização Mundial de Saúde (OMS), a terceira principal causa de mortalidade nas Américas e na Europa no ano de 2019. Para esta enfermidade, ainda não há tratamentos que possam curá-la, mas se diagnosticada precocemente, podem ser empregados tratamentos destinados a garantir maior longevidade e qualidade de vida aos pacientes. Também é importante diagnosticar precocemente condições adversas que possam levar ao desenvolvimento desta doença, tal qual o Déficit Cognitivo Leve (DCL). Fazendo isto, é possível antecipar e prevenir o agravamento deste tipo de condição para a DA. As pesquisas na área de Inteligência Computacional vêm desenvolvendo ao longo dos anos modelos de suporte ao diagnóstico eficazes, mas que em sua maioria se baseiam em instâncias de neuroimagem. Com a possibilidade do desenvolvimento de uma vacina para DA e de exames de sangue para detecção da enfermidade, que se baseiam todos em um viés mais biomolecular, trabalhando principalmente com biomarcadores no plasma sanguíneo dos indivíduos, este trabalho utilizou uma base de dados, desenvolvida por Ray et al. (2007), baseada em um conjunto com a concentração de 120 proteínas no plasma sanguíneo de 222 pacientes diagnosticados com DA, DCL e outras demências e doenças neurológicas. Em seu trabalho original, Ray et al. (2007), utilizando de uma técnica denominada Prediction Analysis of Microarrays (PAM), obtiveram um resultado de 89% de assertividade nos testes de DA e 81% nos testes de DCL para uma assinatura contendo 18 proteínas das 120. Um ano depois, Ravetti & Moscato (2008), utilizando de classificadores com as configurações padrão do Weka, obtiveram 93% de assertividade para os testes de DA e 65% para os testes de DCL, conseguindo diminuir a assinatura para até 5 proteínas. Já em Dantas & Valença (2013), utilizando de um framework de Rede Neural Artificial com treinamento não-supervisionado denominado Reservoir Computing (RC) e de uma assinatura com 3 proteínas, se obteve uma assertividade de 94,34% para os testes de DA e 66,59% para testes de DCL. Este trabalho utilizou da técnica de Recursive Feature Elimination combinada com Random Forest para encontrar uma assinatura representativa com 8 proteínas e com uma Rede Neural Multi-Layer Perceptron de duas camadas escondidas atingiu um resultado de 93,5% de assertividade para os testes de DA e 67% para os testes de DCL. Após isto, foi utilizada uma Generative Adversarial Network para expandir artificialmente a base de dados com dados sintéticos. Esta abordagem forneceu um ganho de 4% ao desempenho nos testes de DA.