Equipamentos modernos têm permitido o mapeamento de informações biológicas do ponto de vista molecular, que podem ser utilizadas para predição e diagnóstico de doenças. Além disso, os exames laboratoriais auxiliam no diagnóstico clínico e trazem marcadores com padrões complexos. Esses padrões podem ser usados em conjunto com técnicas de Machine Learning para detectar e automatizar diagnósticos de pacientes. Essas ferramentas de aplicação podem ser utilizadas para o diagnóstico precoce de doenças. Este trabalho mostra uma aplicação de técnicas de aprendizado de máquina supervisionado para classificar pacientes com diabetes, usando os marcadores de proteínas contidos na saliva diretamente nos dados fornecidos por um equipamento implantado para medir pesos moleculares. Nosso banco de dados (o SalivaTecDB [1]) possui 170 pacientes sendo 52 diabéticos e 118 não diabéticos. Analisamos quatro técnicas de aprendizado de máquina amplamente utilizadas, mostrando que a máquina de vetores de suporte obteve os melhores resultados em relação à acurácia, precision, recall e F1-score.
Diversos cenários onde a predição de séries temporais são objeto de estudo têm estruturas hierárquicas. As vendas mensais de um produto ao longo da última década no Brasil, por exemplo, podem ser divididas por Estado e, posteriormente, por municípios. Ou ainda poderiam ser divididas por tamanho ou sabor. Quando este tipo de estrutura aparece, são séries temporais hierárquicas. Levar essa característica das séries em consideração pode não só ajudar a obter resultados melhores, como mantém a coerência entre os valores gerados. Este trabalho constitui o desenvolvimento de modelo preditivo para a execução da despesa pública considerando a estrutura hierárquica deste domínio de aplicação. Este objetivo está em consonância com os desafios de uma Administração Pública alinhada a uma ação planejada e organizada. Como é próprio desta esfera de trabalho, esta necessidade não está fundamentada apenas por aspectos relacionados a gestão, mas também a própria legalidade na esteira da Lei de Responsabilidade Fiscal. Considerando este um desafio de mineração de dados, o trabalho explora a metodologia CRISP-DM e suas necessárias adaptações para considerar particularidades das séries temporais hierárquicas. Também são considerados modelos estatísticos como o ARIMA e modelos de aprendizagem de máquina. Extreme Learning Machines (ELM), por exemplo, é um método cuja utilização com séries temporais hierárquicas representa uma aplicação original. Este trabalho apresentou um modelo preditivo considerando a estrutura hierárquica das despesas públicas, portanto, que preza pela coerência de suas predições em diversos níveis. Esta aplicação demonstrou que a utilização de séries temporais hierárquicas aliadas a algoritmos de aprendizagem de máquina constituem uma valorosa para gerar resultados melhores no contexto das contas públicas.
As proteínas são objetos de estudo importantíssimos no âmbito das pesquisas biomédicas, uma vez que podem ter papel principal na descoberta de medicamentos e em diagnósticos de doenças. Esses compostos dificilmente atuam isoladamente enquanto desempenham suas funções, sendo assim muito comum formarem compostos entre si e os estudos das afinidades entre essas proteínas são bastante influentes nas descobertas e produções de novos fármacos antivirais e de vacinas. O objetivo principal desse projeto consiste em contribuir nesses estudos de afinidades entre proteínas propondo uma arquitetura profunda híbrida baseada em rede pseudo-convolucional para descrição de complexos de proteínas em imagens, rede neural convolucional para extração de características e regressores para estimar o grau de afinidade entre proteínas em um complexo. A etapa de pseudo-convolução extrai as sequências de RNA das proteínas de cada complexo, gerando duas matrizes de co-ocorrência que são posteriormente concatenadas. Essas matrizes então passam pelo processo de extração de atributos através de uma rede neural convolucional VGG19. Esses atributos passam a ser os dados de entrada para os treinamentos dos modelos de regressão que irão exercer a função de predição de afinidade entre as proteínas dos complexos. Dentre os quatro regressores treinados sendo estes o de Regressão Linear, Random Forest, Máquina de Vetor de Suporte (SVM - Support Vector Machine) e Multilayer Perceptron (MLP), os melhores resultados foram os de Random Forest e SVM. A melhor configuração do Random Forest foi a de 300 árvores, obtendo as melhores médias dos coeficientes de correlação Spearman (0,7067) e Kendall (0,5216) entre os dados preditos e os reais. A configuração do SVM com função kernel RBF, C = 0,1, g = 0,01 apresentou a melhor média do coeficiente de Pearson (0,6645) e a configuração desse mesmo regressor com função kernel RBF, C = 1,0 e g = 0,01 obteve o melhor RMSE (2,1383). É importante observar também a consistência dos resultados desses regressores, pois apresentaram baixos desvios padrão desses coeficientes.