Diversos cenários onde a predição de séries temporais são objeto de estudo têm estruturas hierárquicas. As vendas mensais de um produto ao longo da última década no Brasil, por exemplo, podem ser divididas por Estado e, posteriormente, por municípios. Ou ainda poderiam ser divididas por tamanho ou sabor. Quando este tipo de estrutura aparece, são séries temporais hierárquicas. Levar essa característica das séries em consideração pode não só ajudar a obter resultados melhores, como mantém a coerência entre os valores gerados. Este trabalho constitui o desenvolvimento de modelo preditivo para a execução da despesa pública considerando a estrutura hierárquica deste domínio de aplicação. Este objetivo está em consonância com os desafios de uma Administração Pública alinhada a uma ação planejada e organizada. Como é próprio desta esfera de trabalho, esta necessidade não está fundamentada apenas por aspectos relacionados a gestão, mas também a própria legalidade na esteira da Lei de Responsabilidade Fiscal. Considerando este um desafio de mineração de dados, o trabalho explora a metodologia CRISP-DM e suas necessárias adaptações para considerar particularidades das séries temporais hierárquicas. Também são considerados modelos estatísticos como o ARIMA e modelos de aprendizagem de máquina. Extreme Learning Machines (ELM), por exemplo, é um método cuja utilização com séries temporais hierárquicas representa uma aplicação original. Este trabalho apresentou um modelo preditivo considerando a estrutura hierárquica das despesas públicas, portanto, que preza pela coerência de suas predições em diversos níveis. Esta aplicação demonstrou que a utilização de séries temporais hierárquicas aliadas a algoritmos de aprendizagem de máquina constituem uma valorosa para gerar resultados melhores no contexto das contas públicas.
As proteínas são objetos de estudo importantíssimos no âmbito das pesquisas biomédicas, uma vez que podem ter papel principal na descoberta de medicamentos e em diagnósticos de doenças. Esses compostos dificilmente atuam isoladamente enquanto desempenham suas funções, sendo assim muito comum formarem compostos entre si e os estudos das afinidades entre essas proteínas são bastante influentes nas descobertas e produções de novos fármacos antivirais e de vacinas. O objetivo principal desse projeto consiste em contribuir nesses estudos de afinidades entre proteínas propondo uma arquitetura profunda híbrida baseada em rede pseudo-convolucional para descrição de complexos de proteínas em imagens, rede neural convolucional para extração de características e regressores para estimar o grau de afinidade entre proteínas em um complexo. A etapa de pseudo-convolução extrai as sequências de RNA das proteínas de cada complexo, gerando duas matrizes de co-ocorrência que são posteriormente concatenadas. Essas matrizes então passam pelo processo de extração de atributos através de uma rede neural convolucional VGG19. Esses atributos passam a ser os dados de entrada para os treinamentos dos modelos de regressão que irão exercer a função de predição de afinidade entre as proteínas dos complexos. Dentre os quatro regressores treinados sendo estes o de Regressão Linear, Random Forest, Máquina de Vetor de Suporte (SVM - Support Vector Machine) e Multilayer Perceptron (MLP), os melhores resultados foram os de Random Forest e SVM. A melhor configuração do Random Forest foi a de 300 árvores, obtendo as melhores médias dos coeficientes de correlação Spearman (0,7067) e Kendall (0,5216) entre os dados preditos e os reais. A configuração do SVM com função kernel RBF, C = 0,1, g = 0,01 apresentou a melhor média do coeficiente de Pearson (0,6645) e a configuração desse mesmo regressor com função kernel RBF, C = 1,0 e g = 0,01 obteve o melhor RMSE (2,1383). É importante observar também a consistência dos resultados desses regressores, pois apresentaram baixos desvios padrão desses coeficientes.
Data are valuable assets to industries, government agencies, and research institutes. All these entities have a growing need of analyzing large data volumes that are generated from a variety of sources for helping users to communicate or to support their decision-making. Exploring even a simple database is not a trivial task, inasmuch as it requires technical knowledge which many new and non-technical data users do not have. This task includes writing SQL queries to retrieve a data set from larges database to uncover insights, patterns, and points of interest among them. Furthermore, in large volumes of data, finding valuable data that matches a certain user’s purpose requirement is challenging, especially under restrictive budget/time constraints. However, this task is typically manual, ad-hoc, and time consuming. To address these challenges, researches have proposed tools to support data exploration tasks, especially by means of View Recommendation. Under this research stream, a view can be seen as a visual representation of query’s result on database. Instead of showing a set of results produced by a query over a database, as a table like SQL represents, the result-set is then plotted using histogram or bar chart. Systems that use this approach start by creating all possible views, filter out non-informative candidates and recommend the most interesting views according to some objective functions. The goal of those solutions is to improve data exploration by guiding the user, showing the next best view to be explored, enabling users to quickly understand the data and find insights. View Recommendation is especially challenging in the context of Data Marketplaces since every data interaction incurs monetary cost. Due to this, instead of an iterative process of querying and analyzing unrelated views, each of which the user must pay for, a more suitable approach would consider a recommendation of bundles of related views. In this work, we propose and implement a new approach for View Recommendation called MapView, which is based on Self-Organizing Maps (SOM) and helps non-technical users with both technical expertise and time limited, in data exploratory tasks. Our proposed approach employs SOM as a clustering mechanism to group and recommend exploratory data views to users. This recommendation process can also be personalized to help meeting user’s intention in an interactive manner. To address View Recommendation in Data Marketplaces, we introduce the problem of recommending view bundles. In particular, we focus in cases where the data consumer’s budget to interact with the marketplace is limited. We investigate data exploration tasks that require several iterations to uncover valuable insights in the data, where view bundle recommendation allow for a multi-perspective view of the target data without overflow the user’s budget. We also investigate how SOM and Genetic Algorithm could be combined to recommend near-optimal view bundles while took a specified cost limit into account. The experimental results show that MapView is effective in recommending valuable views, hence, being of aid in data exploration tasks. Complementary views are recommended according to the user’s interest. This even within a tight budget.