"O Transtorno Depressivo Maior (MDD, na sigla em inglês) representa uma significativa carga para a saúde global, caracterizado por angústia emocional generalizada e prejuízo funcional. Apesar de sua prevalência, o diagnóstico de MDD ainda depende de avaliações clínicas subjetivas, o que pode levar a resultados inconsistentes. Esta tese propõe uma abordagem inovadora para o diagnóstico de MDD por meio de um sistema híbrido de aprendizado de máquina utilizando dados de eletroencefalograma (EEG). O estudo utiliza o conjunto de dados MODMA, composto por registros de EEG de pacientes com MDD e controles saudáveis, complementado por dados sintéticos gerados usando GANs Condicionais e Modelos de Mistura Gaussiana. Técnicas abrangentes de extração de características capturam atributos lineares, não lineares e do domínio tempo-frequência dos sinais de EEG, permitindo que o modelo aproveite a complexidade das dinâmicas neurais. O modelo híbrido proposto combina múltiplos algoritmos de aprendizado de máquina usando votação por maioria, alcançando um equilíbrio entre precisão e robustez. O sistema híbrido demonstra alta precisão, comparável aos algoritmos separadamente. Ao abordar as limitações das abordagens diagnósticas tradicionais e aproveitar os avanços em aprendizado de máquina, esta tese contribui para o desenvolvimento de ferramentas escaláveis, confiáveis e explicáveis para a saúde mental, abrindo caminho para intervenções precoces e personalizadas no diagnóstico de MDD. Por fim, outra contribuição da pesquisa é a integração de interpretabilidade utilizando o SHAP, que destaca as características e os canais de EEG mais relevantes para as previsões do modelo. Essa interpretabilidade garante transparência e promove confiança nos resultados do sistema, tornando-o adequado para aplicações clínicas."
"In the current data-driven world, data has become extremely valuable, so it is important to gather as much high-quality structured data. Data extraction is very important in this scenario, as it is able to extract valuable information from unstructured documents. The state-of-the-art way to implement data extraction pipelines is through an Optical Character Recognition (OCR) system followed by a layout-aware Named Entity Recognition (NER) model. Although this pipeline performs really well, it has a drawback in its architecture, as you have to utilize two different models. In this work, we analyzed their relation and if the NER model is dependent on the OCR system. To evaluate whether changing the OCR system does impact the NER model, we trained the NER models using four different OCRs (Ground Truth, PaddleOCR, Easy OCR, and Azure OCR) and then compared the original f1 score with the f1 score of the model on the other OCRs. With this test, we proved that there is a significant drop in performance. Afterwards, we proposed two techniques that successfully mitigated the impact of OCR changes, mixed OCR and data augmentation. In addition, we propose one novel dataset for data extraction. This is a Brazilian ID dataset, which is different from most current NER datasets, as it is in Portuguese, and tackles a new class of documents."
"A Internet das Coisas (IoT) consiste em uma rede de dispositivos interconectados que trocam informações por meio de protocolos específicos da camada de aplicação. Embora esses protocolos disponham de recursos de segurança, muitas vezes tais mecanismos não são habilitados ou configurados adequadamente, gerando potenciais brechas que comprometem a integridade dos dispositivos e das comunicações. Diante desse cenário, os Sistemas de Detecção e Prevenção de Intrusões (IDPS) tornam-se essenciais, atuando como ferramentas de monitoramento contínuo que identificam e respondem de maneira automatizada a possíveis ameaças, garantindo maior proteção ao ambiente IoT. Este trabalho propõe a implementação de um IDPS baseado em aprendizado em conjunto (ensemble learning) para detectar ataques direcionados ao protocolo MQTT. A proposta explora a capacidade dos modelos de aprendizado de máquina de reconhecer padrões nos dados do protocolo, com o intuito de aumentar a eficiência na identificação de ameaças, especialmente em ataques de negação de serviço (DoS). A revisão sistemática da literatura realizada como parte desta pesquisa destacou a limitada adoção de soluções IDPS baseadas em aprendizado de máquina voltadas especificamente para a proteção de redes que utilizam MQTT. A abordagem proposta emprega modelos previamente treinados, incluindo Random Forest, XGBoost e CatBoost, combinados por meio da técnica de votação suave para a tomada de decisões. A eficácia do modelo foi analisada em um ambiente simulado, projetado para representar redes IoT, com ênfase em cenários de smart home. Durante os experimentos, foram aplicadas métricas como acurácia, precisão, recall, F1-Score e AUC-ROC, possibilitando uma avaliação abrangente da capacidade do sistema na detecção de anomalias. A hipótese central desta pesquisa é que a utilização de um IDPS baseado em aprendizado em conjunto pode aprimorar a identificação de ataques ao protocolo MQTT, ao reconhecer e categorizar padrões nos dados, mesmo diante de ataques mais sofisticados. Além disso, o estudo busca identificar quais técnicas de aprendizado em conjunto são mais apropriadas para essa finalidade e quais métricas devem ser consideradas na avaliação do desempenho de um IDPS na detecção de ataques de negação de serviço. Dessa forma, o principal objetivo desta pesquisa é desenvolver um modelo que, utilizando ensemble learning, contribua para a segurança das redes IoT por meio da detecção eficiente de anomalias."