“The growing demand for portability of physical manuscripts to the digital medium makes the use of more robust and automatic mechanisms common in offline Handwritten Text Recognition(HTR) systems. However, the great diversity of application scenarios and writing variations, bring challenges to the text recognition precision and, to minimize this problem, the optical model can be used in conjunction with the language model, in which it assists in decoding text through predefined linguistic knowledge. Thus, in order to improve the results, character and word dictionaries are created from the dataset used, causing the linguistic restriction within the HTR system. In this way, this work proposes the use of spelling correction techniques for text post-processing in order to obtain better results in the final stage and eliminate the linguistic dependence between the optical model and the decoding step. In addition, an encoder-decoder neural network architecture and training methodology are also developed and presented to achieve this goal. To validate the efficiency of this new approach, we conducted an experiment using: (i) five datasets of lines of text already well known in the HTR field, including a set that corresponds to a combination of all of them (All in One); (ii) three state-of-the-art optical models; and (iii) eight spelling correction techniques within the field of Natural Language Processing, varying between traditional statistical and more recent approaches, such as neural networks. In this way, the results of the techniques combinations are presented and discussed in each dataset individually. Finally, the proposed spelling correction model with the best performance is analyzed statistically, through the metrics of an HTR system and considering all the results obtained from the combinations, reaching an average sentence correction of 65%. This means a 54% improvement over the traditional method of decoding on tested datasets. In addition, other simpler statistical techniques are also discussed, bringing relevant results in some applied scenarios.”
“Este trabalho objetiva o desenvolvimento de um antivírus de próxima geração, por meio do uso de aprendizagem de máquina, reconhecimento de padrões e inteligência artificial, com o intuito de detectar Malwares PHP, JavaScript e Jar em tempo de execução. Estes tipos de arquivos foram escolhidos pois dentre todas as vulnerabilidades monitoradas na rede mundial de computadores, observa-se que a grande maioria é escrita em Java ou em JavaScript, assim como quase todos os malwares executados em servidores web são códigos PHP. Na metodologia proposta, os arquivos malwares JavaScript, Jar e PHP são executados com a finalidade de infectar de maneira intencional o Windows 7 auditado, em ambiente controlado. Deste modo, os comportamentos observados servem como atributos de entrada das máquinas de aprendizado estatístico, com o objetivo de periciar o arquivo suspeito. São monitoradas e ponderadas estatisticamente 6.824 ações dos arquivos Jar e 7.690 dos JavaScript, quando executados no Windows 7, assim como 11.777 características, em média, dos arquivos PHP, quando lançados diretamente de um servidor web malicioso para um serviço em computador. Os resultados alcançados no cenário com os arquivos JavaScript tiveram uma precisão média de 99,80% na distinção entre arquivos benignos e malwares com o uso de configurações distintas iniciais e testes de hipóteses das máquinas de aprendizado KNN, Árvore de Decisão e SVM, enquanto o cenário com os arquivos Jar apresentaram uma acurácia média de 95,61% na diferenciação entre os arquivos benignos e maliciosos com o uso de MLP. Finalmente, os scripts web PHP alcançaram uma precisão média de 97,50% ao diferenciar as amostras benignas das malignas, por meio de diferentes condições iniciais e kernels dos classificadores ELM. As diferenças nas configurações iniciais e os diferentes kernels empregados tiveram o objetivo de maximizar a precisão alcançada. O modelo aqui proposto pode vir a ajudar a suprir as limitações dos antivírus comerciais e do estado-da-arte quanto à detecção de malwares JavaScript, Jar e PHP, todos dotados de técnicas de anti-forense digital, como ofuscação, polimorfismo e ataques web sem arquivos. Ao invés de modelos baseados em listas negras, análise de eventos individuais e análise estática, aqui são utilizadas técnicas de análise dinâmica, bases autorais, aprendizagem de máquina, inteligência artificial e reconhecimento de padrões, a fim de detectar malwares de forma preventiva, e não reativa, como acontece com os antivírus comerciais.”
“Com o crescente aumento da competitividade entre as empresas, a gestão do conhecimento se tornou um fator estratégico para garantir a sustentabilidade das organizações. Neste contexto, um dos primeiros passos é identificar as especialidades e habilidades da equipe que a compõe. Nesta dissertação, propõe-se a aplicação da rede neural GHSOM para mapear de forma hierárquica, a partir de informações obtidas através de fontes externas, o conhecimento tácito presente em determinada organização, em que a solução possa realizar a identificação das habilidades de forma dinâmica. Para avaliar a efetividade da rede GHSOM, foram implementados dois experimentos, em que no primeiro foi aplicada a rede GSOM e no segundo a rede GHSOM. Em ambos os experimentos foram criados diversos modelos com dimensões de mapas distintos. Os resultados mostraram que a aplicação do GHSOM, através da utilização de mapas com menor dimensão por camada, permite a identificação dos conhecimentos que mais caracterizam cada cluster. Isso se destaca no contexto de identificação de conhecimento tácito, pois é possível identificar relações não explícitas entre os grupos formados e, assim, entre os conhecimentos de que a organização dispõe. A função de ganho de relevância, desenvolvida e aplicada neste trabalho, tem um importante papel no processo de análise, pois, permite a identificação das habilidades que mais se diferenciam em comparação às habilidades do nível superior, o que facilita o entendimento dos clusters gerados, permitindo a interpretação dos dados simbólicos (habilidades) para o contexto de cada camada do mapa.”