As doenças cardiovasculares persistem como uma das principais causas de morte globalmente, superando o câncer em indivíduos com menos de 85 anos. Nesse cenário urgente pela prevenção e detecção precoce, o eletrocardiograma (ECG) é uma ferramenta crucial para o acompanhamento e identificação de problemas cardíacos. Embora de baixo custo e não invasivo, a interpretação manual de seus sinais é um processo demorado e propenso a erros, exigindo grande experiência médica. Adicionalmente, há uma dificuldade em encontrar sistemas eficazes para digitalizar exames de ECG gerados por eletrocardiógrafos legados. Este trabalho propôs o desenvolvimento de uma abordagem inovadora para auxiliar nesse desafio, criando uma pipeline que digitaliza imagens de ECG, pré-processa os sinais extraídos e utiliza algoritmos de aprendizado de máquina para agrupar e rotular as batidas cardíacas. Para isso, foi utilizada a base de dados PTB Diagnostic ECG Database, que compreende 549 registros de 15 derivações a 1000 amostras por segundo, de 290 indivíduos com e sem patologias cardíacas. A pesquisa demonstrou que, por meio de técnicas de processamento de sinais e imagem, é possível estabelecer uma etapa eficaz para a coleta de dados de um sinal de ECG a partir de uma imagem digitalizada. O pré-processamento cuidadoso, que inclui a filtragem de ruídos como Baseline Wander (BW) e Powerline Interference (PLI), revelou-se crucial para a obtenção de uma segmentação de dados de alta qualidade, incorporando a filtragem de ruídos inerentes aos sinais de ECG. Os algoritmos de clusterização, DBSCAN e Gaussian Mixture Models (GMM), foram capazes de organizar os sinais de ECG em grupos com morfologias visivelmente distintas. Foi notável a surpreendente similaridade nos resultados entre DBSCAN e GMM, ambos atribuindo as mesmas batidas aos mesmos clusters. Testes estatísticos confirmaram que certas características dos sinais eram importantes para essa separação dos grupos. Além disso, o alto desempenho de modelos classificadores supervisionados (Random Forest, SVM, MLP e CNN) que utilizaram os rótulos gerados pelos clusters reforçou a confiabilidade da abordagem de clusterização. A clusterização demonstrou que todas as batidas de ECG consideradas normais foram alocadas em um único cluster, sugerindo que esse grupo representa o padrão típico de batida normal. Contudo, a identificação de batidas possivelmente normais em ECGs diagnosticados como anormais indica que a condição de anormalidade não se manifesta uniformemente em todos os batimentos. Essa tecnologia tem potencial para uso em dispositivos móveis, apoiando profissionais de saúde em áreas remotas no diagnóstico e prevenção de doenças cardíacas. Mais importante, essa abordagem oferece uma solução eficiente e escalável para a rotulagem automática de grandes volumes de dados de ECG, superando o gargalo da rotulagem manual. Em resumo, este trabalho mostra que a combinação de processamento de imagens e agrupamento de dados pode separar eficientemente os sinais de ECG em categorias distintas, pavimentando o caminho para avanços na detecção precoce de problemas cardíacos."