Divulgação - Defesa Nº 08

Aluno: Marília Nayara Clemente de Almeida Lima

Título: “Detecção e Avaliação de Desvio de Conceito Aplicadas em Dados Pontuais e Intervalares”

Orientador: Roberta Andrade de Araújo Fagundes - (PPGEC)

Coorientador: Telmo de Menezes e Silva Filho - (BISTROL)

Examinador Externo: Ricardo Bastos Cavalcante Prudencio - (Cin/UFPE)

Examinadora Externa: Renata Maria Cardoso Rodrigues de Souza - (Cin/UFPE)

Examinador Interno: Cleyton Mário de Oliveira Rodrigues - (PPGEC)

Data-hora: 03 de Agosto de 2023, às 09:00h.
Local: Mini-auditório, PPGEC - UPE/POLI

Resumo:

Contexto: em determinadas situações, os dados aos quais um modelo de aprendizado de máquina treinado é submetido são significativamente diferentes dos dados de treinamento. Isso pode causar um problema conhecido como Desvio de Conceito (DC). Há uma grande quantidade de trabalhos sobre como detectar e avaliar DC.No entanto, a maior parte se concentra em detectores que fazem uso de um modelo base. Objetivo: desenvolver um detector e uma métrica de avaliação para DC que não necessite do uso de um modelo base. O detector proposto é o Background Check for Drift Detection (BCDD) e a métrica é a Detection Distance (DD) que serão aplicados em dados pontuais e simbólicos do tipo intervalo. Visão Geral: o método de detecção proposto segue a ideia de ajustar um modelo de densidade para definir as probabilidades a posteriori e identificar se há desvio. Quanto a métrica de avaliação, verifica-se quão distante é o ponto real do desvio em relação ao ponto que o detector alertou. Metodologia: são utilizados dados sintéticos com quatro tipos diferentes de velocidade de desvio: abrupto, gradual, incremental, recorrente. Também usa-se conjunto de dados reais com desvio em proporções diferentes nas variáveis explicativas. Usou-se a configuração experimental com três modelos base: Hoeffding Tree Regressor, Hoeffding Adaptive Tree Regressor, Online Sequential Extreme Learning Machine; e sete detectores de desvio da literatura: ADWIN, DMM, EDDM, HDDM_H, HDDM_W, PH, KSWIN. Ainda são testados os modelos sempre atualizando (Partial) e nunca sendo atualizado (No_Partial). Para o processo de detecção usou-se a abordagem treine-teste-treine: (i) os modelos base são treinados com os primeiros dados (ii) nos dados de teste a cada lote é verificado se há desvio, assim: (a) se existir desvio, é alertado, retornado o status de predição e o modelo é atualizado, (b) se não existir desvio, alerta, retorna o status de predição e o lote vai para área de esquecimento. O processo (ii) é repetido até o fim dos dados de teste. Além disso, é feita uma simulação de Monte Carlo com trinta iterações. Resultados: há influência no tipo de velocidade de desvio, dispersão dos dados e modelo base utilizado. Desse modo, o BCDD se mostrou mais adequado para desvio gradual e incremental em dados intervalares. Porém, nas outras velocidades teve semelhança com o KSWIN, que teve resultados adequados, na maioria dos conjuntos de dados pontuais e intervalares analisados. Conclusão: a tese apresenta como contribuição um novo detector de DC mais adequado para dados graduais e incrementais, uma nova métrica de avaliação de DC, metodologia de experimentação do processo de detecção e uma revisão sistemática da literatura. Além do uso de dados pontuais e intervalares no contexto de regressão. Assim, os resultados contribuirão para as diferentes áreas da sociedade e pesquisas em DC.

O Programa

Go to top

Divulgação - Defesa de Doutorado Nº 08