DEFESA DE TESE DE DOUTORADO Nº27

Aluno: Rodrigo Cesar Lira da Silva

Título: "Inteligência de enxames com aprendizado de máquina por reforço para resolução de problemas de otimização contínua"

Orientador: Carmelo José Albanez Bastos Filho

Coorientadora: Mariana Gomes da Motta Macedo

Examinador Externo: Marcos Antonio da Cunha Oliveira Júnior - (EXON)

Examinador Externo: Péricles Barbosa Cunha de Miranda - (UFRPE)

Examinador Externo: Álvaro Farias Pinheiro - (ATI)

Examinador Interno: Alexandre Magno Andrade Maciel

Data-hora: 25 de março de 2025 às 13h30min.
Local: Formato Remoto - Google Meet.


Resumo:

         "Inteligência de Enxame baseia-se em comportamentos coletivos observados na natureza para solucionar problemas de otimização, enquanto técnicas de Aprendizagem por Reforço permitem que agentes aprendam estratégias de resolução de problemas através de interações e feedbacks do ambiente. Estas abordagens são tradicionalmente aplicadas de forma independente, com meta-heurísticas de enxame utilizando conjuntos fixos de operadores inspirados em comportamentos naturais, como bandos de pássaros ou alcateias de lobos, e técnicas de Aprendizagem por Reforço sendo empregadas para problemas de tomada de decisão sequencial. Esta pesquisa demonstra que a integração entre Aprendizagem por Reforço e meta-heurísticas de Inteligência de Enxame pode produzir otimizadores adaptativos capazes de ajustar automaticamente suas estratégias durante o processo de busca, alcançando desempenho superior às abordagens convencionais. Uma extensão do framework de Rede de Interação, denominada Rede de Influência, foi inicialmente desenvolvida, incorporando pesos baseados em distância euclidiana para quantificar a intensidade das interações entre agentes. Esta ferramenta revelou que algoritmos conceitualmente similares, como a Otimização do Lobo Cinzento e diferentes variantes da Otimização por Enxames de Partículas, apresentam dinâmicas sociais fundamentalmente distintas, contrariando hipóteses anteriores sobre sua equivalência estrutural. Posteriormente, essa informação das dinâmicas sociais foi utilizada quando foram implementados três provas de conceito que utilizaram Aprendizagem por Reforço Profundo para (i) selecionar dinamicamente topologias de comunicação para o PSO, (ii) alternar entre diferentes meta-heurísticas durante a otimização, e (iii) combinar características de múltiplas meta-heurísticas numa mesma iteração, criando comportamentos híbridos adaptativos. Os experimentos demonstraram que as abordagens propostas superaram as meta-heurísticas individuais nos cenários avaliados e exibiram capacidade de transferência de conhecimento entre diferentes nas funções de benchmark analisadas, mesmo quando treinadas em apenas uma delas. A análise das dinâmicas sociais utilizando as métricas Improvement Frequency e Population Turnover revelou padrões específicos de comportamento que explicam estes resultados: as meta-heurísticas integradas com Aprendizagem por Reforço conseguiram explorar as características favoráveis de diferentes algoritmos nas fases mais apropriadas da otimização, como a exploração eficiente do espaço de busca pelo GWO nas fases iniciais e o refinamento da solução pelo GPSO e LPSO nas fases posteriores. Estes avanços apresentam uma direção de pesquisa, transitando de algoritmos com comportamentos estáticos para otimizadores adaptativos que evoluem de acordo com as necessidades específicas de cada problema e fase da otimização. A abordagem proposta não apenas melhora o desempenho em problemas de benchmark, mas também oferece um caminho promissor para aplicações em problemas reais, reduzindo a necessidade de conhecimento especializado para a seleção e configuração de meta-heurísticas."

Defesa 321

Contato

Rua Benfica, 455 - Escola Politécnica de Pernambuco - Madalena - CEP 50720-001

Recife - PE - Brasil

Tel.: (+5581) 3184-7548

Email: secretaria_ppgec@ecomp.poli.br

Fontes de Notícias & Editais

 

              

 

Go to top