ESTUDO E IMPLEMENTAÇÃO DE ALGORITMOS ONLINE BASEADOS EM APRENDIZADO POR REFORÇO PARA O PROBLEMA DOS K-SERVOS
K-servos; Q-Learning; Algoritmo Work Function; Aprendizado por reforço; Metaheurísticas; Análise
estatística
O problema dos K-servos é um desafio clássico em algoritmos online, no qual um
conjunto de K servos deve atender a uma sequência de requisições distribuídas em
um espaço métrico, com o objetivo de minimizar o custo total de deslocamento.
Neste trabalho, investigamos a aplicação do Q-Learning, um método de aprendizado
por reforço, comparando-o aos algoritmos Work Function (WF) e Harmonic, ambos
tradicionais no contexto de soluções online. Foram conduzidas simulações sobre
diversas instâncias geradas aleatoriamente — variando o número de servos, o
tamanho do espaço de estados e a distribuição das requisições — para avaliar o
desempenho dos algoritmos em termos de custo competitivo, tempo de convergência
e robustez frente a mudanças no ambiente. Os resultados experimentais indicam
que o Q-Learning, quando parametrizado adequadamente (exploração -greedy,
taxa de aprendizado e fator de desconto ajustados), atinge custos competitivos
com os demais algoritmos em ambientes de baixa dimensionalidade, e tende a
superar o WF em cenários mais complexos, devido à sua capacidade adaptativa
online. Uma análise estatística confirmou que, em média, as diferenças de custo
observadas são significativas para instâncias com até 5 servos. Conclui-se que o
aprendizado por reforço representa uma alternativa promissora aos algoritmos
online clássicos, especialmente em aplicações práticas nas quais há padrões de
requisição exploráveis e possibilidade de pré-treinamento. Como limitação, destacase
o crescimento exponencial do espaço de estados (maldição da dimensionalidade),
o que compromete a escalabilidade do Q-Learning. Nesse sentido, a continuidade
deste trabalho irá explorar o uso de metaheurísticas aplicadas ao Q-Learning,
com o objetivo de mitigar tais limitações e aprimorar a eficiência do processo de
aprendizado em ambientes de alta complexidade.