Descenso Guiado por Gradiente de Políticas para el Aprendizaje Multiagente Cooperativo Escalable
Análisis de DG-PG, un framework MARL que mitiga el ruido entre agentes mediante modelos analíticos diferenciables, permitiendo el aprendizaje cooperativo escalable.