MCPO: Mastery-Consolidated Policy Optimization for Large Reasoning Models

Kutubxona

MCPO: Mastery-Consolidated Policy Optimization for Large Reasoning Models — Zhaokang Liao, Yingguo Gao, Yi Yang, Yongheng Hu, Jingting Ding | Kutubxona