Nexus: Same Pretraining Loss, Better Downstream Generalization via Common Minima

Kutubxona

Nexus: Same Pretraining Loss, Better Downstream Generalization via Common Minima — Huanran Chen, Huaqing Zhang, Xiao Li, Yinpeng Dong, Ke Shen, Jun Zhu | Kutubxona