ACL 2026: I2B-LPO на Alibaba DAMO Academy нарушава RLVR хомогенизацията — от повтарящо се вземане на проби до ефективно изследване
I2B-LPO е рамка за подобряване на изследването за RLVR след обучение, което насочва моделите да генерират по-разнообразни траектории на разсъждение чрез подобряване на стратегиите за внедряване, напредване на поведението на…