ACL 2026: I2B-LPO на Alibaba DAMO Academy нарушава RLVR хомогенизацията — от повтарящо се вземане на проби до ефективно изследване

I2B-LPO е рамка за подобряване на изследването за RLVR след обучение, което насочва моделите да генерират по-разнообразни траектории на разсъждение чрез подобряване на стратегиите за внедряване, напредване на поведението на проучване от “повтарящо се вземане на проби” към “генериране на по-различителни траектории на разсъждение в ключови възли.” При множество математически бенчмаркове той едновременно подобрява точността и семантичното разнообразие — съответно с до 5,3% и 7,4%.

Тази работа беше приета на ACL 2026 Main от екипа за интелигентни решения на Alibaba DAMO Academy.

През последните години, с появата на модели за разсъждение като DeepSeek-R1, обучението с подсилване с проверими награди (RLVR) се превърна във важна парадигма за обучение за подобряване на математическите и кодиращи способности. Неговата основна идея: вземане на проби от множество пътища за разсъждение за един и същ проблем и според сигнали за награда, укрепване на правилните пътища и потискане на неправилните.

Една интуитивна идея е: ако траекториите на разпространение са достатъчно многобройни, може ли моделът винаги да изследва повече решения и да получава по-ефективни сигнали за актуализиране? Въпреки това, в действителното обучение, сляпото увеличаване на количеството на пробите не води непременно до подобрение.

I2B-LPO се справя с това, като въвежда нова стратегия за изследване, която насочва модела към по-дискриминативно разсъждение в точките на вземане на решение, вместо просто да генерира повече от едни и същи типове траектории. Резултатът е модел, който не само се представя по-добре, но и мисли по-разнообразно.

Source link

Like this:

Like Loading…

Нашия източник е Българо-Китайска Търговско-промишлена палaта

By admin