From GPT-3 to ChatGPT: Training Language Models on Instructions and Human Feedback [in Russian]

Описание к видео From GPT-3 to ChatGPT: Training Language Models on Instructions and Human Feedback [in Russian]

Speaker: Max Ryabinin, Yandex Research, HSE University

В 2020 году исследователи из OpenAI обнаружили, что большие языковые модели можно не дообучать на целевой задаче: достаточно подать в качестве контекста несколько примеров для этой задачи с ответами на них, а иногда хватает и вовсе текстовой инструкции. После этого научное сообщество стало активно развивать способы, позволяющие повысить качество работы языковых моделей в такой постановке, получившей название zero-shot/in-context learning. Недавний релиз ChatGPT показал, что адаптированные к in-context learning и выполнению инструкций языковые модели имеют большое количество потенциальных приложений, в том числе таких, для которых сбор обучающей выборки ранее считался необходимым.
На семинаре мы обсудим ряд работ, излагающих ключевые подходы и направления исследований для улучшения работы языковых моделей в постановке in-context learning. Одним из таких направлений является устоявшаяся парадигма instruction finetuning: обучаясь на разнообразных наборах из формулировок задач, входных данных и ответов, языковые модели лучше следуют инструкциям даже для новых задач. Не обойдём вниманием и идею обучения с подкреплением на оценках текстов людьми, лежащую в основе ChatGPT и предшествовавшей ей InstructGPT.

Chat: https://drive.google.com/file/d/1weWb...

Комментарии

Информация по комментариям в разработке