[2021 Microsoft ] LORA: LOW-RANK ADAPTATION OF LARGE LANGUAGE MODELS

Описание к видео [2021 Microsoft ] LORA: LOW-RANK ADAPTATION OF LARGE LANGUAGE MODELS

우선은 여러분들이야 다 아시는 BERT 전후로 NLP 흐름에서 엄청나게 큰 변화가 있었다고 할 수 있을 정도로 많은 변화가 있었습니다 그중에서 가장 큰 것은 NLP의 Transfer learning의 붐을 불러 일으켰다고 봐도 과언이 아닌데요 이 Transfer NLP에서 Transfer learning이라고 하면 흔히들 unlabel labeling되지 않은 순수한 말뭉치들로 인간이 배우듯이 사전 학습을 해서 모델이 이니셜라이션 포인트를 잘 찾은 다음에 우리가 풀고자 하는 downstream task 문제를 푸는 것을 Fine tuning 이 두 가지를 수행하는 것을 Transfer learning이라고 흔히 일컫습니다 그런데 BERT의 parameter 수는 340 million에서 점점 우상향으로 그래프가 올라가고 있는 걸 확인하실 수가 있죠 그 후 GPT 2, 3까지 엄청난 학습 파라메터를 사용합니다. 논문저자는 이러한 Transformer 아키텍처의 각 레이어에 Rank분해 행렬을 주입하여 다운 스트림 테스크에 대한 훈련 가능한 매개변수를 크게 줄이는 Low-Rank Adaption방법을 제안합니다.

Комментарии

Информация по комментариям в разработке