【生成式AI導論 2024】第10講:今日的語言模型是如何做文字接龍的 — 淺談Transformer (已經熟悉 Transformer 的同學可略過本講)

Описание к видео 【生成式AI導論 2024】第10講:今日的語言模型是如何做文字接龍的 — 淺談Transformer (已經熟悉 Transformer 的同學可略過本講)

投影片:https://drive.google.com/file/d/1KeNA...

為了能讓第一次學習Transformer的同學可以更容易了解其內容,本課程對 Transformer 的說明進行了部分簡化

19:10 計算關聯性的模型內部運作如下:先把兩個輸入分別乘上兩個不同的 Matrix (這兩個 Matrix 是透過訓練資料學得) 得到兩個向量 (也就是得到文獻上常常提到的 query q 和 key k),再把這兩個向量做內積得到 Attention Weight

20:40 此處省略了文獻上常常提到的 value v

22:30 根據上述Attention Weight的計算過程,Attention Matrix 不一定是對稱的,自己對自己做 Attention 算出來的 Attention Weight 也不一定是最高的

23:00 因為 Causal Attention 的原因,Attention Matrix 其實是一個 Triangular Matrix

延伸閱讀
   • 【機器學習2021】Transformer (上)  
   • 【機器學習2021】Transformer (下)  

Комментарии

Информация по комментариям в разработке