Andrej KarpathyさんのRLHFに関するXを読んで思ったこと

Описание к видео Andrej KarpathyさんのRLHFに関するXを読んで思ったこと

Andrej KarpathyがXでRLHFについて、疑問を呈していて、それが盛り上がっていたので、所感を述べてみました。
RLHFは近年の言語モデルの進化の肝とされており、その成果物としての言語モデルの性能はみなさんご承知の通り素晴らしいので、間違いなく効果はあるのですが、そのRLHFに対して疑問符を投げかけるという行為がかっこう良いですね…
RLHFはReinforcement learning from human feedbackの略ですが、僕がReinforcement learning with human feedbackだと思ってました。恥ずかしいですね…

Комментарии

Информация по комментариям в разработке