Logo video2dn
  • Сохранить видео с ютуба
  • Категории
    • Музыка
    • Кино и Анимация
    • Автомобили
    • Животные
    • Спорт
    • Путешествия
    • Игры
    • Люди и Блоги
    • Юмор
    • Развлечения
    • Новости и Политика
    • Howto и Стиль
    • Diy своими руками
    • Образование
    • Наука и Технологии
    • Некоммерческие Организации
  • О сайте

Скачать или смотреть Steering vectors: tailor LLMs without training. Part I: Theory (Interpretability Series)

  • Anastasia Borovykh
  • 2024-09-18
  • 2893
Steering vectors: tailor LLMs without training. Part I: Theory (Interpretability Series)
  • ok logo

Скачать Steering vectors: tailor LLMs without training. Part I: Theory (Interpretability Series) бесплатно в качестве 4к (2к / 1080p)

У нас вы можете скачать бесплатно Steering vectors: tailor LLMs without training. Part I: Theory (Interpretability Series) или посмотреть видео с ютуба в максимальном доступном качестве.

Для скачивания выберите вариант из формы ниже:

  • Информация по загрузке:

Cкачать музыку Steering vectors: tailor LLMs without training. Part I: Theory (Interpretability Series) бесплатно в формате MP3:

Если иконки загрузки не отобразились, ПОЖАЛУЙСТА, НАЖМИТЕ ЗДЕСЬ или обновите страницу
Если у вас возникли трудности с загрузкой, пожалуйста, свяжитесь с нами по контактам, указанным в нижней части страницы.
Спасибо за использование сервиса video2dn.com

Описание к видео Steering vectors: tailor LLMs without training. Part I: Theory (Interpretability Series)

State-of-the-art foundation models are often seen as black boxes: we send a prompt in and we get out our - often useful - answer. But what happens inside the system as the prompt gets processed remains a bit of a mystery & our ability to control or steer the processing into specific directions is limited.
Enter steering vectors!

By computing a vector that represents a particular feature or concept, we can use this to steer the model to include any property in the output we want: add more love into the answers, ensure it always answers your prompts (even if harmful!), or make the model such that it cannot stop talking about the Golden Gate Bridge. In this video we discuss how to compute such steering vectors, what makes it such simple steering possible (somehow the network's hidden representations decompose into simple-ish linear structures), and look at a couple of examples. In Part II (   • Steering vectors: tailor LLMs without trai...  ) we code up our steering vectors.

Disclaimer: finding these steering vectors is an active area of research; right now making it work includes a lot of trial-and-error and clarity on when steering works vs when it's not possible to find a useful direction remains unclear. Work on sparse autoencoders (a current hot topic in interpretability research) aims to automate the finding of useful directions.

Further reading & references I used:
Activation addition: https://arxiv.org/abs/2308.10248
Refusal directions: https://www.alignmentforum.org/posts/... and https://huggingface.co/posts/mlabonne...
Golden Gate Claude: https://www.anthropic.com/news/golden...
Superposition: https://transformer-circuits.pub/2022...
Sparse autoencoders: https://arxiv.org/pdf/2406.04093v1

Комментарии

Информация по комментариям в разработке

Похожие видео

  • О нас
  • Контакты
  • Отказ от ответственности - Disclaimer
  • Условия использования сайта - TOS
  • Политика конфиденциальности

video2dn Copyright © 2023 - 2025

Контакты для правообладателей [email protected]