Logo video2dn
  • Сохранить видео с ютуба
  • Категории
    • Музыка
    • Кино и Анимация
    • Автомобили
    • Животные
    • Спорт
    • Путешествия
    • Игры
    • Люди и Блоги
    • Юмор
    • Развлечения
    • Новости и Политика
    • Howto и Стиль
    • Diy своими руками
    • Образование
    • Наука и Технологии
    • Некоммерческие Организации
  • О сайте

Скачать или смотреть LLM Chronicles #6.3: Multi-Modal LLMs for Image, Sound and Video

  • Donato Capitella
  • 2024-07-01
  • 30299
LLM Chronicles #6.3: Multi-Modal LLMs for Image, Sound and Video
  • ok logo

Скачать LLM Chronicles #6.3: Multi-Modal LLMs for Image, Sound and Video бесплатно в качестве 4к (2к / 1080p)

У нас вы можете скачать бесплатно LLM Chronicles #6.3: Multi-Modal LLMs for Image, Sound and Video или посмотреть видео с ютуба в максимальном доступном качестве.

Для скачивания выберите вариант из формы ниже:

  • Информация по загрузке:

Cкачать музыку LLM Chronicles #6.3: Multi-Modal LLMs for Image, Sound and Video бесплатно в формате MP3:

Если иконки загрузки не отобразились, ПОЖАЛУЙСТА, НАЖМИТЕ ЗДЕСЬ или обновите страницу
Если у вас возникли трудности с загрузкой, пожалуйста, свяжитесь с нами по контактам, указанным в нижней части страницы.
Спасибо за использование сервиса video2dn.com

Описание к видео LLM Chronicles #6.3: Multi-Modal LLMs for Image, Sound and Video

In this episode we look at the architecture and training of multi-modal LLMs. After that, we’ll focus on vision and explore Vision Transformers and how they are trained with contrastive learning (OpenAI's CLIP and Google's SigLIP). Vision Transformers are the most commonly used building block in MLLMs with vision capabilities. Finally, we’ll get hands-on and look into Google’s open-weight PaliGemma, analysing its implementation to see these concepts in action within a real-world multi-modal LLM.

Series website: https://llm-chronicles.com/

🖹 Canvas and Colab Notebook:
LLM Limitations and Challenges: https://llm-chronicles.com/pdfs/llm-c...
Colab Notebook: https://colab.research.google.com/dri...

🕤 Timestamps:
01:32 - MLLM Architecture
03:49 - Training MLLMs
07:02 - Vision Transformer
09:24 - Contrastive Learning (CLIP, SigLIP)
12:35 - Lab: PaliGemma
22:53 - Summary

References:
Vision transformer: https://arxiv.org/pdf/2010.11929
Survey of multi modal LLMs: https://arxiv.org/pdf/2306.13549
Microsoft's CLAP: https://arxiv.org/pdf/2206.04769
SigLip: https://arxiv.org/pdf/2303.15343

Комментарии

Информация по комментариям в разработке

Похожие видео

  • О нас
  • Контакты
  • Отказ от ответственности - Disclaimer
  • Условия использования сайта - TOS
  • Политика конфиденциальности

video2dn Copyright © 2023 - 2025

Контакты для правообладателей [email protected]