Logo video2dn
  • Сохранить видео с ютуба
  • Категории
    • Музыка
    • Кино и Анимация
    • Автомобили
    • Животные
    • Спорт
    • Путешествия
    • Игры
    • Люди и Блоги
    • Юмор
    • Развлечения
    • Новости и Политика
    • Howto и Стиль
    • Diy своими руками
    • Образование
    • Наука и Технологии
    • Некоммерческие Организации
  • О сайте

Скачать или смотреть Scene Captioning using Computer Vision and Deep learning Techniques

  • Akshay Reddy
  • 2025-11-25
  • 34
Scene Captioning using Computer Vision and Deep learning Techniques
  • ok logo

Скачать Scene Captioning using Computer Vision and Deep learning Techniques бесплатно в качестве 4к (2к / 1080p)

У нас вы можете скачать бесплатно Scene Captioning using Computer Vision and Deep learning Techniques или посмотреть видео с ютуба в максимальном доступном качестве.

Для скачивания выберите вариант из формы ниже:

  • Информация по загрузке:

Cкачать музыку Scene Captioning using Computer Vision and Deep learning Techniques бесплатно в формате MP3:

Если иконки загрузки не отобразились, ПОЖАЛУЙСТА, НАЖМИТЕ ЗДЕСЬ или обновите страницу
Если у вас возникли трудности с загрузкой, пожалуйста, свяжитесь с нами по контактам, указанным в нижней части страницы.
Спасибо за использование сервиса video2dn.com

Описание к видео Scene Captioning using Computer Vision and Deep learning Techniques

This video demonstrates our work on building an automated Scene Captioning system that bridges the gap between Visual Understanding and Natural Language Generation.

👥 Team Details :

Moturu Himesh (AM.AI.U4AID23013)

Besta Bhavya Sree (AM.AI.U4AID23033)

Akshay Reddy Velugati (AM.AI.U4AID23062)

Traditional image classification models identify objects but fail to describe relationships or context. Our project aims to generate accurate, human-like natural language descriptions for images. We implemented a pipeline using the BLIP-2 architecture, combining a Vision Transformer (ViT) for feature extraction with a Flan-T5 Large Language Model for text generation. The model was evaluated on the Flickr8k dataset.


🛠️ Technical Stack:

Architecture: BLIP-2 (ViT + Q-Former + Flan-T5)

Frameworks: PyTorch, Hugging Face Transformers

Dataset: Flickr8k (8,000 images, 40,000 captions)

Metrics: BLEU, ROUGE, METEOR

🤖 AI Tools Used for This Presentation:

Script & Content: Grok and Gemini

Audio/Voiceover: AI Text-to-Speech (Neural TTS).

Visual Avatar: Gemini pro and Hey gen ai

Video Editing: Canva

#ComputerVision #DeepLearning #AI #BLIP2 #SceneCaptioning #PyTorch

Комментарии

Информация по комментариям в разработке

Похожие видео

  • О нас
  • Контакты
  • Отказ от ответственности - Disclaimer
  • Условия использования сайта - TOS
  • Политика конфиденциальности

video2dn Copyright © 2023 - 2025

Контакты для правообладателей [email protected]