Скачать или смотреть Y-Vector: Multiscale Waveform Encoder for Speaker Embedding - (3 minutes introduction)

Y-Vector: Multiscale Waveform Encoder for Speaker Embedding - (3 minutes introduction)

Скачать Y-Vector: Multiscale Waveform Encoder for Speaker Embedding - (3 minutes introduction) бесплатно в качестве 4к (2к / 1080p)

У нас вы можете скачать бесплатно Y-Vector: Multiscale Waveform Encoder for Speaker Embedding - (3 minutes introduction) или посмотреть видео с ютуба в максимальном доступном качестве.

Для скачивания выберите вариант из формы ниже:

Информация по загрузке:

Cкачать музыку Y-Vector: Multiscale Waveform Encoder for Speaker Embedding - (3 minutes introduction) бесплатно в формате MP3:

Если иконки загрузки не отобразились, ПОЖАЛУЙСТА, НАЖМИТЕ ЗДЕСЬ или обновите страницу
Если у вас возникли трудности с загрузкой, пожалуйста, свяжитесь с нами по контактам, указанным в нижней части страницы.
Спасибо за использование сервиса video2dn.com

Описание к видео Y-Vector: Multiscale Waveform Encoder for Speaker Embedding - (3 minutes introduction)

Title: Y-Vector: Multiscale Waveform Encoder for Speaker Embedding - (3 minutes introduction)

Authors: Ge Zhu (University of Rochester, USA), Fei Jiang (University of Rochester, USA), Zhiyao Duan (University of Rochester, USA)

Category: Feature, Embedding and Neural Architecture for Speaker Recognition

Abstract: State-of-the-art text-independent speaker verification systems typically use cepstral features or filter bank energies as speech features. Recent studies attempted to extract speaker embeddings directly from raw waveforms and have shown competitive results. In this paper, we propose a novel multi-scale waveform encoder that uses three convolution branches with different time scales to compute speech features from the waveform. These features are then processed by squeeze-and-excitation blocks, a multi-level feature aggregator, and a time delayed neural network (TDNN) to compute speaker embedding. We show that the proposed embeddings outperform existing raw-waveform-based speaker embeddings on speaker verification by a large margin. A further analysis of the learned filters shows that the multi-scale encoder attends to different frequency bands at its different scales while resulting in a more flat overall frequency response than any of the single-scale counterparts.

For more details and PDF version of the paper visit: https://www.isca-speech.org/archive/i...

d01s04t07trim

Комментарии

Информация по комментариям в разработке