F5-TTS: Hang klónozás másodpercek alatt a lehető legegyszerűbben a saját gépünkön teljesen ingyen

Описание к видео F5-TTS: Hang klónozás másodpercek alatt a lehető legegyszerűbben a saját gépünkön teljesen ingyen

Az F5-TTS egy fejlett szöveg-beszéd rendszer, amely a következő kulcsfontosságú technológiákat használja:

1. Nem-autoregresszív modell: Ez azt jelenti, hogy a rendszer nem lépésről lépésre generálja a beszédet, hanem párhuzamosan dolgozik, így gyorsabb és hatékonyabb.
2. Flow Matching: Ez egy módszer, amely segít a modellnek a szöveg és a beszéd közötti pontos illesztésben, javítva a beszéd természetességét és folyékonyságát.
3. Diffusion Transformer (DiT): Ez egy speciális neurális hálózat, amely a szöveg és a beszéd közötti kapcsolatot modellezi, biztosítva a magas minőségű beszédszintézist.
Az F5-TTS rendszer gyorsabb tanulást és robusztusabb beszédgenerálást tesz lehetővé, miközben megőrzi a természetes és kifejező beszédet.

E2 TTS
E2 TTS bemutatása: Az E2 TTS egy teljesen nem-autoregresszív, zero-shot text-to-speech rendszer, amely emberi szintű természetességet és kiváló beszédszimulációt kínál.

A WER (Word Error Rate) egy mérőszám, amely a beszédfelismerő rendszerek teljesítményét értékeli. A WER azt mutatja meg, hogy a rendszer által felismert szöveg mennyire pontosan egyezik meg a valós szöveggel. Százalékban kifejezve, minél alacsonyabb a WER, annál pontosabb a rendszer.

Legyél Te is Tagja az Mp3Pintyo csatornának *
   / @mp3pintyo  

** DISCORD**
Mp3Pintyo szerver:   / discord  

** Támogatás **
Patreon:   / mp3pintyo  

** Telepítés **
1. git clone https://github.com/SWivid/F5-TTS.git
2. cd F5-TTS
3. conda create -n f5tts python=3.10
4. conda activate f5tts
5. pip install torch==2.3.0+cu118 --extra-index-url https://download.pytorch.org/whl/cu118
6. pip install torchaudio==2.3.0+cu118 --extra-index-url https://download.pytorch.org/whl/cu118
7. pip install -r requirements.txt

Első indításkor letölti a modelleket.

** Indítás **
conda activate f5tts
python gradio_app.py

** Linkek **
F5-TTS: A Fairytaler that Fakes Fluent and Faithful Speech with Flow Matching: https://arxiv.org/pdf/2410.06885
E2 TTS: EMBARRASSINGLY EASY FULLY NON-AUTOREGRESSIVE ZERO-SHOT TTS: https://arxiv.org/pdf/2406.18009
GitHub F5-TTS: https://github.com/SWivid/F5-TTS
GitHub F5 TTS — MLX: https://github.com/lucasnewman/f5-tts...
Telepítési útmutató 1: Open source, ingyenes alkalmazások telepítése a saját számítógépünkre:    • Telepítési útmutató 1: Open source, i...  

** további információk **
100 000 órányi adattal kapcsolatos képzés
Zero-shot hangklónozás
Sebességszabályozás (a teljes időtartam alapján)
Érzelem alapú szintézis
Hosszú formájú szintézis
Támogatja a kódváltást
A legjobb rész: CC-BY licenc (kereskedelmileg megengedett) 🔥

Diffúzió alapú architektúra:
Nem autoregresszív + áramlási illesztés DiT-vel
A ConvNeXt segítségével finomítja a szövegábrázolást, az igazítást

** BUYING MY ARTS **
► https://www.etsy.com/shop/mp3pintyo
► https://stock.adobe.com/contributor/2...
** STAY ACTIVE FOR A FOLLOW **
►TWITTER:   / mp3pintyo  
►INSTAGRAM:   / mp3pintyo  
►PINTEREST:   / mp3pintyo  
►SOUNDCLOUD:   / mp3pintyo  

Комментарии

Информация по комментариям в разработке