लेखक
Boxuan Lyu - Tokyo Institute of Technology
सारांश
यो अनुसन्धानले Bert-VITS2 framework प्रयोग गरेर Mandarin Chinese को लागि छिटो र प्राकृतिक Text-to-Speech (TTS) प्रणालीको विकास प्रस्तुत गर्दछ। प्रणाली विशेष गरी बैठक परिदृश्यहरूको लागि अनुकूलित छ, स्पष्ट, अभिव्यक्त, र context-उपयुक्त भाषण उत्पन्न गर्दै।
मुख्य परिणामहरू:
- 0.27 को WER प्राप्त गर्यो (तुलना गरिएका मोडेलहरू मध्ये सबैभन्दा कम)
- भाषण प्राकृतिकताको लागि 2.90 को MOS प्राप्त गर्यो
- 22 सेकेन्डसम्मको भाषण सफलतापूर्वक संश्लेषित गर्यो
- AISHELL-3 dataset (85 घण्टा, 218 वक्ता) मा प्रशिक्षित
1. परिचय
Text-to-Speech के हो?
Text-to-Speech (TTS) प्रविधिले लिखित पाठलाई प्राकृतिक-ध्वनि भाषणमा रूपान्तरण गर्दछ। आधुनिक TTS प्रणालीहरूले बढ्दो प्राकृतिक र अभिव्यक्त भाषण उत्पन्न गर्न deep learning को फाइदा लिन्छन्।
Bert-VITS2 के हो?
Bert-VITS2 ले पूर्व-प्रशिक्षित भाषा मोडेलहरूलाई उन्नत भ्वाइस संश्लेषणसँग संयोजन गर्दछ:
- BERT एकीकरण: Semantic र contextual nuances को गहिरो बुझाइ
- GAN-style प्रशिक्षण: Adversarial learning मार्फत अत्यधिक यथार्थपरक भाषण उत्पादन
- VITS2 मा आधारित: State-of-the-art भ्वाइस संश्लेषण architecture
2. विधि
2.1 Dataset चयन
AISHELL-3 यो अध्ययनको लागि चयन गरियो:
- 85 घण्टा अडियो
- 218 वक्ता
- प्रति वक्ता औसत ~30 मिनेट
- उच्च transcription गुणस्तर
2.2 मोडेल Architecture
Bert-VITS2 framework चार मुख्य components समावेश गर्दछ:
| Component | कार्य |
|---|
| TextEncoder | Semantic बुझाइको लागि पूर्व-प्रशिक्षित BERT को साथ इनपुट पाठ प्रशोधन |
| DurationPredictor | Stochastic variations को साथ phoneme durations अनुमान |
| Flow | Normalizing flows प्रयोग गरेर pitch र energy मोडेल |
| Decoder | अन्तिम भाषण waveform संश्लेषण |
प्रशिक्षण bfloat16 precision को साथ एकल RTX 4090 GPU मा सञ्चालन गरियो।
3. परिणामहरू र छलफल
अन्य मोडेलहरूसँग तुलना
| मोडेल | WER | MOS |
|---|
| हाम्रो (Bert-VITS2) | 0.27 | 2.90 |
| myshell-ai/MeloTTS-Chinese | 5.62 | 3.04 |
| fish-speech (GPT) w/o ref | 0.49 | 3.57 |
हाम्रो मोडेलले सबैभन्दा कम WER प्राप्त गर्यो, सटीक भाषण उत्पादन संकेत गर्दै। तथापि, MOS (प्राकृतिकता) fish-speech को तुलनामा सुधारको गुञ्जायस छ।
सीमितताहरू
Code-switching: मोडेलले मिश्रित भाषाहरू भएको पाठ ह्यान्डल गर्न सक्दैन (जस्तै, “Speech processing” जस्ता अंग्रेजी terms को साथ चिनियाँ)।
4. निष्कर्ष र भविष्यको काम
उपलब्धिहरू
- Mandarin TTS को लागि Bert-VITS2 सफलतापूर्वक फाइन-ट्युन गरियो
- तुलना गरिएका मोडेलहरू मध्ये सबैभन्दा कम WER प्राप्त गर्यो
- GAN प्रशिक्षण चुनौतीहरू कम गर्ने विधि सिक्यो
- विभिन्न durations मा स्पष्ट, पहिचान योग्य भाषण उत्पन्न गर्यो
भविष्यका दिशाहरू
- MOS स्कोरहरू सुधार गर्न थप steps प्रशिक्षण गर्नुहोस्
- Code-switching सीमितताहरू सम्बोधन गर्नुहोस्
- थप वक्ताहरू र domains मा विस्तार गर्नुहोस्
5. सन्दर्भहरू
- Ren, Y., et al. (2019). “Fastspeech: Fast, robust and controllable text to speech.” NeurIPS.
- Wang, Y., et al. (2017). “Tacotron: Towards end-to-end speech synthesis.” Interspeech.
- Kim, J., et al. (2021). “Conditional variational autoencoder with adversarial learning for end-to-end text-to-speech.” ICML.
स्रोतहरू