Skip to main content

लेखक

Boxuan Lyu - Tokyo Institute of Technology

सारांश

यो अनुसन्धानले Bert-VITS2 framework प्रयोग गरेर Mandarin Chinese को लागि छिटो र प्राकृतिक Text-to-Speech (TTS) प्रणालीको विकास प्रस्तुत गर्दछ। प्रणाली विशेष गरी बैठक परिदृश्यहरूको लागि अनुकूलित छ, स्पष्ट, अभिव्यक्त, र context-उपयुक्त भाषण उत्पन्न गर्दै। मुख्य परिणामहरू:
  • 0.27 को WER प्राप्त गर्यो (तुलना गरिएका मोडेलहरू मध्ये सबैभन्दा कम)
  • भाषण प्राकृतिकताको लागि 2.90 को MOS प्राप्त गर्यो
  • 22 सेकेन्डसम्मको भाषण सफलतापूर्वक संश्लेषित गर्यो
  • AISHELL-3 dataset (85 घण्टा, 218 वक्ता) मा प्रशिक्षित

1. परिचय

Text-to-Speech के हो?

Text-to-Speech (TTS) प्रविधिले लिखित पाठलाई प्राकृतिक-ध्वनि भाषणमा रूपान्तरण गर्दछ। आधुनिक TTS प्रणालीहरूले बढ्दो प्राकृतिक र अभिव्यक्त भाषण उत्पन्न गर्न deep learning को फाइदा लिन्छन्।
Text-to-Speech अवलोकन

Bert-VITS2 के हो?

Bert-VITS2 ले पूर्व-प्रशिक्षित भाषा मोडेलहरूलाई उन्नत भ्वाइस संश्लेषणसँग संयोजन गर्दछ:
  • BERT एकीकरण: Semantic र contextual nuances को गहिरो बुझाइ
  • GAN-style प्रशिक्षण: Adversarial learning मार्फत अत्यधिक यथार्थपरक भाषण उत्पादन
  • VITS2 मा आधारित: State-of-the-art भ्वाइस संश्लेषण architecture

2. विधि

2.1 Dataset चयन

AISHELL-3 यो अध्ययनको लागि चयन गरियो:
  • 85 घण्टा अडियो
  • 218 वक्ता
  • प्रति वक्ता औसत ~30 मिनेट
  • उच्च transcription गुणस्तर

2.2 मोडेल Architecture

Bert-VITS2 framework चार मुख्य components समावेश गर्दछ:
Componentकार्य
TextEncoderSemantic बुझाइको लागि पूर्व-प्रशिक्षित BERT को साथ इनपुट पाठ प्रशोधन
DurationPredictorStochastic variations को साथ phoneme durations अनुमान
FlowNormalizing flows प्रयोग गरेर pitch र energy मोडेल
Decoderअन्तिम भाषण waveform संश्लेषण
प्रशिक्षण bfloat16 precision को साथ एकल RTX 4090 GPU मा सञ्चालन गरियो।

3. परिणामहरू र छलफल

अन्य मोडेलहरूसँग तुलना

मोडेलWERMOS
हाम्रो (Bert-VITS2)0.272.90
myshell-ai/MeloTTS-Chinese5.623.04
fish-speech (GPT) w/o ref0.493.57
हाम्रो मोडेलले सबैभन्दा कम WER प्राप्त गर्यो, सटीक भाषण उत्पादन संकेत गर्दै। तथापि, MOS (प्राकृतिकता) fish-speech को तुलनामा सुधारको गुञ्जायस छ।

सीमितताहरू

Code-switching: मोडेलले मिश्रित भाषाहरू भएको पाठ ह्यान्डल गर्न सक्दैन (जस्तै, “Speech processing” जस्ता अंग्रेजी terms को साथ चिनियाँ)।

4. निष्कर्ष र भविष्यको काम

उपलब्धिहरू

  1. Mandarin TTS को लागि Bert-VITS2 सफलतापूर्वक फाइन-ट्युन गरियो
  2. तुलना गरिएका मोडेलहरू मध्ये सबैभन्दा कम WER प्राप्त गर्यो
  3. GAN प्रशिक्षण चुनौतीहरू कम गर्ने विधि सिक्यो
  4. विभिन्न durations मा स्पष्ट, पहिचान योग्य भाषण उत्पन्न गर्यो

भविष्यका दिशाहरू

  1. MOS स्कोरहरू सुधार गर्न थप steps प्रशिक्षण गर्नुहोस्
  2. Code-switching सीमितताहरू सम्बोधन गर्नुहोस्
  3. थप वक्ताहरू र domains मा विस्तार गर्नुहोस्

5. सन्दर्भहरू

  1. Ren, Y., et al. (2019). “Fastspeech: Fast, robust and controllable text to speech.” NeurIPS.
  2. Wang, Y., et al. (2017). “Tacotron: Towards end-to-end speech synthesis.” Interspeech.
  3. Kim, J., et al. (2021). “Conditional variational autoencoder with adversarial learning for end-to-end text-to-speech.” ICML.

स्रोतहरू