Skip to main content

Author

Boxuan Lyu - Tokyo Institute of Technology

Abstract

ဤသုတေသနသည် Bert-VITS2 framework အသုံးပြု၍ Mandarin Chinese အတွက် fast နှင့် natural Text-to-Speech (TTS) system ဖန်တီးခြင်းကို တင်ပြပါသည်။ System သည် meeting scenarios များအတွက် အထူးသင့်လျော်ပြီး clear, expressive နှင့် context-appropriate speech ထုတ်ပေးပါသည်။ အဓိက ရလဒ်များ:
  • WER 0.27 ရရှိခဲ့ပြီး (နှိုင်းယှဉ်ထားသော models များအနက် အနိမ့်ဆုံး)
  • Speech naturalness အတွက် MOS 2.90 ရရှိခဲ့ပြီး
  • 22 seconds အထိ speech အောင်မြင်စွာ synthesize လုပ်နိုင်ခဲ့ပြီး
  • AISHELL-3 dataset (85 hours, 218 speakers) တွင် train လုပ်ထားပါသည်

1. Introduction

Text-to-Speech ဆိုသည်မှာ

Text-to-Speech (TTS) technology သည် written text ကို natural-sounding speech အဖြစ် ပြောင်းလဲပေးပါသည်။ Modern TTS systems များသည် deep learning ကို အသုံးပြု၍ ပိုမို natural နှင့် expressive speech ထုတ်ပေးပါသည်။

ဘာကြောင့် Mandarin လဲ?

Mandarin Chinese သည် speakers တစ်ဘီလီယံကျော်ဖြင့် အများဆုံး ပြောဆိုသော ဘာသာစကား ဖြစ်ပါသည်။ သို့သော် ၎င်း၏ tonal nature နှင့် complex linguistic structure ကြောင့် TTS အတွက် ထူးခြားသော စိန်ခေါ်မှုများ ရှိပါသည်။

Bert-VITS2 ဆိုသည်မှာ

Bert-VITS2 သည် pre-trained language models များကို advanced voice synthesis နှင့် ပေါင်းစပ်ထားပါသည်:
  • BERT integration: Semantic နှင့် contextual nuances များ၏ deep understanding
  • GAN-style training: Adversarial learning မှတစ်ဆင့် highly realistic speech ထုတ်ပေးသည်
  • Based on VITS2: State-of-the-art voice synthesis architecture

2. Methodology

Dataset Selection

AISHELL-3 ကို ဤလေ့လာမှုအတွက် ရွေးချယ်ခဲ့ပါသည်:
  • 85 hours of audio
  • 218 speakers
  • Speaker တစ်ဦးလျှင် ပျမ်းမျှ ~30 minutes
  • High transcription quality

Model Architecture

ComponentFunction
TextEncoderSemantic understanding အတွက် pre-trained BERT ဖြင့် input text process လုပ်သည်
DurationPredictorStochastic variations ဖြင့် phoneme durations ခန့်မှန်းသည်
FlowNormalizing flows အသုံးပြု၍ pitch နှင့် energy model လုပ်သည်
DecoderFinal speech waveform synthesize လုပ်သည်

Hyperparameters

{
  "train": {
    "batch_size": 20,
    "learning_rate": 0.00001,
    "epochs": 100,
    "bf16_run": true
  },
  "data": {
    "sampling_rate": 44100,
    "n_speakers": 174
  }
}
Training ကို single RTX 4090 GPU တွင် bfloat16 precision ဖြင့် ပြုလုပ်ခဲ့ပါသည်။

3. Results and Discussion

အခြား Models များနှင့် နှိုင်းယှဉ်ခြင်း

ModelWERMOS
Ours (Bert-VITS2)0.272.90
myshell-ai/MeloTTS-Chinese5.623.04
fish-speech (GPT) w/o ref0.493.57
ကျွန်ုပ်တို့၏ model သည် အနိမ့်ဆုံး WER ရရှိခဲ့ပြီး accurate speech generation ကို ညွှန်ပြပါသည်။ သို့သော် MOS (naturalness) သည် parameters များ ပိုများသော fish-speech နှင့် နှိုင်းယှဉ်လျှင် တိုးတက်ရန် နေရာ ရှိပါသေးသည်။

ကန့်သတ်ချက်များ

Code-switching: Model သည် mixed languages ပါဝင်သော text များကို handle မလုပ်နိုင်ပါ (ဥပမာ “Speech processing” ကဲ့သို့သော English terms ပါဝင်သော Chinese)။

4. Conclusions and Future Work

အောင်မြင်မှုများ

  1. Mandarin TTS အတွက် Bert-VITS2 ကို အောင်မြင်စွာ fine-tune လုပ်နိုင်ခဲ့ပြီး
  2. နှိုင်းယှဉ်ထားသော models များအနက် အနိမ့်ဆုံး WER ရရှိခဲ့ပြီး
  3. GAN training challenges များ mitigate လုပ်ရန် methodology ကျွမ်းကျင်ခဲ့ပြီး
  4. Duration အမျိုးမျိုးတွင် clear, recognizable speech generate လုပ်နိုင်ခဲ့ပြီး

အနာဂတ် လမ်းကြောင်းများ

  1. MOS scores တိုးတက်ရန် နောက်ထပ် steps train လုပ်ခြင်း
  2. Code-switching limitations များ ဖြေရှင်းခြင်း
  3. နောက်ထပ် speakers နှင့် domains များသို့ ချဲ့ထွင်ခြင်း

References

  1. Kim, J., et al. (2021). “Conditional variational autoencoder with adversarial learning for end-to-end text-to-speech.” ICML.
  2. Kong, J., et al. (2023). “VITS2: Improving Quality and Efficiency of Single-Stage Text-to-Speech.” INTERSPEECH.
  3. Shi, Y., et al. (2020). “AISHELL-3: A Multi-speaker Mandarin TTS Corpus and the Baselines.”

Resources