लेखक
Vikas Reddy - University of Maryland
सारांश
सञ्चार प्रविधिको द्रुत रूपमा विकसित परिदृश्यमा, हालैका सफलताहरू, विशेष गरी OpenAI Whisper मोडेलले, बहुभाषी speech-to-text क्षमताहरूको सटीकता र पहुँचलाई उल्लेखनीय रूपमा बढाएको छ। यो अनुसन्धान भियतनामी र जापानी भाषाहरूमा विशेष फोकसको साथ स्वचालित भाषण पहिचान (ASR) मोडेलहरूको क्षमता बढाउन समर्पित छ।
मुख्य परिणामहरू:
- भियतनामी (FOSD + Common Voice + Google Fleurs + Vivos): WER 9.46%
- जापानी (ReazonSpeech + Common Voice + Google Fleurs): CER 8.15%
विषयसूची
- पृष्ठभूमि जानकारी
- वातावरण सेटअप
- Datasets लोड गर्नुहोस्
- डाटा पूर्वप्रशोधन
- प्रशिक्षण
- Parameter Efficient फाइन-ट्युनिङ
- परिणामहरू
- मूल्यांकन
- Azure Speech Studio
- निष्कर्ष
1. पृष्ठभूमि जानकारी
आजको समाजमा, सञ्चार र प्रविधि अपरिहार्य भएका छन्, तैपनि पहुँच, समावेशिता, र कुशल ज्ञान प्रसारणलाई प्रभाव पार्ने धेरै चुनौतीहरू कायम छन्। यहीँ स्वचालित भाषण पहिचान (ASR) जस्ता प्रगतिहरू आउँछन्।
OpenAI Whisper एक Transformer-आधारित encoder-decoder मोडेल हो, विशेष गरी sequence-to-sequence architecture को रूपमा डिजाइन गरिएको।
2. वातावरण सेटअप
Whisper फाइन-ट्युन गर्न दुई भिन्न दृष्टिकोणहरू छन्: Google Colab प्रयोग गर्ने र स्थानीय PC मा कोड चलाउने।
यो लेखको फाइन-ट्युनिङ कार्यहरूको लागि प्रयोग गरिएको कम्प्युटर कन्फिगरेसनमा AMD Ryzen 7 3700X 8-Core Processor को साथ Windows 11 Pro PC, 80GB RAM र GeForce RTX 3090 NVIDIA Graphics Card समावेश छ।
3. Datasets लोड गर्नुहोस्
प्रयोग गरिएका Datasets
| Dataset | भाषा | प्रयोग | भाषण अडियो (घण्टा) |
|---|
| Common Voice 13.0 | भियतनामी, जापानी | Hugging Face | 19h (VN), 10h (JP) |
| Google Fleurs | भियतनामी, जापानी | Hugging Face | 11h (VN), 8h (JP) |
| Vivos | भियतनामी | Hugging Face | 15h |
| FPT Open Speech Dataset | भियतनामी | डाउनलोड र extract | 30h |
| ReazonSpeech | जापानी | Hugging Face | 5h |
4. डाटा पूर्वप्रशोधन
डाटा Augmentation
audiomentations library प्रयोग गरेर डाटा augmentation ले मूल्यवान विविधता परिचय गर्दछ।
5. प्रशिक्षण
मुख्य प्रशिक्षण प्यारामिटरहरू:
- learning_rate: 1e-5 वा 1e-6 सबैभन्दा राम्रो काम गर्छ
- warmup_steps: समग्र steps को 10% प्रयोग गर्नुहोस्
- per_device_train_batch_size: GPU क्षमताको आधारमा सेट गर्नुहोस् (RTX 3090 को लागि 16)
- dropout: overfitting विरुद्ध लड्न 0.05 वा 0.10
6. Parameter Efficient फाइन-ट्युनिङ (PEFT)
PEFT ले 1% trainable parameters मात्र प्रयोग गर्दा प्रतिस्पर्धी प्रदर्शन प्राप्त गर्दछ।
| फाइन-ट्युनिङ | Parameter Efficient फाइन-ट्युनिङ |
|---|
| छिटो प्रशिक्षण समय | लामो प्रशिक्षण समय |
| ठूलो computational स्रोतहरू चाहिन्छ | कम computational स्रोतहरू प्रयोग गर्छ |
| सम्पूर्ण मोडेल पुन: प्रशिक्षण गर्छ | parameters को सानो subset मात्र परिमार्जन गर्छ |
| Overfitting को बढी जोखिम | Overfitting को कम जोखिम |
7. परिणामहरू
भियतनामी परिणामहरू
FOSD + Google Fleurs + Vivos + CV datasets मा फाइन-ट्युन गरिएको मोडेलले 9.46% को सबैभन्दा कम WER प्राप्त गर्यो।
जापानी परिणामहरू
JSUT + ReazonSpeech + Google Xtreme + CV datasets मा फाइन-ट्युन गरिएको मोडेलले 8.15% को सबैभन्दा कम CER प्राप्त गर्यो।
8. मूल्यांकन
Faster-Whisper Conversion
Faster Whisper ले तुलनात्मक सटीकता कायम गर्दै मानक फाइन-ट्युन गरिएको Whisper को तुलनामा लगभग 40% छिटो inference प्रदान गर्दछ।
9. Azure Speech Studio
Azure Speech Studio ले ASR मोडेलहरू फाइन-ट्युनिङको वैकल्पिक दृष्टिकोण प्रदान गर्दछ।
Azure परिणामहरू
भियतनामी: Common Voice 14.0 मा प्रशिक्षित मोडेलले 7.33% को WER प्राप्त गर्दछ
जापानी: JSUT मा प्रशिक्षित मोडेलले 6.97% को CER प्राप्त गर्दछ
Azure Speech Studio ले प्रशिक्षणमा कम WER दिन सक्छ, Whisper ले नदेखेको डाटामा, विशेष गरी विविध र जटिल अडियोमा राम्रो मूल्यांकन परिणामहरू प्राप्त गर्ने प्रवृत्ति राख्छ।
10. निष्कर्ष
Whisper ASR मोडेल फाइन-ट्युनिङ प्रक्रिया यसको प्रदर्शन बढाउनको लागि एक बलियो प्रविधिको रूपमा देखिन्छ। मुख्य निष्कर्षहरू:
- फाइन-ट्युनिङले लगातार उल्लेखनीय प्रदर्शन सुधारहरू दिन्छ
- audiomentations library मार्फत डाटा augmentation ले मूल्यवान विविधता परिचय गर्दछ
- Dataset गुणस्तर महत्त्वपूर्ण छ: डाटाको मात्रा, अडियो स्पष्टता, र विषय विविधता सबैले प्रदर्शनलाई प्रभाव पार्छ
- Whisper ले वास्तविक-विश्व परिदृश्यहरूमा उत्कृष्ट प्रदर्शन देखाउँछ
सन्दर्भहरू
- Radford, A., et al. (2022). Robust speech recognition via large-scale weak supervision.
- Ardila, R., et al. (2020). Common Voice: A Massively-Multilingual Speech Corpus.
- Conneau, A., et al. (2022). FLEURS: Few-Shot Learning Evaluation of Universal Representations of Speech.
- Gandhi, S. (2022). Fine-Tune Whisper for Multilingual ASR with Transformers.