Skip to main content

लेखक

Vikas Reddy - University of Maryland

सारांश

सञ्चार प्रविधिको द्रुत रूपमा विकसित परिदृश्यमा, हालैका सफलताहरू, विशेष गरी OpenAI Whisper मोडेलले, बहुभाषी speech-to-text क्षमताहरूको सटीकता र पहुँचलाई उल्लेखनीय रूपमा बढाएको छ। यो अनुसन्धान भियतनामी र जापानी भाषाहरूमा विशेष फोकसको साथ स्वचालित भाषण पहिचान (ASR) मोडेलहरूको क्षमता बढाउन समर्पित छ। मुख्य परिणामहरू:
  • भियतनामी (FOSD + Common Voice + Google Fleurs + Vivos): WER 9.46%
  • जापानी (ReazonSpeech + Common Voice + Google Fleurs): CER 8.15%

विषयसूची

  1. पृष्ठभूमि जानकारी
  2. वातावरण सेटअप
  3. Datasets लोड गर्नुहोस्
  4. डाटा पूर्वप्रशोधन
  5. प्रशिक्षण
  6. Parameter Efficient फाइन-ट्युनिङ
  7. परिणामहरू
  8. मूल्यांकन
  9. Azure Speech Studio
  10. निष्कर्ष

1. पृष्ठभूमि जानकारी

आजको समाजमा, सञ्चार र प्रविधि अपरिहार्य भएका छन्, तैपनि पहुँच, समावेशिता, र कुशल ज्ञान प्रसारणलाई प्रभाव पार्ने धेरै चुनौतीहरू कायम छन्। यहीँ स्वचालित भाषण पहिचान (ASR) जस्ता प्रगतिहरू आउँछन्।
OpenAI Whisper Architecture
OpenAI Whisper एक Transformer-आधारित encoder-decoder मोडेल हो, विशेष गरी sequence-to-sequence architecture को रूपमा डिजाइन गरिएको।

2. वातावरण सेटअप

Whisper फाइन-ट्युन गर्न दुई भिन्न दृष्टिकोणहरू छन्: Google Colab प्रयोग गर्ने र स्थानीय PC मा कोड चलाउने।
यो लेखको फाइन-ट्युनिङ कार्यहरूको लागि प्रयोग गरिएको कम्प्युटर कन्फिगरेसनमा AMD Ryzen 7 3700X 8-Core Processor को साथ Windows 11 Pro PC, 80GB RAM र GeForce RTX 3090 NVIDIA Graphics Card समावेश छ।

3. Datasets लोड गर्नुहोस्

प्रयोग गरिएका Datasets

Datasetभाषाप्रयोगभाषण अडियो (घण्टा)
Common Voice 13.0भियतनामी, जापानीHugging Face19h (VN), 10h (JP)
Google Fleursभियतनामी, जापानीHugging Face11h (VN), 8h (JP)
VivosभियतनामीHugging Face15h
FPT Open Speech Datasetभियतनामीडाउनलोड र extract30h
ReazonSpeechजापानीHugging Face5h

4. डाटा पूर्वप्रशोधन

डाटा Augmentation

audiomentations library प्रयोग गरेर डाटा augmentation ले मूल्यवान विविधता परिचय गर्दछ।

5. प्रशिक्षण

मुख्य प्रशिक्षण प्यारामिटरहरू:
  • learning_rate: 1e-5 वा 1e-6 सबैभन्दा राम्रो काम गर्छ
  • warmup_steps: समग्र steps को 10% प्रयोग गर्नुहोस्
  • per_device_train_batch_size: GPU क्षमताको आधारमा सेट गर्नुहोस् (RTX 3090 को लागि 16)
  • dropout: overfitting विरुद्ध लड्न 0.05 वा 0.10

6. Parameter Efficient फाइन-ट्युनिङ (PEFT)

PEFT ले 1% trainable parameters मात्र प्रयोग गर्दा प्रतिस्पर्धी प्रदर्शन प्राप्त गर्दछ।
फाइन-ट्युनिङParameter Efficient फाइन-ट्युनिङ
छिटो प्रशिक्षण समयलामो प्रशिक्षण समय
ठूलो computational स्रोतहरू चाहिन्छकम computational स्रोतहरू प्रयोग गर्छ
सम्पूर्ण मोडेल पुन: प्रशिक्षण गर्छparameters को सानो subset मात्र परिमार्जन गर्छ
Overfitting को बढी जोखिमOverfitting को कम जोखिम

7. परिणामहरू

भियतनामी परिणामहरू

FOSD + Google Fleurs + Vivos + CV datasets मा फाइन-ट्युन गरिएको मोडेलले 9.46% को सबैभन्दा कम WER प्राप्त गर्यो।

जापानी परिणामहरू

JSUT + ReazonSpeech + Google Xtreme + CV datasets मा फाइन-ट्युन गरिएको मोडेलले 8.15% को सबैभन्दा कम CER प्राप्त गर्यो।

8. मूल्यांकन

Faster-Whisper Conversion

Faster Whisper ले तुलनात्मक सटीकता कायम गर्दै मानक फाइन-ट्युन गरिएको Whisper को तुलनामा लगभग 40% छिटो inference प्रदान गर्दछ।

9. Azure Speech Studio

Azure Speech Studio ले ASR मोडेलहरू फाइन-ट्युनिङको वैकल्पिक दृष्टिकोण प्रदान गर्दछ।

Azure परिणामहरू

भियतनामी: Common Voice 14.0 मा प्रशिक्षित मोडेलले 7.33% को WER प्राप्त गर्दछ जापानी: JSUT मा प्रशिक्षित मोडेलले 6.97% को CER प्राप्त गर्दछ
Azure Speech Studio ले प्रशिक्षणमा कम WER दिन सक्छ, Whisper ले नदेखेको डाटामा, विशेष गरी विविध र जटिल अडियोमा राम्रो मूल्यांकन परिणामहरू प्राप्त गर्ने प्रवृत्ति राख्छ।

10. निष्कर्ष

Whisper ASR मोडेल फाइन-ट्युनिङ प्रक्रिया यसको प्रदर्शन बढाउनको लागि एक बलियो प्रविधिको रूपमा देखिन्छ। मुख्य निष्कर्षहरू:
  1. फाइन-ट्युनिङले लगातार उल्लेखनीय प्रदर्शन सुधारहरू दिन्छ
  2. audiomentations library मार्फत डाटा augmentation ले मूल्यवान विविधता परिचय गर्दछ
  3. Dataset गुणस्तर महत्त्वपूर्ण छ: डाटाको मात्रा, अडियो स्पष्टता, र विषय विविधता सबैले प्रदर्शनलाई प्रभाव पार्छ
  4. Whisper ले वास्तविक-विश्व परिदृश्यहरूमा उत्कृष्ट प्रदर्शन देखाउँछ

सन्दर्भहरू

  1. Radford, A., et al. (2022). Robust speech recognition via large-scale weak supervision.
  2. Ardila, R., et al. (2020). Common Voice: A Massively-Multilingual Speech Corpus.
  3. Conneau, A., et al. (2022). FLEURS: Few-Shot Learning Evaluation of Universal Representations of Speech.
  4. Gandhi, S. (2022). Fine-Tune Whisper for Multilingual ASR with Transformers.