सारांश
स्वचालित भाषण पहिचान (ASR), जसलाई Speech to Text (STT) पनि भनिन्छ, भाषण-समावेश अडियोहरूलाई पाठमा रूपान्तरण गर्न Deep Learning प्रविधिहरू प्रयोग गर्दछ। Deep Learning Artificial Intelligence को क्षेत्रमा, ठूला भाषा मोडेलहरू (LLMs) ले शब्दहरू र वाक्यांशहरू प्रशोधन गर्न मानव मस्तिष्कको नक्कल गर्दछन्, र पाठ डाटा बुझ्ने र उत्पन्न गर्ने क्षमता राख्दछन्। LLMs मा सामान्यतया लाखौं वजनहरू हुन्छन् र विभिन्न प्रकारका datasets को साथ पूर्व-प्रशिक्षित हुन्छन्। विशेष गरी, ASR LLM ले feature extraction र tokenization द्वारा अडियो इनपुटहरूलाई इच्छित इनपुट ढाँचाहरूमा रूपान्तरण गर्नेछ।अवलोकन
वातावरण तयारी
Google Colab, Anaconda, VS Code, CUDA GPU
अडियो डाटा स्रोत
Hugging Face, OpenSLR datasets
Whisper फाइन-ट्युनिङ
फाइन-ट्युनिङ, PEFT with LoRA, परिणामहरू
स्पिकर डायराइजेसन
Pyannote.audio, WhisperX
अन्य मोडेलहरू
Meta MMS, PaddleSpeech, SpeechBrain, ESPnet
Azure Speech Studio
Custom Speech प्रशिक्षण र तैनाती
1. वातावरण तयारी
a. Google Colaboratory
Google Colaboratory एक होस्ट गरिएको Jupyter Notebook सेवा हो जसमा सीमित नि:शुल्क GPU र TPU कम्प्युटिङ स्रोतहरू छन्।b. Anaconda
Anaconda Data Science क्षेत्रको लागि एक प्रसिद्ध वितरण प्लेटफर्म हो, जसमा Python मा डाटा विश्लेषण र मेशिन लर्निङ मोडेलहरू निर्माण समावेश छ।c. Visual Studio Code
Visual Studio Code, वा VS Code, Windows, MacOS र Linux को लागि एक शक्तिशाली स्रोत-कोड सम्पादक हो।d. CUDA GPU
Compute Unified Device Architecture (CUDA) NVIDIA द्वारा विकसित समानान्तर कम्प्युटिङ प्लेटफर्म र Application Programming Interface (API) हो।2. अडियो डाटा स्रोत
a. Hugging Face
Hugging Face Natural Language Processing (NLP) र Artificial Intelligence मा समर्पित एक कम्पनी र ओपन-सोर्स प्लेटफर्म हो।b. Open SLR
Open SLR अर्को उपयोगी वेबसाइट हो जसले भाषण र भाषा स्रोतहरू होस्ट गर्दछ।3. Whisper मोडेल फाइन-ट्युनिङ
Whisper सेप्टेम्बर 2022 मा OpenAI द्वारा जारी गरिएको ASR प्रणाली हो। यसलाई 680,000 घण्टाको बहुभाषी र multitask supervised डाटामा प्रशिक्षण गरिएको थियो।फाइन-ट्युन गरिएका परिणामहरू
| Dataset/Size/Split | Model/Lang/Task | Hyperparameters | परिणाम |
|---|---|---|---|
| common_voice_11_0 | Whisper small Hindi | lr=1e-5, ms=40 | WER: 67.442% |
| common_voice | Whisper small Japanese | lr=1e-6, ms=3500 | WER: 2.4% |
| librispeech_asr | Whisper medium English | lr=1e-5, ms=750 | WER: 13.095% |
PEFT with LoRA
Parameter-Efficient Fine-tuning (PEFT) दृष्टिकोणहरूले पूर्व-प्रशिक्षित LLM हरूको धेरैजसो प्यारामिटरहरू freeze गर्दा मात्र थोरै मोडेल प्यारामिटरहरू फाइन-ट्युन गर्दछन्।4. स्पिकर डायराइजेसन
स्पिकर डायराइजेसनले विभिन्न वक्ताहरूसँग सम्बन्धित छुट्टै खण्डहरूमा भाषण अडियो विभाजन गर्ने समावेश गर्दछ।a. Pyannote.audio
Pyannote-audio स्पिकर डायराइजेसन र स्पिकर embedding को लागि ओपन-सोर्स Python toolkit हो।b. WhisperX
WhisperX ले Whisper, Phoneme-Based Model (Wav2Vec2) र Pyannote.audio एकीकृत गर्दछ।5. अन्य मोडेलहरू
a. Meta MMS
Massively Multilingual Speech (MMS) परियोजनाले भाषण प्रविधिलाई लगभग 100 भाषाहरूबाट 1,100 भन्दा बढी भाषाहरूमा विस्तार गर्दछ।b. PaddleSpeech
PaddleSpeech PaddlePaddle प्लेटफर्ममा चिनियाँ ओपन-सोर्स toolkit हो।c. SpeechBrain
SpeechBrain Montreal विश्वविद्यालयद्वारा विकसित ओपन-सोर्स conversational AI toolkit हो।d. ESPnet
ESPnet भाषण पहिचान, text-to-speech, भाषण अनुवाद, र स्पिकर डायराइजेसन कभर गर्ने end-to-end भाषण प्रशोधन toolkit हो।6. Azure Speech Studio
Azure AI Speech Services Microsoft Azure द्वारा प्रस्ताव गरिएको क्लाउड-आधारित भाषण-सम्बन्धित सेवाहरूको संग्रह हो।Azure परिणामहरू
| परीक्षण Dataset | प्रशिक्षण Datasets | त्रुटि दर (Custom vs Baseline) |
|---|---|---|
| MagicData+Aishell+CV13 | Aishell+CV13+Fleurs | 2.48% / 3.70% |
7. भविष्यको दिशा
मुख्य निष्कर्षहरू र भविष्यका दिशाहरू:- चिनियाँ स्रोतहरू उच्च transcript गुणस्तरको साथ अंग्रेजी स्रोतहरू भन्दा धेरै कम उपलब्ध छन्।
- Multi-GPU प्रशिक्षण वा थप उन्नत GPUs ले ठूला मोडेलहरूसँग राम्रो परिणामहरू प्राप्त गर्न मद्दत गर्न सक्छ।
- विभिन्न LoRA प्यारामिटरहरूको PEFT मोडेल प्रदर्शनमा प्रभावहरू थप अन्वेषण गर्न सकिन्छ।
8. सन्दर्भहरू
- OpenAI (2022). Introducing Whisper.
- Gandhi, S. (2022). Fine-Tune Whisper for Multilingual ASR with Transformers.
- Bredin, H., et al. (2020). pyannote.audio: neural building blocks for speaker diarization.
- Meta AI (2023). Introducing speech-to-text, text-to-speech, and more for 1,100+ languages.
