Skip to main content
लेखक: Linchuan Du सम्बद्धता: गणित विभाग, The University of British Columbia मिति: अगस्त 2023

सारांश

स्वचालित भाषण पहिचान (ASR), जसलाई Speech to Text (STT) पनि भनिन्छ, भाषण-समावेश अडियोहरूलाई पाठमा रूपान्तरण गर्न Deep Learning प्रविधिहरू प्रयोग गर्दछ। Deep Learning Artificial Intelligence को क्षेत्रमा, ठूला भाषा मोडेलहरू (LLMs) ले शब्दहरू र वाक्यांशहरू प्रशोधन गर्न मानव मस्तिष्कको नक्कल गर्दछन्, र पाठ डाटा बुझ्ने र उत्पन्न गर्ने क्षमता राख्दछन्। LLMs मा सामान्यतया लाखौं वजनहरू हुन्छन् र विभिन्न प्रकारका datasets को साथ पूर्व-प्रशिक्षित हुन्छन्। विशेष गरी, ASR LLM ले feature extraction र tokenization द्वारा अडियो इनपुटहरूलाई इच्छित इनपुट ढाँचाहरूमा रूपान्तरण गर्नेछ।

अवलोकन

1. वातावरण तयारी

a. Google Colaboratory

Google Colaboratory एक होस्ट गरिएको Jupyter Notebook सेवा हो जसमा सीमित नि:शुल्क GPU र TPU कम्प्युटिङ स्रोतहरू छन्।

b. Anaconda

Anaconda Data Science क्षेत्रको लागि एक प्रसिद्ध वितरण प्लेटफर्म हो, जसमा Python मा डाटा विश्लेषण र मेशिन लर्निङ मोडेलहरू निर्माण समावेश छ।

c. Visual Studio Code

Visual Studio Code, वा VS Code, Windows, MacOS र Linux को लागि एक शक्तिशाली स्रोत-कोड सम्पादक हो।

d. CUDA GPU

Compute Unified Device Architecture (CUDA) NVIDIA द्वारा विकसित समानान्तर कम्प्युटिङ प्लेटफर्म र Application Programming Interface (API) हो।

2. अडियो डाटा स्रोत

a. Hugging Face

Hugging Face Natural Language Processing (NLP) र Artificial Intelligence मा समर्पित एक कम्पनी र ओपन-सोर्स प्लेटफर्म हो।

b. Open SLR

Open SLR अर्को उपयोगी वेबसाइट हो जसले भाषण र भाषा स्रोतहरू होस्ट गर्दछ।

3. Whisper मोडेल फाइन-ट्युनिङ

Whisper सेप्टेम्बर 2022 मा OpenAI द्वारा जारी गरिएको ASR प्रणाली हो। यसलाई 680,000 घण्टाको बहुभाषी र multitask supervised डाटामा प्रशिक्षण गरिएको थियो।

फाइन-ट्युन गरिएका परिणामहरू

Dataset/Size/SplitModel/Lang/TaskHyperparametersपरिणाम
common_voice_11_0Whisper small Hindilr=1e-5, ms=40WER: 67.442%
common_voiceWhisper small Japaneselr=1e-6, ms=3500WER: 2.4%
librispeech_asrWhisper medium Englishlr=1e-5, ms=750WER: 13.095%

PEFT with LoRA

Parameter-Efficient Fine-tuning (PEFT) दृष्टिकोणहरूले पूर्व-प्रशिक्षित LLM हरूको धेरैजसो प्यारामिटरहरू freeze गर्दा मात्र थोरै मोडेल प्यारामिटरहरू फाइन-ट्युन गर्दछन्।

4. स्पिकर डायराइजेसन

स्पिकर डायराइजेसनले विभिन्न वक्ताहरूसँग सम्बन्धित छुट्टै खण्डहरूमा भाषण अडियो विभाजन गर्ने समावेश गर्दछ।

a. Pyannote.audio

Pyannote-audio स्पिकर डायराइजेसन र स्पिकर embedding को लागि ओपन-सोर्स Python toolkit हो।

b. WhisperX

WhisperX ले Whisper, Phoneme-Based Model (Wav2Vec2) र Pyannote.audio एकीकृत गर्दछ।

5. अन्य मोडेलहरू

a. Meta MMS

Massively Multilingual Speech (MMS) परियोजनाले भाषण प्रविधिलाई लगभग 100 भाषाहरूबाट 1,100 भन्दा बढी भाषाहरूमा विस्तार गर्दछ।

b. PaddleSpeech

PaddleSpeech PaddlePaddle प्लेटफर्ममा चिनियाँ ओपन-सोर्स toolkit हो।

c. SpeechBrain

SpeechBrain Montreal विश्वविद्यालयद्वारा विकसित ओपन-सोर्स conversational AI toolkit हो।

d. ESPnet

ESPnet भाषण पहिचान, text-to-speech, भाषण अनुवाद, र स्पिकर डायराइजेसन कभर गर्ने end-to-end भाषण प्रशोधन toolkit हो।

6. Azure Speech Studio

Azure AI Speech Services Microsoft Azure द्वारा प्रस्ताव गरिएको क्लाउड-आधारित भाषण-सम्बन्धित सेवाहरूको संग्रह हो।

Azure परिणामहरू

परीक्षण Datasetप्रशिक्षण Datasetsत्रुटि दर (Custom vs Baseline)
MagicData+Aishell+CV13Aishell+CV13+Fleurs2.48% / 3.70%

7. भविष्यको दिशा

मुख्य निष्कर्षहरू र भविष्यका दिशाहरू:
  1. चिनियाँ स्रोतहरू उच्च transcript गुणस्तरको साथ अंग्रेजी स्रोतहरू भन्दा धेरै कम उपलब्ध छन्।
  2. Multi-GPU प्रशिक्षण वा थप उन्नत GPUs ले ठूला मोडेलहरूसँग राम्रो परिणामहरू प्राप्त गर्न मद्दत गर्न सक्छ।
  3. विभिन्न LoRA प्यारामिटरहरूको PEFT मोडेल प्रदर्शनमा प्रभावहरू थप अन्वेषण गर्न सकिन्छ।

8. सन्दर्भहरू

  1. OpenAI (2022). Introducing Whisper.
  2. Gandhi, S. (2022). Fine-Tune Whisper for Multilingual ASR with Transformers.
  3. Bredin, H., et al. (2020). pyannote.audio: neural building blocks for speaker diarization.
  4. Meta AI (2023). Introducing speech-to-text, text-to-speech, and more for 1,100+ languages.