Skip to main content

लेखक

Taishin Maeda - Waseda University

सारांश

यो कागजातले दुई state-of-the-art ओपन-सोर्स स्पिकर डायराइजेसन frameworks मूल्यांकन र तुलना गर्दछ: Pyannote.audioNvidia Nemo। मूल्यांकन विभिन्न अडियो परिदृश्यहरूमा Diarization Error Rate (DER), कार्यान्वयन समय, र GPU स्रोत प्रयोगमा केन्द्रित छ। मुख्य परिणामहरू:
  • Nvidia Nemo ले 2-स्पिकर परिदृश्यहरूको लागि ~9% कम DER प्राप्त गर्दछ
  • Pyannote.audio ले बहु-स्पिकर (9+) परिदृश्यहरूको लागि राम्रो प्रदर्शन गर्दछ
  • GPT-4-Turbo post-processing ले सम्भावना देखाउँछ तर अडियो context एकीकरण आवश्यक छ
  • वास्तविक-समय स्पिकर डायराइजेसन वेब अनुप्रयोग प्रदर्शित

1. परिचय

स्पिकर डायराइजेसन के हो?

स्पिकर डायराइजेसन विभिन्न वक्ताहरूको आधारमा अडियो विभाजन र लेबलिङ गर्ने प्रक्रिया हो - दिइएको अडियोमा “कसले कहिले बोल्यो?” भन्ने प्रश्नको जवाफ दिँदै।
स्पिकर डायराइजेसन Pipeline

2. मूल्यांकन विधि

Diarization Error Rate (DER)

स्पिकर डायराइजेसनको लागि मानक metric, 2000 मा NIST द्वारा परिचय गरिएको:
DER = (False Alarm + Missed Detection + Confusion) / Total

3. प्रयोगात्मक सेटअप

Datasets

  1. 5-मिनेट अडियो - दुई वक्ता (Obama-Zach interview), म्यानुअल रूपमा annotated
  2. 9-मिनेट अडियो - VoxConverse dataset बाट नौ वक्ताहरू

4. परिणामहरू र छलफल

DER परिणामहरू - दुई वक्ता (5 min)

FrameworkDER
Pyannote.audio0.252
Nvidia Nemo0.161
Nvidia Nemo ले दुई-वक्ता परिदृश्यहरूको लागि Pyannote.audio भन्दा लगभग 9% कम DER उत्पादन गर्दछ।

DER परिणामहरू - नौ वक्ता (9 min)

FrameworkDER
Pyannote.audio0.083
Nvidia Nemo (pre-identified speakers)0.097
बहु-वक्ता परिदृश्यहरूको लागि, Pyannote.audio ले Nvidia Nemo भन्दा ~1.4% कम DER प्राप्त गर्दछ।

कार्यान्वयन समय प्रदर्शन

Framework5-min अडियो9-min अडियो
Pyannote.audio31.3s44.5s
Nvidia Nemo63.9s108.2s
Nvidia Nemo ले Pyannote.audio को तुलनामा लगभग दोब्बर कार्यान्वयन समय लिन्छ।

5. वास्तविक-समय अनुप्रयोग

एक वास्तविक-समय स्पिकर डायराइजेसन वेब अनुप्रयोग विकास गरियो:
  • अडियो स्ट्रिमिङको लागि WebSockets
  • backend को लागि FastAPI
  • डायराइजेसनको लागि Pyannote.audio

6. निष्कर्ष

मुख्य निष्कर्षहरू

  1. Nvidia Nemo कम वक्ताहरूको साथ छोटो अडियोमा उत्कृष्ट (DER: 0.161 vs 0.252)
  2. Pyannote.audio ले बढी वक्ताहरूसँग राम्रो प्रदर्शन गर्दछ
  3. GPT-4 post-processing ले सम्भावना देखाउँछ तर अडियो context एकीकरण आवश्यक छ
  4. कार्यान्वयन समय: Pyannote.audio लगभग 2x छिटो छ
  5. वास्तविक-समय अनुप्रयोग: परिमार्जित chunk logic ले सटीकता सुधार गर्दछ

भविष्यको काम

  1. गैर-telephonic परिदृश्यहरूको लागि Nvidia Nemo मोडेलहरू समायोजन गर्नुहोस्
  2. GPT post-processing मा अडियो context एकीकृत गर्नुहोस्
  3. वास्तविक-समय अनुप्रयोगहरूको लागि स्पिकर पहिचान thresholds फाइन-ट्युन गर्नुहोस्

7. सन्दर्भहरू

  1. NIST Rich Transcription Evaluation (2022)
  2. Nvidia NeMo Documentation - Speaker Diarization
  3. Pyannote.audio GitHub Repository
  4. OpenAI GPT-4 Turbo Documentation