लेखक
Taishin Maeda - Waseda University
सारांश
यो कागजातले दुई state-of-the-art ओपन-सोर्स स्पिकर डायराइजेसन frameworks मूल्यांकन र तुलना गर्दछ: Pyannote.audio र Nvidia Nemo। मूल्यांकन विभिन्न अडियो परिदृश्यहरूमा Diarization Error Rate (DER), कार्यान्वयन समय, र GPU स्रोत प्रयोगमा केन्द्रित छ।
मुख्य परिणामहरू:
- Nvidia Nemo ले 2-स्पिकर परिदृश्यहरूको लागि ~9% कम DER प्राप्त गर्दछ
- Pyannote.audio ले बहु-स्पिकर (9+) परिदृश्यहरूको लागि राम्रो प्रदर्शन गर्दछ
- GPT-4-Turbo post-processing ले सम्भावना देखाउँछ तर अडियो context एकीकरण आवश्यक छ
- वास्तविक-समय स्पिकर डायराइजेसन वेब अनुप्रयोग प्रदर्शित
1. परिचय
स्पिकर डायराइजेसन के हो?
स्पिकर डायराइजेसन विभिन्न वक्ताहरूको आधारमा अडियो विभाजन र लेबलिङ गर्ने प्रक्रिया हो - दिइएको अडियोमा “कसले कहिले बोल्यो?” भन्ने प्रश्नको जवाफ दिँदै।
2. मूल्यांकन विधि
Diarization Error Rate (DER)
स्पिकर डायराइजेसनको लागि मानक metric, 2000 मा NIST द्वारा परिचय गरिएको:
DER = (False Alarm + Missed Detection + Confusion) / Total
3. प्रयोगात्मक सेटअप
Datasets
- 5-मिनेट अडियो - दुई वक्ता (Obama-Zach interview), म्यानुअल रूपमा annotated
- 9-मिनेट अडियो - VoxConverse dataset बाट नौ वक्ताहरू
4. परिणामहरू र छलफल
DER परिणामहरू - दुई वक्ता (5 min)
| Framework | DER |
|---|
| Pyannote.audio | 0.252 |
| Nvidia Nemo | 0.161 |
Nvidia Nemo ले दुई-वक्ता परिदृश्यहरूको लागि Pyannote.audio भन्दा लगभग 9% कम DER उत्पादन गर्दछ।
DER परिणामहरू - नौ वक्ता (9 min)
| Framework | DER |
|---|
| Pyannote.audio | 0.083 |
| Nvidia Nemo (pre-identified speakers) | 0.097 |
बहु-वक्ता परिदृश्यहरूको लागि, Pyannote.audio ले Nvidia Nemo भन्दा ~1.4% कम DER प्राप्त गर्दछ।
कार्यान्वयन समय प्रदर्शन
| Framework | 5-min अडियो | 9-min अडियो |
|---|
| Pyannote.audio | 31.3s | 44.5s |
| Nvidia Nemo | 63.9s | 108.2s |
Nvidia Nemo ले Pyannote.audio को तुलनामा लगभग दोब्बर कार्यान्वयन समय लिन्छ।
5. वास्तविक-समय अनुप्रयोग
एक वास्तविक-समय स्पिकर डायराइजेसन वेब अनुप्रयोग विकास गरियो:
- अडियो स्ट्रिमिङको लागि WebSockets
- backend को लागि FastAPI
- डायराइजेसनको लागि Pyannote.audio
6. निष्कर्ष
मुख्य निष्कर्षहरू
- Nvidia Nemo कम वक्ताहरूको साथ छोटो अडियोमा उत्कृष्ट (DER: 0.161 vs 0.252)
- Pyannote.audio ले बढी वक्ताहरूसँग राम्रो प्रदर्शन गर्दछ
- GPT-4 post-processing ले सम्भावना देखाउँछ तर अडियो context एकीकरण आवश्यक छ
- कार्यान्वयन समय: Pyannote.audio लगभग 2x छिटो छ
- वास्तविक-समय अनुप्रयोग: परिमार्जित chunk logic ले सटीकता सुधार गर्दछ
भविष्यको काम
- गैर-telephonic परिदृश्यहरूको लागि Nvidia Nemo मोडेलहरू समायोजन गर्नुहोस्
- GPT post-processing मा अडियो context एकीकृत गर्नुहोस्
- वास्तविक-समय अनुप्रयोगहरूको लागि स्पिकर पहिचान thresholds फाइन-ट्युन गर्नुहोस्
7. सन्दर्भहरू
- NIST Rich Transcription Evaluation (2022)
- Nvidia NeMo Documentation - Speaker Diarization
- Pyannote.audio GitHub Repository
- OpenAI GPT-4 Turbo Documentation