Skip to main content
Test Setup: 6 परिदृश्य, 5 भाषाहरू (EN, JA, KO, VI, ZH), 3 मोडेलहरू Hardware: NVIDIA GeForce RTX 4090 मिति: डिसेम्बर 2025

TL;DR

हामीले छ परिदृश्यहरूमा तीन स्पिकर डायराइजेसन मोडेलहरू मूल्यांकन गर्यौं:
मोडेलविवरणऔसत DERऔसत RTF
NeMo Neural (MSDD)Neural refinement को साथ Multi-Scale Diarization Decoder0.0810.020
NeMo ClusteringMSDD बिना Clustering-मात्र approach0.1030.010
Pyannote 3.1End-to-end diarization pipeline0.1810.027
मुख्य निष्कर्षहरू:
  • NeMo Neural ले छिटो processing को साथ सबैभन्दा राम्रो सटीकता प्रदान गर्दछ
  • जापानीले लामो context बाट फाइदा लिन्छ: 30min+ अडियोमा Performance सुधार हुन्छ
  • जापानी बिना Multilingual उत्कृष्ट प्रदर्शन गर्दछ (DER: 0.050)

1. परिचय

हामीले production को लागि diarization मोडेल छान्नुपर्थ्यो। हाम्रो मूल्यांकनले वास्तविक-विश्व conditions प्रतिनिधित्व गर्ने 6 परिदृश्यहरू कभर गर्दछ:
  • विभिन्न अडियो लम्बाइहरू (10 मिनेट देखि 1 घण्टा)
  • भिन्न वक्ता संख्याहरू (4 देखि 14 वक्ता)
  • विभिन्न overlap स्तरहरू (0% देखि 40%)
  • बहुभाषी अडियो mixing

2. परीक्षण अन्तर्गत मोडेलहरू

NeMo Neural (MSDD)

  • 192-dimensional स्पिकर embeddings को लागि TitaNet-large
  • 5 temporal scales (1.0s-3.0s windows) मा अडियो प्रशोधन
  • MSDD neural network ले initial clustering परिणामहरू refine गर्दछ

NeMo Clustering (Pure)

  • उही embedding मोडेल (TitaNet-large)
  • MSDD refinement बिना spectral clustering मात्र प्रयोग गर्दछ

Pyannote 3.1

  • VAD, segmentation, र clustering को साथ End-to-end pipeline
  • pyannote/segmentation-3.0 र wespeaker मोडेलहरू प्रयोग गर्दछ

4. समग्र Performance

4.1 सटीकता तुलना

Overall DER comparison

सबै परिदृश्यहरूमा समग्र DER तुलना

मुख्य अवलोकनहरू:
  • NeMo Neural Pyannote भन्दा ~55% बढी सटीक (DER: 0.081 vs 0.181)
  • NeMo Clustering ले Neural को जत्तिकै राम्रो प्रदर्शन गर्दछ (मात्र 27% खराब)
  • Pyannote मा 3.4x उच्च confusion rate छ

4.3 Accuracy vs Speed Trade-off

Accuracy vs Speed

Accuracy vs Speed trade-off visualization

प्रमुख निष्कर्ष: NeMo Neural ले छिटो speed को साथ सबैभन्दा राम्रो accuracy प्राप्त गर्दछ।

6. भाषा-विशिष्ट विश्लेषण

Language difficulty

समग्र भाषा कठिनाइ ranking

मुख्य अवलोकनहरू:
  • जापानी सर्वव्यापी रूपमा सबैभन्दा कठिन (औसतमा अंग्रेजी भन्दा 5.0x कठिन)
  • अंग्रेजी सबैभन्दा सजिलो (DER: 0.037)
  • भियतनामी नजिकको दोस्रो (अंग्रेजी भन्दा मात्र 1.1x कठिन)

जापानी किन कठिन

Japanese context dependency

विभिन्न अडियो लम्बाइहरूमा जापानी performance

Hypotheses:
  1. Pitch-accent भाषा: Pitch ले भाषाई अर्थ बोक्छ, स्पिकर embeddings confuse गर्दै
  2. संकुचित phonetic inventory: हजारौं अंग्रेजी phonemes को तुलनामा ~100 mora
  3. छोटो syllable durations: प्रति speaking turn कम temporal context

8. Multilingual Performance

Multilingual comparison

जापानी सहित र बिना Multilingual performance

मुख्य Insight: जापानी multilingual diarization कठिन बनाउने प्राथमिक कारक हो।
ConfigurationNeMo Neural DER
जापानी सहित (5-lang)0.142
जापानी बिना (4-lang)0.050

9. निष्कर्ष

मुख्य Takeaways

NeMo Neural स्पष्ट विजेता हो:
  • सबैभन्दा राम्रो सटीकता: DER 0.081 औसत
  • छिटो processing: RTF 0.020 (real-time भन्दा 50x छिटो)
  • जापानी बिना उत्कृष्ट multilingual: DER 0.050
महत्त्वपूर्ण निष्कर्षहरू:
  1. जापानीले लामो context बाट नाटकीय रूपमा फाइदा लिन्छ (30min optimal)
  2. जापानी सहित Multilingual चुनौतीपूर्ण (DER 0.142) तर manageable छ
  3. MSDD neural refinement ले clustering भन्दा minimal benefit प्रदान गर्दछ (27% राम्रो)
  4. सबै मोडेलहरू छिटो र production-ready छन्

सिफारिसहरू

Use Caseमोडेलकारण
सबैभन्दा राम्रो accuracyNeMo NeuralDER 0.081
Maximum speedNeMo Clustering2x छिटो
लामो अडियो (30min-1h)NeMo NeuralComplexity ह्यान्डल गर्दछ
Multilingual (no Japanese)NeMo NeuralDER 0.050
जापानी (30min+)NeMo NeuralContext ले मद्दत गर्दछ
Default Choice: NeMo Neural - छिटो processing को साथ सबैभन्दा राम्रो accuracy।