लेखक
Shuang LIANG - The University of Tokyo
सारांश
ठूला भाषा मोडेलहरू (LLMs) ले प्राकृतिक भाषा कार्यहरूमा उत्कृष्ट प्रदर्शन देखाएका छन्। यो लेखले प्रशिक्षण र decoding strategies मार्फत hallucination को चुनौती सम्बोधन गर्दै चिनियाँ-देखि-अंग्रेजी मेशिन अनुवादको लागि Llama 3.1 fine-tuning अन्वेषण गर्दछ।
मुख्य परिणामहरू:
- Fine-tuned मोडेलले document-level डाटामा baseline 19.6 को तुलनामा BLEU 40.8 प्राप्त गर्यो
- Baseline 0.820 को तुलनामा COMET 0.891
- Long-context अनुवादहरूमा hallucination सफलतापूर्वक कम गरियो
- Document-level प्रदर्शन सुधार गर्दै sentence-level गुणस्तर कायम गर्यो
1. पृष्ठभूमि
ठूला भाषा मोडेलहरू
Llama जस्ता LLMs ले NLP मा क्रान्ति ल्याएका छन्, मानव-जस्तो पाठ बुझ्ने र उत्पन्न गर्ने उल्लेखनीय क्षमताहरू देखाउँदै। तिनीहरूलाई विशेष कार्यहरूको लागि fine-tune गर्न सकिन्छ, मेशिन अनुवाद सुधार गर्नको लागि आदर्श बनाउँदै।
Neural Machine Translation र Hallucination
NMT मा Hallucination ले अविश्वसनीय, fabricated, वा nonsensical content लाई जनाउँछ:
| प्रकार | विवरण |
|---|
| Intrinsic Hallucinations | Output मा स्रोतको तुलनामा गलत जानकारी छ |
| Extrinsic Hallucinations | मोडेलले थप असम्बन्धित content उत्पन्न गर्छ |
| Perturbation Hallucinations | Perturbed vs unperturbed input को लागि एकदम फरक output |
| Natural Hallucinations | प्रशिक्षण dataset मा noise सँग जोडिएको |
2. प्रयोगहरू
Datasets
| Dataset | Documents | Sentences | Words (src/tgt) |
|---|
| NewsCommentary-v18.1 | 11,147 | 443,677 | 16.4M/9.7M |
| Ted Talks | 22 | 1,949 | 51K/32K |
वातावरण
- Model: Llama 3.1 8B Instruct
- GPU: NVIDIA A100 (80GB)
- Framework: Accelerated प्रशिक्षणको लागि Unsloth
3. परिणामहरू
| प्रशिक्षण Samples | BLEU | COMET |
|---|
| 10 | 35.8 | 0.885 |
| 100 | 36.9 | 0.889 |
| 1,000 | 39.7 | 0.890 |
| 10,000 | 40.8 | 0.891 |
| Baseline | 19.6 | 0.820 |
Fine-tuning ले document-level अनुवादहरूमा baseline को तुलनामा BLEU 100% भन्दा बढी सुधार गर्यो।
Hallucination विश्लेषण
देखिएका प्रकारहरू:
- समयअघि रोकिने: मोडेलले अनुवाद पूरा गर्नु अघि EOS token उत्पन्न गर्छ
- अनावश्यक content: Document-level मोडेलहरूले अनुवाद भन्दा बाहिर लामो व्याख्याहरू उत्पन्न गर्छन्
Mitigation strategies:
- EOS token probability thresholding
- मिश्रित document/sentence-level प्रशिक्षण
- सावधान dataset तयारी
Document-level fine-tuned मोडेलहरूले implicit prior knowledge को साथ लामो outputs उत्पन्न गर्ने प्रवृत्ति राख्छन्, कहिलेकाहीं factual तर off-topic content उत्पादन गर्दै।
4. निष्कर्ष
उचित dataset तयारी र fine-tuning प्रविधिहरूको साथ, यो सम्भव छ:
- अनुवाद गुणस्तर उल्लेखनीय रूपमा सुधार गर्न (2x BLEU सुधार)
- Hallucination समस्याहरू कम गर्न
- Document-level प्रदर्शन सुधार गर्दै sentence-level गुणस्तर कायम गर्न
- थप विश्वसनीय र coherent अनुवादहरू उत्पादन गर्न
5. भविष्यको काम
- विभिन्न इनपुट परिदृश्यहरू (भाषा शैलीहरू, सांस्कृतिक पृष्ठभूमिहरू, संवाद विषयहरू) कभर गर्ने datasets तयार गर्नुहोस्
- Bias बच्न प्रशिक्षण डाटामा content प्रकारहरू सन्तुलित गर्नुहोस्
- Post-generation विधिहरू मार्फत named entity errors सम्बोधन गर्नुहोस्
- थप hallucination mitigation प्रविधिहरू अन्वेषण गर्नुहोस्
सन्दर्भहरू
- Kocmi, T., et al. (2022). “Findings of the 2022 conference on machine translation (WMT22).”
- Hu, E., et al. (2021). “LoRA: Low-Rank Adaptation of Large Language Models.”
- Meta AI. (2024). “Llama 3.1 Model Documentation.”
- Ji, Z., et al. (2023). “Survey of Hallucination in Natural Language Generation.”