Skip to main content

लेखक

Shuang LIANG - The University of Tokyo

सारांश

ठूला भाषा मोडेलहरू (LLMs) ले प्राकृतिक भाषा कार्यहरूमा उत्कृष्ट प्रदर्शन देखाएका छन्। यो लेखले प्रशिक्षण र decoding strategies मार्फत hallucination को चुनौती सम्बोधन गर्दै चिनियाँ-देखि-अंग्रेजी मेशिन अनुवादको लागि Llama 3.1 fine-tuning अन्वेषण गर्दछ। मुख्य परिणामहरू:
  • Fine-tuned मोडेलले document-level डाटामा baseline 19.6 को तुलनामा BLEU 40.8 प्राप्त गर्यो
  • Baseline 0.820 को तुलनामा COMET 0.891
  • Long-context अनुवादहरूमा hallucination सफलतापूर्वक कम गरियो
  • Document-level प्रदर्शन सुधार गर्दै sentence-level गुणस्तर कायम गर्यो

1. पृष्ठभूमि

ठूला भाषा मोडेलहरू

Llama जस्ता LLMs ले NLP मा क्रान्ति ल्याएका छन्, मानव-जस्तो पाठ बुझ्ने र उत्पन्न गर्ने उल्लेखनीय क्षमताहरू देखाउँदै। तिनीहरूलाई विशेष कार्यहरूको लागि fine-tune गर्न सकिन्छ, मेशिन अनुवाद सुधार गर्नको लागि आदर्श बनाउँदै।

Neural Machine Translation र Hallucination

NMT मा Hallucination ले अविश्वसनीय, fabricated, वा nonsensical content लाई जनाउँछ:
प्रकारविवरण
Intrinsic HallucinationsOutput मा स्रोतको तुलनामा गलत जानकारी छ
Extrinsic Hallucinationsमोडेलले थप असम्बन्धित content उत्पन्न गर्छ
Perturbation HallucinationsPerturbed vs unperturbed input को लागि एकदम फरक output
Natural Hallucinationsप्रशिक्षण dataset मा noise सँग जोडिएको

2. प्रयोगहरू

Datasets

DatasetDocumentsSentencesWords (src/tgt)
NewsCommentary-v18.111,147443,67716.4M/9.7M
Ted Talks221,94951K/32K

वातावरण

  • Model: Llama 3.1 8B Instruct
  • GPU: NVIDIA A100 (80GB)
  • Framework: Accelerated प्रशिक्षणको लागि Unsloth

3. परिणामहरू

In-Distribution Performance (Document-Level)

प्रशिक्षण SamplesBLEUCOMET
1035.80.885
10036.90.889
1,00039.70.890
10,00040.80.891
Baseline19.60.820
Fine-tuning ले document-level अनुवादहरूमा baseline को तुलनामा BLEU 100% भन्दा बढी सुधार गर्यो।

Hallucination विश्लेषण

देखिएका प्रकारहरू:
  1. समयअघि रोकिने: मोडेलले अनुवाद पूरा गर्नु अघि EOS token उत्पन्न गर्छ
  2. अनावश्यक content: Document-level मोडेलहरूले अनुवाद भन्दा बाहिर लामो व्याख्याहरू उत्पन्न गर्छन्
Mitigation strategies:
  • EOS token probability thresholding
  • मिश्रित document/sentence-level प्रशिक्षण
  • सावधान dataset तयारी
Document-level fine-tuned मोडेलहरूले implicit prior knowledge को साथ लामो outputs उत्पन्न गर्ने प्रवृत्ति राख्छन्, कहिलेकाहीं factual तर off-topic content उत्पादन गर्दै।

4. निष्कर्ष

उचित dataset तयारी र fine-tuning प्रविधिहरूको साथ, यो सम्भव छ:
  1. अनुवाद गुणस्तर उल्लेखनीय रूपमा सुधार गर्न (2x BLEU सुधार)
  2. Hallucination समस्याहरू कम गर्न
  3. Document-level प्रदर्शन सुधार गर्दै sentence-level गुणस्तर कायम गर्न
  4. थप विश्वसनीय र coherent अनुवादहरू उत्पादन गर्न

5. भविष्यको काम

  1. विभिन्न इनपुट परिदृश्यहरू (भाषा शैलीहरू, सांस्कृतिक पृष्ठभूमिहरू, संवाद विषयहरू) कभर गर्ने datasets तयार गर्नुहोस्
  2. Bias बच्न प्रशिक्षण डाटामा content प्रकारहरू सन्तुलित गर्नुहोस्
  3. Post-generation विधिहरू मार्फत named entity errors सम्बोधन गर्नुहोस्
  4. थप hallucination mitigation प्रविधिहरू अन्वेषण गर्नुहोस्

सन्दर्भहरू

  1. Kocmi, T., et al. (2022). “Findings of the 2022 conference on machine translation (WMT22).”
  2. Hu, E., et al. (2021). “LoRA: Low-Rank Adaptation of Large Language Models.”
  3. Meta AI. (2024). “Llama 3.1 Model Documentation.”
  4. Ji, Z., et al. (2023). “Survey of Hallucination in Natural Language Generation.”