Author
Kai-Teh Tzeng - Lehigh University
Abstract
ဤလေ့လာမှုသည် Llama 3.1-8B ဖြင့် English-Chinese bidirectional translation enhance လုပ်ရန် Retrieval-Augmented Fine-Tuning (RAFT) အသုံးပြုခြင်းကို explore လုပ်ပါသည်။ RAFT သည် training အတွင်း contextual examples ပေးရန် retrieval mechanisms ကို fine-tuning နှင့် combine လုပ်ပါသည်။
အဓိက တွေ့ရှိချက်များ:
- Benchmark fine-tuning သည် best overall results ရရှိခဲ့ပြီး
- RAFT သည် specific metrics များတွင် modest improvements ပြသည်
- Random-based RAFT သည် တခါတရံ similarity-based RAFT ကို outperform လုပ်သည်
- Translation quality သည် training data relevance အပေါ် heavily depend လုပ်သည်
1. Introduction
Background
Large Language Models များသည် language tasks များတွင် excel ဖြစ်သော်လည်း domain-specific optimization မှ benefit ရနိုင်ပါသည်။ ဤသုတေသနသည် RAFT - retrieved examples ဖြင့် training augment လုပ်သည့် technique - သည် translation quality improve လုပ်နိုင်မလား explore လုပ်ပါသည်။
Research Questions
- RAFT သည် standard fine-tuning ထက် translation improve လုပ်နိုင်သလား?
- Similarity-based retrieval သည် random retrieval ကို outperform လုပ်သလား?
- RAFT configurations အမျိုးမျိုးသည် bidirectional translation ကို မည်သို့ affect လုပ်သလဲ?
2. Methodology
RAFT Overview
RAFT (Retrieval-Augmented Fine-Tuning) သည် training process ကို enhance လုပ်ပါသည်:
- Training sample တစ်ခုချင်းစီအတွက် corpus မှ relevant examples retrieve လုပ်သည်
- Training context ကို retrieved examples များဖြင့် augment လုပ်သည်
- ဤ enriched context ဖြင့် model ကို fine-tune လုပ်သည်
Experimental Setup
| Component | Configuration |
|---|
| Base Model | Llama 3.1-8B Instruct |
| Fine-tuning | LoRA (r=16, alpha=16) |
| Dataset | News Commentary v18.1 (zh-en) |
| GPU | NVIDIA A100 80GB |
RAFT Configurations
| Configuration | Description |
|---|
| Benchmark | Retrieval မပါဘဲ Standard fine-tuning |
| Similarity RAFT | Embeddings အသုံးပြု၍ top-k similar examples retrieve လုပ်သည် |
| Random RAFT | Corpus မှ k examples randomly sample လုပ်သည် |
3. Results
English-to-Chinese Translation
| Method | BLEU | COMET |
|---|
| Baseline (No Fine-tuning) | 15.2 | 0.785 |
| Benchmark Fine-tuning | 28.4 | 0.856 |
| Similarity RAFT (k=3) | 27.1 | 0.849 |
| Random RAFT (k=3) | 27.8 | 0.852 |
Chinese-to-English Translation
| Method | BLEU | COMET |
|---|
| Baseline (No Fine-tuning) | 18.7 | 0.812 |
| Benchmark Fine-tuning | 31.2 | 0.871 |
| Similarity RAFT (k=3) | 30.5 | 0.865 |
| Random RAFT (k=3) | 30.9 | 0.868 |
Benchmark fine-tuning သည် ဤ experiment တွင် RAFT configurations များကို consistently outperform လုပ်ခဲ့ပါသည်။ ၎င်းသည် News Commentary dataset ၏ homogeneous nature ကြောင့် ဖြစ်နိုင်ပါသည်။
Analysis
RAFT သည် benchmark ကို ဘာကြောင့် outperform မလုပ်ခဲ့သလဲ:
- Dataset Homogeneity: News Commentary တွင် consistent style ရှိသည်
- Retrieval Quality: Similarity metrics များသည် translation-relevant features capture မလုပ်နိုင်
- Context Length: Additional examples များသည် context တိုး၍ focus dilute ဖြစ်နိုင်သည်
4. Conclusion
RAFT သည် promise ပြသော်လည်း ကျွန်ုပ်တို့၏ experiments များက homogeneous datasets ရှိ translation tasks များအတွက် standard fine-tuning သည် competitive ဖြစ်နေသေးကြောင်း suggest လုပ်ပါသည်။ Future work တွင် diverse training corpora နှင့် better retrieval metrics များ explore သင့်ပါသည်။
References
- Zhang, T., et al. (2024). “RAFT: Adapting Language Model to Domain Specific RAG.”
- Lewis, P., et al. (2020). “Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks.”
- Hu, E., et al. (2021). “LoRA: Low-Rank Adaptation of Large Language Models.”