Skip to main content

Author

Kai-Teh Tzeng - Lehigh University

Abstract

ဤလေ့လာမှုသည် Llama 3.1-8B ဖြင့် English-Chinese bidirectional translation enhance လုပ်ရန် Retrieval-Augmented Fine-Tuning (RAFT) အသုံးပြုခြင်းကို explore လုပ်ပါသည်။ RAFT သည် training အတွင်း contextual examples ပေးရန် retrieval mechanisms ကို fine-tuning နှင့် combine လုပ်ပါသည်။ အဓိက တွေ့ရှိချက်များ:
  • Benchmark fine-tuning သည် best overall results ရရှိခဲ့ပြီး
  • RAFT သည် specific metrics များတွင် modest improvements ပြသည်
  • Random-based RAFT သည် တခါတရံ similarity-based RAFT ကို outperform လုပ်သည်
  • Translation quality သည် training data relevance အပေါ် heavily depend လုပ်သည်

1. Introduction

Background

Large Language Models များသည် language tasks များတွင် excel ဖြစ်သော်လည်း domain-specific optimization မှ benefit ရနိုင်ပါသည်။ ဤသုတေသနသည် RAFT - retrieved examples ဖြင့် training augment လုပ်သည့် technique - သည် translation quality improve လုပ်နိုင်မလား explore လုပ်ပါသည်။

Research Questions

  1. RAFT သည် standard fine-tuning ထက် translation improve လုပ်နိုင်သလား?
  2. Similarity-based retrieval သည် random retrieval ကို outperform လုပ်သလား?
  3. RAFT configurations အမျိုးမျိုးသည် bidirectional translation ကို မည်သို့ affect လုပ်သလဲ?

2. Methodology

RAFT Overview

RAFT (Retrieval-Augmented Fine-Tuning) သည် training process ကို enhance လုပ်ပါသည်:
  1. Training sample တစ်ခုချင်းစီအတွက် corpus မှ relevant examples retrieve လုပ်သည်
  2. Training context ကို retrieved examples များဖြင့် augment လုပ်သည်
  3. ဤ enriched context ဖြင့် model ကို fine-tune လုပ်သည်

Experimental Setup

ComponentConfiguration
Base ModelLlama 3.1-8B Instruct
Fine-tuningLoRA (r=16, alpha=16)
DatasetNews Commentary v18.1 (zh-en)
GPUNVIDIA A100 80GB

RAFT Configurations

ConfigurationDescription
BenchmarkRetrieval မပါဘဲ Standard fine-tuning
Similarity RAFTEmbeddings အသုံးပြု၍ top-k similar examples retrieve လုပ်သည်
Random RAFTCorpus မှ k examples randomly sample လုပ်သည်

3. Results

English-to-Chinese Translation

MethodBLEUCOMET
Baseline (No Fine-tuning)15.20.785
Benchmark Fine-tuning28.40.856
Similarity RAFT (k=3)27.10.849
Random RAFT (k=3)27.80.852

Chinese-to-English Translation

MethodBLEUCOMET
Baseline (No Fine-tuning)18.70.812
Benchmark Fine-tuning31.20.871
Similarity RAFT (k=3)30.50.865
Random RAFT (k=3)30.90.868
Benchmark fine-tuning သည် ဤ experiment တွင် RAFT configurations များကို consistently outperform လုပ်ခဲ့ပါသည်။ ၎င်းသည် News Commentary dataset ၏ homogeneous nature ကြောင့် ဖြစ်နိုင်ပါသည်။

Analysis

RAFT သည် benchmark ကို ဘာကြောင့် outperform မလုပ်ခဲ့သလဲ:
  1. Dataset Homogeneity: News Commentary တွင် consistent style ရှိသည်
  2. Retrieval Quality: Similarity metrics များသည် translation-relevant features capture မလုပ်နိုင်
  3. Context Length: Additional examples များသည် context တိုး၍ focus dilute ဖြစ်နိုင်သည်

4. Conclusion

RAFT သည် promise ပြသော်လည်း ကျွန်ုပ်တို့၏ experiments များက homogeneous datasets ရှိ translation tasks များအတွက် standard fine-tuning သည် competitive ဖြစ်နေသေးကြောင်း suggest လုပ်ပါသည်။ Future work တွင် diverse training corpora နှင့် better retrieval metrics များ explore သင့်ပါသည်။

References

  1. Zhang, T., et al. (2024). “RAFT: Adapting Language Model to Domain Specific RAG.”
  2. Lewis, P., et al. (2020). “Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks.”
  3. Hu, E., et al. (2021). “LoRA: Low-Rank Adaptation of Large Language Models.”