Penulis
Shuang LIANG - The University of Tokyo
Abstrak
Model Bahasa Besar (LLM) telah menunjukkan prestasi cemerlang dalam tugas bahasa semula jadi. Artikel ini meneroka penalaan halus Llama 3.1 untuk terjemahan mesin Cina-ke-Inggeris sambil menangani cabaran halusinasi melalui strategi latihan dan penyahkodan.
Keputusan Utama:
- Model ditala halus mencapai BLEU 40.8 vs garis dasar 19.6 pada data peringkat dokumen
- COMET 0.891 vs garis dasar 0.820
- Berjaya mengurangkan halusinasi dalam terjemahan konteks panjang
- Mengekalkan kualiti peringkat ayat sambil meningkatkan prestasi peringkat dokumen
1. Latar Belakang
Model Bahasa Besar
LLM seperti Llama telah merevolusikan NLP, menunjukkan keupayaan luar biasa dalam memahami dan menjana teks seperti manusia. Mereka boleh ditala halus untuk tugas tertentu, menjadikannya sesuai untuk meningkatkan terjemahan mesin.
Penalaan Halus Cekap Parameter (LoRA)
LoRA (Low-Rank Adaptation) membolehkan penalaan halus tanpa mengemas kini semua parameter model:
- Membekukan parameter model pra-latihan
- Menyisipkan matriks peringkat rendah boleh latih
- Mengurangkan kos dan masa latihan dengan ketara
Terjemahan Mesin Neural dan Halusinasi
Halusinasi dalam NMT merujuk kepada kandungan yang tidak setia, direka, atau tidak bermakna:
| Jenis | Penerangan |
|---|
| Halusinasi Intrinsik | Output mengandungi maklumat salah berbanding sumber |
| Halusinasi Ekstrinsik | Model menjana kandungan tambahan yang tidak berkaitan |
| Halusinasi Gangguan | Output yang berbeza secara drastik untuk input terganggu vs tidak terganggu |
| Halusinasi Semula Jadi | Berkaitan dengan bunyi dalam set data latihan |
Strategi Penyahkodan
| Kaedah | Penerangan |
|---|
| Carian Tamak | Memilih token kebarangkalian tertinggi setiap langkah |
| Carian Beam | Mempertimbangkan N urutan paling mungkin |
| Persampelan Suhu | Melaraskan ketajaman taburan kebarangkalian |
| Persampelan Top-p | Memilih dari token yang melebihi ambang kebarangkalian kumulatif |
| Persampelan Top-k | Memilih dari k token paling mungkin |
2. Eksperimen
Set Data
| Set Data | Dokumen | Ayat | Perkataan (src/tgt) |
|---|
| NewsCommentary-v18.1 | 11,147 | 443,677 | 16.4M/9.7M |
| Ted Talks | 22 | 1,949 | 51K/32K |
Metrik Penilaian
- BLEU: Bilingual Evaluation Understudy - membandingkan n-gram dengan rujukan
- COMET: Rangka kerja neural dengan korelasi terkini dengan penilaian manusia
Persekitaran
- Model: Llama 3.1 8B Instruct
- GPU: NVIDIA A100 (80GB)
- Rangka Kerja: Unsloth untuk latihan dipercepat
Konfigurasi Penalaan Halus
model = FastLanguageModel.from_pretrained(
model_name="unsloth/Meta-Llama-3.1-8B-Instruct",
max_seq_length=max_seq_length,
dtype=dtype,
load_in_4bit=load_in_4bit
)
model = FastLanguageModel.get_peft_model(
model,
r=16, # Peringkat LoRA
target_modules=["q_proj", "k_proj", "v_proj",
"o_proj", "gate_proj", "up_proj", "down_proj"],
lora_alpha=16,
use_gradient_checkpointing="unsloth"
)
3. Keputusan
Prestasi Dalam Taburan (Peringkat Dokumen)
| Sampel Latihan | BLEU | COMET |
|---|
| 10 | 35.8 | 0.885 |
| 100 | 36.9 | 0.889 |
| 1,000 | 39.7 | 0.890 |
| 10,000 | 40.8 | 0.891 |
| Garis Dasar | 19.6 | 0.820 |
Penalaan halus meningkatkan BLEU lebih 100% berbanding garis dasar pada terjemahan peringkat dokumen.
Prestasi latihan: Skor BLEU dan COMET vs sampel latihan
Keputusan Latihan Campuran Akhir
Menggunakan nisbah ayat-kepada-dokumen 30:1:
| Peringkat Penilaian | BLEU Ditala Halus | COMET Ditala Halus | BLEU Garis Dasar | COMET Garis Dasar |
|---|
| Peringkat dokumen | 37.7 | 0.890 | 19.6 | 0.820 |
| Peringkat ayat | 30.7 | 0.862 | 30.9 | 0.864 |
Analisis Halusinasi
Jenis yang diperhatikan:
- Berhenti pramatang: Model menjana token EOS sebelum menyelesaikan terjemahan
- Kandungan berlebihan: Model peringkat dokumen menjana penjelasan panjang melangkaui terjemahan
Strategi mitigasi:
- Penentuan ambang kebarangkalian token EOS
- Latihan campuran peringkat dokumen/ayat
- Penyediaan set data yang teliti
Model ditala halus peringkat dokumen cenderung menjana output panjang dengan pengetahuan terdahulu tersirat, kadangkala menghasilkan kandungan faktual tetapi di luar topik.
4. Kesimpulan
Dengan penyediaan set data yang betul dan teknik penalaan halus, adalah mungkin untuk:
- Meningkatkan kualiti terjemahan dengan ketara (peningkatan BLEU 2x)
- Mengurangkan isu halusinasi
- Mengekalkan kualiti peringkat ayat sambil meningkatkan prestasi peringkat dokumen
- Menghasilkan terjemahan yang lebih boleh dipercayai dan koheren
5. Kerja Masa Depan
- Menyediakan set data yang meliputi pelbagai senario input (gaya bahasa, latar belakang budaya, topik dialog)
- Mengimbangi jenis kandungan dalam data latihan untuk mengelakkan bias
- Menangani ralat entiti bernama melalui kaedah pasca-penjanaan
- Meneroka teknik mitigasi halusinasi tambahan
Rujukan
- Kocmi, T., et al. (2022). “Findings of the 2022 conference on machine translation (WMT22).”
- Hu, E., et al. (2021). “LoRA: Low-Rank Adaptation of Large Language Models.”
- Meta AI. (2024). “Llama 3.1 Model Documentation.”
- Ji, Z., et al. (2023). “Survey of Hallucination in Natural Language Generation.”