Skip to main content

Penulis

Shuang LIANG - The University of Tokyo

Abstrak

Model Bahasa Besar (LLM) telah menunjukkan prestasi cemerlang dalam tugas bahasa semula jadi. Artikel ini meneroka penalaan halus Llama 3.1 untuk terjemahan mesin Cina-ke-Inggeris sambil menangani cabaran halusinasi melalui strategi latihan dan penyahkodan. Keputusan Utama:
  • Model ditala halus mencapai BLEU 40.8 vs garis dasar 19.6 pada data peringkat dokumen
  • COMET 0.891 vs garis dasar 0.820
  • Berjaya mengurangkan halusinasi dalam terjemahan konteks panjang
  • Mengekalkan kualiti peringkat ayat sambil meningkatkan prestasi peringkat dokumen

1. Latar Belakang

Model Bahasa Besar

LLM seperti Llama telah merevolusikan NLP, menunjukkan keupayaan luar biasa dalam memahami dan menjana teks seperti manusia. Mereka boleh ditala halus untuk tugas tertentu, menjadikannya sesuai untuk meningkatkan terjemahan mesin.

Penalaan Halus Cekap Parameter (LoRA)

LoRA (Low-Rank Adaptation) membolehkan penalaan halus tanpa mengemas kini semua parameter model:
  • Membekukan parameter model pra-latihan
  • Menyisipkan matriks peringkat rendah boleh latih
  • Mengurangkan kos dan masa latihan dengan ketara

Terjemahan Mesin Neural dan Halusinasi

Halusinasi dalam NMT merujuk kepada kandungan yang tidak setia, direka, atau tidak bermakna:
JenisPenerangan
Halusinasi IntrinsikOutput mengandungi maklumat salah berbanding sumber
Halusinasi EkstrinsikModel menjana kandungan tambahan yang tidak berkaitan
Halusinasi GangguanOutput yang berbeza secara drastik untuk input terganggu vs tidak terganggu
Halusinasi Semula JadiBerkaitan dengan bunyi dalam set data latihan

Strategi Penyahkodan

KaedahPenerangan
Carian TamakMemilih token kebarangkalian tertinggi setiap langkah
Carian BeamMempertimbangkan N urutan paling mungkin
Persampelan SuhuMelaraskan ketajaman taburan kebarangkalian
Persampelan Top-pMemilih dari token yang melebihi ambang kebarangkalian kumulatif
Persampelan Top-kMemilih dari k token paling mungkin

2. Eksperimen

Set Data

Set DataDokumenAyatPerkataan (src/tgt)
NewsCommentary-v18.111,147443,67716.4M/9.7M
Ted Talks221,94951K/32K

Metrik Penilaian

  • BLEU: Bilingual Evaluation Understudy - membandingkan n-gram dengan rujukan
  • COMET: Rangka kerja neural dengan korelasi terkini dengan penilaian manusia

Persekitaran

  • Model: Llama 3.1 8B Instruct
  • GPU: NVIDIA A100 (80GB)
  • Rangka Kerja: Unsloth untuk latihan dipercepat

Konfigurasi Penalaan Halus

model = FastLanguageModel.from_pretrained(
    model_name="unsloth/Meta-Llama-3.1-8B-Instruct",
    max_seq_length=max_seq_length,
    dtype=dtype,
    load_in_4bit=load_in_4bit
)

model = FastLanguageModel.get_peft_model(
    model,
    r=16,  # Peringkat LoRA
    target_modules=["q_proj", "k_proj", "v_proj",
                    "o_proj", "gate_proj", "up_proj", "down_proj"],
    lora_alpha=16,
    use_gradient_checkpointing="unsloth"
)

3. Keputusan

Prestasi Dalam Taburan (Peringkat Dokumen)

Sampel LatihanBLEUCOMET
1035.80.885
10036.90.889
1,00039.70.890
10,00040.80.891
Garis Dasar19.60.820
Penalaan halus meningkatkan BLEU lebih 100% berbanding garis dasar pada terjemahan peringkat dokumen.
Carta Prestasi Latihan

Prestasi latihan: Skor BLEU dan COMET vs sampel latihan

Keputusan Latihan Campuran Akhir

Menggunakan nisbah ayat-kepada-dokumen 30:1:
Peringkat PenilaianBLEU Ditala HalusCOMET Ditala HalusBLEU Garis DasarCOMET Garis Dasar
Peringkat dokumen37.70.89019.60.820
Peringkat ayat30.70.86230.90.864

Analisis Halusinasi

Jenis yang diperhatikan:
  1. Berhenti pramatang: Model menjana token EOS sebelum menyelesaikan terjemahan
  2. Kandungan berlebihan: Model peringkat dokumen menjana penjelasan panjang melangkaui terjemahan
Strategi mitigasi:
  • Penentuan ambang kebarangkalian token EOS
  • Latihan campuran peringkat dokumen/ayat
  • Penyediaan set data yang teliti
Model ditala halus peringkat dokumen cenderung menjana output panjang dengan pengetahuan terdahulu tersirat, kadangkala menghasilkan kandungan faktual tetapi di luar topik.

4. Kesimpulan

Dengan penyediaan set data yang betul dan teknik penalaan halus, adalah mungkin untuk:
  1. Meningkatkan kualiti terjemahan dengan ketara (peningkatan BLEU 2x)
  2. Mengurangkan isu halusinasi
  3. Mengekalkan kualiti peringkat ayat sambil meningkatkan prestasi peringkat dokumen
  4. Menghasilkan terjemahan yang lebih boleh dipercayai dan koheren

5. Kerja Masa Depan

  1. Menyediakan set data yang meliputi pelbagai senario input (gaya bahasa, latar belakang budaya, topik dialog)
  2. Mengimbangi jenis kandungan dalam data latihan untuk mengelakkan bias
  3. Menangani ralat entiti bernama melalui kaedah pasca-penjanaan
  4. Meneroka teknik mitigasi halusinasi tambahan

Rujukan

  1. Kocmi, T., et al. (2022). “Findings of the 2022 conference on machine translation (WMT22).”
  2. Hu, E., et al. (2021). “LoRA: Low-Rank Adaptation of Large Language Models.”
  3. Meta AI. (2024). “Llama 3.1 Model Documentation.”
  4. Ji, Z., et al. (2023). “Survey of Hallucination in Natural Language Generation.”