Skip to main content
Penulis: Chen Yufeng - Universiti Waseda

1. Pengenalan

Model bahasa besar (LLM) telah menunjukkan kemahiran yang mengagumkan dalam tugas hiliran melalui pengkondisian pada pasangan input-label. Mod inferens ini dipanggil pembelajaran dalam konteks (Brown et al. 2020). GPT-4 boleh meningkatkan keupayaan terjemahannya tanpa penalaan halus dengan menyediakan contoh tugas tertentu.
Pendekatan pembelajaran dalam konteks

Rajah 1: Pembelajaran dalam konteks untuk terjemahan Cina ke Inggeris menggunakan contoh few-shot

Keberkesanan pembelajaran dalam konteks berpunca dari Inferens Bayesian Tersirat (Xie et al. 2022). Pemilihan rawak contoh tidak dapat membantu GPT-4 memahami konsep prompt dengan berkesan. Objektif utama adalah pemilihan strategik contoh yang sesuai berdasarkan input pengguna.

2. Kaedah Dicadangkan

Metodologi ini mengandaikan akses kepada set data Ds yang mengandungi pasangan terjemahan. Pengambil teks (Gao 2023) mencari dan memilih K ayat teratas dengan makna serupa dengan prompt pengguna. Pengambil mempunyai dua komponen:
  1. Matriks TF-IDF - mengukur kekerapan istilah dan kekerapan dokumen songsang
  2. Kesamaan Kosinus - mengukur kesamaan antara vektor TF-IDF

Skor TF-IDF

Skor TF-IDF mengukur kepentingan perkataan dalam dokumen:
  • TF (Kekerapan Istilah): Berapa kerap perkataan muncul dalam dokumen
  • IDF (Kekerapan Dokumen Songsang): Kepentingan perkataan merentasi korpus

Kesamaan Kosinus

Kesamaan kosinus menilai kesamaan antara dua vektor dengan mempertimbangkan sudut antara representasi mereka. Skor yang lebih tinggi menunjukkan kesamaan yang lebih besar antara prompt pengguna dan dokumen set data.
Seni bina pengambil

Rajah 2: Menggunakan matriks TF-IDF dan kesamaan kosinus untuk memilih contoh top-K dari set data

3. Persediaan Eksperimen

3.1 Prosedur Eksperimen

Eksperimen meliputi tiga senario:
  1. Tanpa ICL: Terjemahan GPT-4 tanpa contoh pembelajaran dalam konteks
  2. ICL Rawak: Pemilihan rawak contoh terjemahan
  3. Kaedah Dicadangkan: Pengambil TF-IDF memilih 4 contoh teratas berdasarkan skor kesamaan

Metrik Penilaian

  • Skor BLEU: Membandingkan segmen yang diterjemahkan dengan terjemahan rujukan (Papineni et al. 2002)
  • Skor COMET: Rangka kerja neural untuk penilaian MT berbilang bahasa yang mencapai korelasi terkini dengan penilaian manusia (Rei et al. 2020)

3.2 Set Data

OPUS-100 (Zhang et al. 2020) dipilih kerana ia:
  • Mengandungi pasangan bahasa terjemahan yang pelbagai (ZH-EN, JA-EN, VI-EN)
  • Meliputi domain yang pelbagai untuk pemilihan contoh yang berkesan
Konfigurasi:
  • 10,000 contoh latihan setiap pasangan bahasa untuk Ds
  • 100 ayat pertama dari set ujian untuk penilaian

3.3 Pelaksanaan

Menggunakan TfidfVectorizer dan fungsi cosine_similarity scikit-learn:
  1. Gabungkan prompt pengguna dengan Ds
  2. Kira skor kesamaan kosinus antara prompt dan semua ayat
  3. Pilih 4 contoh teratas berdasarkan kesamaan
  4. Benamkan contoh ke dalam prompt GPT-4
Prompt GPT-4 dengan contoh

Rajah 3: Prompt akhir dengan empat contoh yang dikenal pasti oleh pengambil

4. Keputusan dan Perbincangan

Jadual keputusan

Jadual 1: Ketepatan terjemahan merentasi tiga senario untuk semua pasangan bahasa

Penemuan Utama:
  • Pendekatan yang dicadangkan menunjukkan ketepatan terjemahan unggul merentasi semua pasangan bahasa
  • Peningkatan 1% dalam skor BLEU adalah signifikan dalam terjemahan mesin
  • ICL rawak kadangkala berprestasi lebih teruk daripada tanpa ICL langsung
  • Ini menyerlahkan kepentingan pemilihan contoh yang bijaksana

Impak Saiz Set Data

Impak saiz set data

Jadual 2: Ketepatan terjemahan dengan saiz set data yang berbeza

Ujian dengan 1 juta ayat mengesahkan bahawa set data Ds yang lebih besar meningkatkan keberkesanan pembelajaran tugas GPT-4.

5. Kesimpulan dan Langkah Seterusnya

Kertas ini memperkenalkan kaedah untuk meningkatkan terjemahan GPT-4 melalui pembelajaran dalam konteks dengan pengambilan TF-IDF. Pendekatan ini:
  • Membina pengambil menggunakan matriks TF-IDF dan kesamaan kosinus
  • Memilih ayat yang sejajar rapat dengan prompt pengguna
  • Menunjukkan peningkatan dalam kedua-dua skor BLEU dan COMET
Hala Tuju Penyelidikan Masa Depan:
  1. Pembinaan Set Data: Mencipta set data terjemahan komprehensif berkualiti tinggi merentasi domain
  2. Kuantiti Contoh: Menyiasat impak menggunakan 5 atau 10 contoh berbanding 4

6. Rujukan

  1. Brown, T., et al. (2020). “Language models are few-shot learners.”
  2. Xie, S. M., et al. (2022). “An Explanation of In-context Learning as Implicit Bayesian Inference.”
  3. Bashir, D. (2023). “In-Context Learning, in Context.” The Gradient.
  4. Das, R., et al. (2021). “Case-based reasoning for natural language queries over knowledge bases.”
  5. Liu, J., et al. (2022). “What makes good in-context examples for GPT-3?”
  6. Margatina, K., et al. (2023). “Active learning principles for in-context learning with large language models.”
  7. Gao, L., et al. (2023). “Ambiguity-Aware In-Context Learning with Large Language Models.”
  8. Papineni, K., et al. (2002). “BLEU: A method for automatic evaluation of machine translation.”
  9. Rei, R., et al. (2020). “COMET: A Neural Framework for MT Evaluation.”
  10. Zhang, B., et al. (2020). “Improving Massively Multilingual Neural Machine Translation and Zero-Shot Translation.”