Skip to main content

Author

Chen Yufeng - Waseda University

Abstract

Machine translation quality ကို accurately assess ခြင်းနှင့် ၎င်း၏ accuracy ကို human translation နှင့် comparable level သို့ enhance လုပ်ခြင်း စိန်ခေါ်မှုကို ကျွန်ုပ်တို့ address လုပ်နေပါသည်။ ကျွန်ုပ်တို့၏ approach တွင် distinct benchmark translation models ငါးခု employ လုပ်ပြီး ၎င်းတို့၏ performance ကို diverse evaluation metrics သုံးခုဖြင့် evaluate လုပ်ခြင်း ပါဝင်ပါသည်။

မာတိကာ

  1. Introduction
  2. Dataset
  3. How To Evaluate Machine Translation Accuracy
  4. Five Basic Machine Translation Models And Their Accuracies
  5. Improve Machine Translation Accuracy
  6. Conclusion

1. Introduction

AI technology ၏ advancement နှင့်အတူ OpenAI မှ ChatGPT inception ကြောင့် လူများသည် AI industry ကို ပိုမို ယုံကြည်လာကြပါသည်။ Natural language processing realm ၏ pivotal component အဖြစ် machine translation သည် ever-growing significance ရရှိလာခဲ့ပါသည်။

2. Dataset

သုတေသနသည် Hugging Face တွင် ရရှိနိုင်သော Opus100 (ZH-EN) dataset အပေါ် center ပြုထားပါသည်။ ဤ dataset တွင် domains အမျိုးမျိုး span လုပ်သော Chinese-to-English translation instances တစ်သန်း ပါဝင်ပါသည်။
Opus100 Dataset

3. How To Evaluate Machine Translation Accuracy

Translation models အများအပြား ရှိသောအခါ specific purpose တစ်ခုအတွက် အသင့်တော်ဆုံးကို select ခြင်းသည် challenging ဖြစ်လာပါသည်။ Translation models များ assess ခြင်းအတွက် fundamental approaches နှစ်ခု ရှိပါသည်:
  1. Traditional method: BLEU score
  2. Neural metrics: BLEURT score နှင့် COMET score

3.1 BLEU Score

BLEU (Bilingual Evaluation Understudy) သည် natural language တစ်ခုမှ အခြား language သို့ machine-translate လုပ်ထားသော text ၏ quality evaluate ခြင်းအတွက် algorithm ဖြစ်ပါသည်။
BLEU တွင် limitations များ ရှိပါသည်: ၎င်းသည် word order နှင့် syntax ကို account မလုပ်ဘဲ fluency, idiomatic expressions, grammar နှင့် overall coherence capture မလုပ်ဘဲ n-gram overlaps ကိုသာ အဓိက rely လုပ်ပါသည်။

3.2 BLEURT Score

BLEURT သည် Natural Language Generation အတွက် evaluation metric ဖြစ်ပါသည်။ ၎င်းသည် sentences pair (reference နှင့် candidate) ကို input အဖြစ် ယူပြီး fluency နှင့် meaning preservation ကို indicate လုပ်သော score return ပြန်ပါသည်။

3.3 COMET Score

COMET သည် translation quality ၏ human judgments ကို predict ရန် design လုပ်ထားသော multilingual machine translation evaluation models များ train ခြင်းအတွက် neural framework ဖြစ်ပါသည်။

4. Five Basic Machine Translation Models And Their Accuracies

Models များ

  1. Azure Baseline Model
  2. Azure Custom Model
  3. DeepL Model
  4. Google Translator
  5. GPT-4 Model

Comparison And Conclusion

အဓိက တွေ့ရှိချက်များ:
  1. Azure Custom Model သည် top performer အဖြစ် ပေါ်ထွက်လာသည်
  2. DeepL သည် ဒုတိယ အနီးကပ် ရပ်တည်သည်
  3. Azure Baseline Model သည် တတိယနေရာ ယူသည်
  4. Google Translator နှင့် GPT-4 သည် similar standings share လုပ်သည်
DeepL သည် pre-training capabilities မရှိသော users များအတွက် Chinese to English translate ခြင်းအတွက် လက်ရှိ most effective model အဖြစ် distinction ရရှိထားပါသည်။

5. Improve Machine Translation Accuracy

Translation accuracy improve ခြင်းအတွက် distinct approaches သုံးခု:

5.1 In-Context Learning for GPT-4

Large language models များသည် prompts တွင် specific task examples ပေးခြင်းဖြင့် in-context learning မှတစ်ဆင့် performance improve လုပ်နိုင်ပါသည်။ Result: BLEURT score ကို 0.6486 မှ 0.6755 သို့ တိုးမြှင့်နိုင်ခဲ့ပြီး in-context learning ၏ effectiveness ကို demonstrate လုပ်ပါသည်။

5.2 Hybrid Model

Hybrid threshold model သည် specific threshold တစ်ခု establish လုပ်ပြီး certain sentences များသည် threshold ကို meet မဖြစ်သောအခါ different models များကို retranslate ရန် အသုံးပြုပါသည်။

Conclusions of Hybrid Model

  1. Optimal threshold သည် COMET score နှင့် align ဖြစ်သည်
  2. Best performance သည် Azure Custom + DeepL သို့မဟုတ် DeepL + GPT-4 မှ လာသည်
  3. Hybrid models အားလုံးနီးပါးသည် individual models များကို surpass လုပ်သည်
  4. Higher threshold သည် improved scores guarantee မလုပ်ပါ

5.3 GPT-4 as a Data Cleaning Tool

GPT-4 ကို datasets preprocess လုပ်ပြီး inaccurate translations correct ရန် အသုံးပြုနိုင်ပါသည်။
GPT-4 ကို original text နှင့် target text နှစ်ခုလုံးတွင် data cleaning အတွက် leverage လုပ်ခြင်းသည် viable ဖြစ်ပါသည်။ Refined dataset ပေါ်တွင် Azure baseline ၏ scores များသည် subpar dataset ပေါ်တွင် DeepL ၏ performance နှင့် align ဖြစ်နိုင်ပါသည်။

6. Conclusion

ဤစာတမ်းသည် evaluation metrics သုံးခုနှင့် benchmark models ငါးခုမှတစ်ဆင့် machine translation accuracy နှင့် enhancement methods များကို investigate လုပ်ခဲ့ပါသည်။ အဓိက Conclusions များ:
  1. DeepL သည် most proficient Chinese to English translator ဖြစ်သည်
  2. Azure Baseline Model သည် substantial data နှင့် adequate training ဖြင့် higher performance achieve လုပ်နိုင်သည်
  3. Hybrid models သည် different translation engines များ combine ပြီး accuracy improve လုပ်သည်
  4. GPT-4 data cleaning သည် dataset quality improve လုပ်ပြီး better model performance ဖြစ်စေသည်

References

  1. Papineni, K., et al. (2002). BLEU: A method for automatic evaluation of machine translation.
  2. Tom Brown et al. (2020). Language models are few-shot learners.
  3. Ricardo Rei (2022). COMET