Author
Chen Yufeng - Waseda University
Abstract
Machine translation quality ကို accurately assess ခြင်းနှင့် ၎င်း၏ accuracy ကို human translation နှင့် comparable level သို့ enhance လုပ်ခြင်း စိန်ခေါ်မှုကို ကျွန်ုပ်တို့ address လုပ်နေပါသည်။ ကျွန်ုပ်တို့၏ approach တွင် distinct benchmark translation models ငါးခု employ လုပ်ပြီး ၎င်းတို့၏ performance ကို diverse evaluation metrics သုံးခုဖြင့် evaluate လုပ်ခြင်း ပါဝင်ပါသည်။
မာတိကာ
- Introduction
- Dataset
- How To Evaluate Machine Translation Accuracy
- Five Basic Machine Translation Models And Their Accuracies
- Improve Machine Translation Accuracy
- Conclusion
1. Introduction
AI technology ၏ advancement နှင့်အတူ OpenAI မှ ChatGPT inception ကြောင့် လူများသည် AI industry ကို ပိုမို ယုံကြည်လာကြပါသည်။ Natural language processing realm ၏ pivotal component အဖြစ် machine translation သည် ever-growing significance ရရှိလာခဲ့ပါသည်။
2. Dataset
သုတေသနသည် Hugging Face တွင် ရရှိနိုင်သော Opus100 (ZH-EN) dataset အပေါ် center ပြုထားပါသည်။ ဤ dataset တွင် domains အမျိုးမျိုး span လုပ်သော Chinese-to-English translation instances တစ်သန်း ပါဝင်ပါသည်။
3. How To Evaluate Machine Translation Accuracy
Translation models အများအပြား ရှိသောအခါ specific purpose တစ်ခုအတွက် အသင့်တော်ဆုံးကို select ခြင်းသည် challenging ဖြစ်လာပါသည်။ Translation models များ assess ခြင်းအတွက် fundamental approaches နှစ်ခု ရှိပါသည်:
- Traditional method: BLEU score
- Neural metrics: BLEURT score နှင့် COMET score
3.1 BLEU Score
BLEU (Bilingual Evaluation Understudy) သည် natural language တစ်ခုမှ အခြား language သို့ machine-translate လုပ်ထားသော text ၏ quality evaluate ခြင်းအတွက် algorithm ဖြစ်ပါသည်။
BLEU တွင် limitations များ ရှိပါသည်: ၎င်းသည် word order နှင့် syntax ကို account မလုပ်ဘဲ fluency, idiomatic expressions, grammar နှင့် overall coherence capture မလုပ်ဘဲ n-gram overlaps ကိုသာ အဓိက rely လုပ်ပါသည်။
3.2 BLEURT Score
BLEURT သည် Natural Language Generation အတွက် evaluation metric ဖြစ်ပါသည်။ ၎င်းသည် sentences pair (reference နှင့် candidate) ကို input အဖြစ် ယူပြီး fluency နှင့် meaning preservation ကို indicate လုပ်သော score return ပြန်ပါသည်။
3.3 COMET Score
COMET သည် translation quality ၏ human judgments ကို predict ရန် design လုပ်ထားသော multilingual machine translation evaluation models များ train ခြင်းအတွက် neural framework ဖြစ်ပါသည်။
4. Five Basic Machine Translation Models And Their Accuracies
Models များ
- Azure Baseline Model
- Azure Custom Model
- DeepL Model
- Google Translator
- GPT-4 Model
Comparison And Conclusion
အဓိက တွေ့ရှိချက်များ:
- Azure Custom Model သည် top performer အဖြစ် ပေါ်ထွက်လာသည်
- DeepL သည် ဒုတိယ အနီးကပ် ရပ်တည်သည်
- Azure Baseline Model သည် တတိယနေရာ ယူသည်
- Google Translator နှင့် GPT-4 သည် similar standings share လုပ်သည်
DeepL သည် pre-training capabilities မရှိသော users များအတွက် Chinese to English translate ခြင်းအတွက် လက်ရှိ most effective model အဖြစ် distinction ရရှိထားပါသည်။
5. Improve Machine Translation Accuracy
Translation accuracy improve ခြင်းအတွက် distinct approaches သုံးခု:
5.1 In-Context Learning for GPT-4
Large language models များသည် prompts တွင် specific task examples ပေးခြင်းဖြင့် in-context learning မှတစ်ဆင့် performance improve လုပ်နိုင်ပါသည်။
Result: BLEURT score ကို 0.6486 မှ 0.6755 သို့ တိုးမြှင့်နိုင်ခဲ့ပြီး in-context learning ၏ effectiveness ကို demonstrate လုပ်ပါသည်။
5.2 Hybrid Model
Hybrid threshold model သည် specific threshold တစ်ခု establish လုပ်ပြီး certain sentences များသည် threshold ကို meet မဖြစ်သောအခါ different models များကို retranslate ရန် အသုံးပြုပါသည်။
Conclusions of Hybrid Model
- Optimal threshold သည် COMET score နှင့် align ဖြစ်သည်
- Best performance သည် Azure Custom + DeepL သို့မဟုတ် DeepL + GPT-4 မှ လာသည်
- Hybrid models အားလုံးနီးပါးသည် individual models များကို surpass လုပ်သည်
- Higher threshold သည် improved scores guarantee မလုပ်ပါ
GPT-4 ကို datasets preprocess လုပ်ပြီး inaccurate translations correct ရန် အသုံးပြုနိုင်ပါသည်။
GPT-4 ကို original text နှင့် target text နှစ်ခုလုံးတွင် data cleaning အတွက် leverage လုပ်ခြင်းသည် viable ဖြစ်ပါသည်။ Refined dataset ပေါ်တွင် Azure baseline ၏ scores များသည် subpar dataset ပေါ်တွင် DeepL ၏ performance နှင့် align ဖြစ်နိုင်ပါသည်။
6. Conclusion
ဤစာတမ်းသည် evaluation metrics သုံးခုနှင့် benchmark models ငါးခုမှတစ်ဆင့် machine translation accuracy နှင့် enhancement methods များကို investigate လုပ်ခဲ့ပါသည်။
အဓိက Conclusions များ:
- DeepL သည် most proficient Chinese to English translator ဖြစ်သည်
- Azure Baseline Model သည် substantial data နှင့် adequate training ဖြင့် higher performance achieve လုပ်နိုင်သည်
- Hybrid models သည် different translation engines များ combine ပြီး accuracy improve လုပ်သည်
- GPT-4 data cleaning သည် dataset quality improve လုပ်ပြီး better model performance ဖြစ်စေသည်
References
- Papineni, K., et al. (2002). BLEU: A method for automatic evaluation of machine translation.
- Tom Brown et al. (2020). Language models are few-shot learners.
- Ricardo Rei (2022). COMET