Evaluate Machine Translation And Improve Accuracy

Author
Abstract
မာတိကာ
1. Introduction
2. Dataset
3. How To Evaluate Machine Translation Accuracy
3.1 BLEU Score
3.2 BLEURT Score
3.3 COMET Score
4. Five Basic Machine Translation Models And Their Accuracies
Models များ
Comparison And Conclusion
5. Improve Machine Translation Accuracy
5.1 In-Context Learning for GPT-4
5.2 Hybrid Model
Conclusions of Hybrid Model
5.3 GPT-4 as a Data Cleaning Tool
6. Conclusion
References

Author

Chen Yufeng - Waseda University

Abstract

Machine translation quality ကို accurately assess ခြင်းနှင့် ၎င်း၏ accuracy ကို human translation နှင့် comparable level သို့ enhance လုပ်ခြင်း စိန်ခေါ်မှုကို ကျွန်ုပ်တို့ address လုပ်နေပါသည်။ ကျွန်ုပ်တို့၏ approach တွင် distinct benchmark translation models ငါးခု employ လုပ်ပြီး ၎င်းတို့၏ performance ကို diverse evaluation metrics သုံးခုဖြင့် evaluate လုပ်ခြင်း ပါဝင်ပါသည်။

မာတိကာ

Introduction
Dataset
How To Evaluate Machine Translation Accuracy
Five Basic Machine Translation Models And Their Accuracies
Improve Machine Translation Accuracy
Conclusion

1. Introduction

AI technology ၏ advancement နှင့်အတူ OpenAI မှ ChatGPT inception ကြောင့် လူများသည် AI industry ကို ပိုမို ယုံကြည်လာကြပါသည်။ Natural language processing realm ၏ pivotal component အဖြစ် machine translation သည် ever-growing significance ရရှိလာခဲ့ပါသည်။

2. Dataset

သုတေသနသည် Hugging Face တွင် ရရှိနိုင်သော Opus100 (ZH-EN) dataset အပေါ် center ပြုထားပါသည်။ ဤ dataset တွင် domains အမျိုးမျိုး span လုပ်သော Chinese-to-English translation instances တစ်သန်း ပါဝင်ပါသည်။

3. How To Evaluate Machine Translation Accuracy

Translation models အများအပြား ရှိသောအခါ specific purpose တစ်ခုအတွက် အသင့်တော်ဆုံးကို select ခြင်းသည် challenging ဖြစ်လာပါသည်။ Translation models များ assess ခြင်းအတွက် fundamental approaches နှစ်ခု ရှိပါသည်:

Traditional method: BLEU score
Neural metrics: BLEURT score နှင့် COMET score

3.1 BLEU Score

BLEU (Bilingual Evaluation Understudy) သည် natural language တစ်ခုမှ အခြား language သို့ machine-translate လုပ်ထားသော text ၏ quality evaluate ခြင်းအတွက် algorithm ဖြစ်ပါသည်။

BLEU တွင် limitations များ ရှိပါသည်: ၎င်းသည် word order နှင့် syntax ကို account မလုပ်ဘဲ fluency, idiomatic expressions, grammar နှင့် overall coherence capture မလုပ်ဘဲ n-gram overlaps ကိုသာ အဓိက rely လုပ်ပါသည်။

3.2 BLEURT Score

BLEURT သည် Natural Language Generation အတွက် evaluation metric ဖြစ်ပါသည်။ ၎င်းသည် sentences pair (reference နှင့် candidate) ကို input အဖြစ် ယူပြီး fluency နှင့် meaning preservation ကို indicate လုပ်သော score return ပြန်ပါသည်။

3.3 COMET Score

COMET သည် translation quality ၏ human judgments ကို predict ရန် design လုပ်ထားသော multilingual machine translation evaluation models များ train ခြင်းအတွက် neural framework ဖြစ်ပါသည်။

4. Five Basic Machine Translation Models And Their Accuracies

Models များ

Azure Baseline Model
Azure Custom Model
DeepL Model
Google Translator
GPT-4 Model

Comparison And Conclusion

အဓိက တွေ့ရှိချက်များ:

Azure Custom Model သည် top performer အဖြစ် ပေါ်ထွက်လာသည်
DeepL သည် ဒုတိယ အနီးကပ် ရပ်တည်သည်
Azure Baseline Model သည် တတိယနေရာ ယူသည်
Google Translator နှင့် GPT-4 သည် similar standings share လုပ်သည်

DeepL သည် pre-training capabilities မရှိသော users များအတွက် Chinese to English translate ခြင်းအတွက် လက်ရှိ most effective model အဖြစ် distinction ရရှိထားပါသည်။

5. Improve Machine Translation Accuracy

Translation accuracy improve ခြင်းအတွက် distinct approaches သုံးခု:

5.1 In-Context Learning for GPT-4

Large language models များသည် prompts တွင် specific task examples ပေးခြင်းဖြင့် in-context learning မှတစ်ဆင့် performance improve လုပ်နိုင်ပါသည်။ Result: BLEURT score ကို 0.6486 မှ 0.6755 သို့ တိုးမြှင့်နိုင်ခဲ့ပြီး in-context learning ၏ effectiveness ကို demonstrate လုပ်ပါသည်။

5.2 Hybrid Model

Hybrid threshold model သည် specific threshold တစ်ခု establish လုပ်ပြီး certain sentences များသည် threshold ကို meet မဖြစ်သောအခါ different models များကို retranslate ရန် အသုံးပြုပါသည်။

Conclusions of Hybrid Model

Optimal threshold သည် COMET score နှင့် align ဖြစ်သည်
Best performance သည် Azure Custom + DeepL သို့မဟုတ် DeepL + GPT-4 မှ လာသည်
Hybrid models အားလုံးနီးပါးသည် individual models များကို surpass လုပ်သည်
Higher threshold သည် improved scores guarantee မလုပ်ပါ

5.3 GPT-4 as a Data Cleaning Tool

GPT-4 ကို datasets preprocess လုပ်ပြီး inaccurate translations correct ရန် အသုံးပြုနိုင်ပါသည်။

GPT-4 ကို original text နှင့် target text နှစ်ခုလုံးတွင် data cleaning အတွက် leverage လုပ်ခြင်းသည် viable ဖြစ်ပါသည်။ Refined dataset ပေါ်တွင် Azure baseline ၏ scores များသည် subpar dataset ပေါ်တွင် DeepL ၏ performance နှင့် align ဖြစ်နိုင်ပါသည်။

6. Conclusion

ဤစာတမ်းသည် evaluation metrics သုံးခုနှင့် benchmark models ငါးခုမှတစ်ဆင့် machine translation accuracy နှင့် enhancement methods များကို investigate လုပ်ခဲ့ပါသည်။ အဓိက Conclusions များ:

DeepL သည် most proficient Chinese to English translator ဖြစ်သည်
Azure Baseline Model သည် substantial data နှင့် adequate training ဖြင့် higher performance achieve လုပ်နိုင်သည်
Hybrid models သည် different translation engines များ combine ပြီး accuracy improve လုပ်သည်
GPT-4 data cleaning သည် dataset quality improve လုပ်ပြီး better model performance ဖြစ်စေသည်

References

Papineni, K., et al. (2002). BLEU: A method for automatic evaluation of machine translation.
Tom Brown et al. (2020). Language models are few-shot learners.
Ricardo Rei (2022). COMET

ASR Fine-Tuning (Aug 2023)ASR LLM Training (Aug 2023)

⌘I

စတင်ခြင်း

အမြန်စတင်လမ်းညွှန်

စျေးနှုန်းနှင့် အစီအစဉ်များ

တိုက်ရိုက်စာတန်းထိုးနှင့် ဝဘ်ဆီမီနာများ

PC အသံဘာသာပြန်

စာတန်းထိုး၊ မိနစ်နှင့် အဘိဓာန်

မိုဘိုင်းအက်ပ်

စီမံခန့်ခွဲသူအင်္ဂါရပ်များ

SSO ပြင်ဆင်သတ်မှတ်ခြင်း

Virtual Office

ကုန်ထုတ်စွမ်းအားစီမံခန့်ခွဲမှု

ပံ့ပိုးမှုနှင့် FAQ

သုတေသန

အလုပ်ခေါ်ယူခြင်း

ဥပဒေရေးရာနှင့် လုံခြုံရေး

Author

Abstract

မာတိကာ

1. Introduction

2. Dataset

3. How To Evaluate Machine Translation Accuracy

3.1 BLEU Score

3.2 BLEURT Score

3.3 COMET Score

4. Five Basic Machine Translation Models And Their Accuracies

Models များ

Comparison And Conclusion

5. Improve Machine Translation Accuracy

5.1 In-Context Learning for GPT-4

5.2 Hybrid Model

Conclusions of Hybrid Model

5.3 GPT-4 as a Data Cleaning Tool

6. Conclusion

References

စတင်ခြင်း

အမြန်စတင်လမ်းညွှန်

စျေးနှုန်းနှင့် အစီအစဉ်များ

တိုက်ရိုက်စာတန်းထိုးနှင့် ဝဘ်ဆီမီနာများ

PC အသံဘာသာပြန်

စာတန်းထိုး၊ မိနစ်နှင့် အဘိဓာန်

မိုဘိုင်းအက်ပ်

စီမံခန့်ခွဲသူအင်္ဂါရပ်များ

SSO ပြင်ဆင်သတ်မှတ်ခြင်း

Virtual Office

ကုန်ထုတ်စွမ်းအားစီမံခန့်ခွဲမှု

ပံ့ပိုးမှုနှင့် FAQ

သုတေသန

အလုပ်ခေါ်ယူခြင်း

ဥပဒေရေးရာနှင့် လုံခြုံရေး

​Author

​Abstract

​မာတိကာ

​1. Introduction

​2. Dataset

​3. How To Evaluate Machine Translation Accuracy

​3.1 BLEU Score

​3.2 BLEURT Score

​3.3 COMET Score

​4. Five Basic Machine Translation Models And Their Accuracies

​Models များ

​Comparison And Conclusion

​5. Improve Machine Translation Accuracy

​5.1 In-Context Learning for GPT-4

​5.2 Hybrid Model

​Conclusions of Hybrid Model

​5.3 GPT-4 as a Data Cleaning Tool

​6. Conclusion

​References

Author

Abstract

မာတိကာ

1. Introduction

2. Dataset

3. How To Evaluate Machine Translation Accuracy

3.1 BLEU Score

3.2 BLEURT Score

3.3 COMET Score

4. Five Basic Machine Translation Models And Their Accuracies

Models များ

Comparison And Conclusion

5. Improve Machine Translation Accuracy

5.1 In-Context Learning for GPT-4

5.2 Hybrid Model

Conclusions of Hybrid Model

5.3 GPT-4 as a Data Cleaning Tool

6. Conclusion

References