लेखक
Chen Yufeng - Waseda University
सारांश
हामी मेशिन अनुवाद गुणस्तरको सही मूल्यांकन गर्ने चुनौतीलाई सम्बोधन गर्दै यसको सटीकतालाई मानव अनुवादसँग तुलनायोग्य स्तरमा बढाउने प्रयास गर्दैछौं। हाम्रो दृष्टिकोणले पाँच भिन्न benchmark अनुवाद मोडेलहरू प्रयोग गर्दछ र तीन विविध मूल्यांकन metrics प्रयोग गरेर तिनीहरूको प्रदर्शन मूल्यांकन गर्दछ।
विषयसूची
- परिचय
- Dataset
- मेशिन अनुवाद सटीकता कसरी मूल्यांकन गर्ने
- पाँच आधारभूत मेशिन अनुवाद मोडेलहरू र तिनीहरूको सटीकता
- मेशिन अनुवाद सटीकता सुधार
- निष्कर्ष
- सन्दर्भहरू
1. परिचय
AI प्रविधिको प्रगतिको साथ, विशेष गरी OpenAI द्वारा ChatGPT को सुरुवात पछि, मानिसहरूले AI उद्योगमा बढ्दो विश्वास राख्दैछन्। प्राकृतिक भाषा प्रशोधनको क्षेत्रमा एक महत्त्वपूर्ण घटकको रूपमा, मेशिन अनुवादले बढ्दो महत्त्व प्राप्त गरेको छ।
2. Dataset
अनुसन्धान Hugging Face मा उपलब्ध Opus100 (ZH-EN) dataset मा केन्द्रित छ। यो dataset मा विभिन्न डोमेनहरूमा फैलिएको दस लाख चिनियाँ-देखि-अंग्रेजी अनुवाद instances छन्।
3. मेशिन अनुवाद सटीकता कसरी मूल्यांकन गर्ने
3.1 BLEU स्कोर
BLEU (Bilingual Evaluation Understudy) एक प्राकृतिक भाषाबाट अर्कोमा मेशिन-अनुवादित पाठको गुणस्तर मूल्यांकन गर्ने algorithm हो।
3.2 BLEURT स्कोर
BLEURT Natural Language Generation को लागि मूल्यांकन metric हो। यसले इनपुटको रूपमा वाक्यहरूको जोडी (reference र candidate) लिन्छ र fluency र अर्थ संरक्षण संकेत गर्ने स्कोर फर्काउँछ।
3.3 COMET स्कोर
COMET बहुभाषी मेशिन अनुवाद मूल्यांकन मोडेलहरू प्रशिक्षणको लागि neural framework हो।
4. पाँच आधारभूत मेशिन अनुवाद मोडेलहरू र तिनीहरूको सटीकता
4.1 Azure Baseline Model
4.2 Azure Custom Model
4.3 DeepL Model
4.4 Google Translator
4.5 GPT-4 Model
4.6 तुलना र निष्कर्ष
मुख्य निष्कर्षहरू:
- Azure Custom Model शीर्ष प्रदर्शनकर्ताको रूपमा देखिन्छ
- DeepL दोस्रो स्थानमा नजिक छ
- Azure Baseline Model तेस्रो स्थानमा दावी गर्छ
- Google Translator र GPT-4 समान स्थानमा छन्
DeepL हाल चिनियाँ देखि अंग्रेजी अनुवाद गर्ने सबैभन्दा प्रभावकारी मोडेलको विशिष्टता राख्छ, विशेष गरी जब प्रयोगकर्ताहरूसँग पूर्व-प्रशिक्षण क्षमताहरू छैनन्।
5. मेशिन अनुवाद सटीकता सुधार
5.1 GPT-4 को लागि In-Context Learning
ठूला भाषा मोडेलहरूले prompts मा विशिष्ट कार्य उदाहरणहरू प्रदान गरेर in-context learning मार्फत प्रदर्शन सुधार गर्न सक्छन्।
परिणाम: BLEURT स्कोर 0.6486 बाट 0.6755 मा बढाइयो।
5.2 Hybrid Model
Hybrid threshold मोडेलले एक विशिष्ट threshold स्थापना गर्छ, र निश्चित वाक्यहरूले threshold पूरा नगर्दा विभिन्न मोडेलहरू पुन: अनुवाद गर्न प्रयोग गरिन्छ।
5.3 डाटा सफाई उपकरणको रूपमा GPT-4
GPT-4 datasets पूर्वप्रशोधन गर्न र अशुद्ध अनुवादहरू सुधार गर्न प्रयोग गर्न सकिन्छ।
6. निष्कर्ष
यो कागजातले तीन मूल्यांकन metrics र पाँच benchmark मोडेलहरू मार्फत मेशिन अनुवाद सटीकता र बृद्धिका विधिहरू अन्वेषण गर्यो।
मुख्य निष्कर्षहरू:
- DeepL सबैभन्दा दक्ष चिनियाँ देखि अंग्रेजी अनुवादक हो
- Azure Baseline Model ले पर्याप्त डाटा र प्रशिक्षणको साथ उच्च प्रदर्शन प्राप्त गर्न सक्छ
- Hybrid मोडेलहरू ले विभिन्न अनुवाद इन्जिनहरू संयोजन गरेर सटीकता सुधार गर्छन्
- GPT-4 डाटा सफाई ले dataset गुणस्तर सुधार गर्छ, राम्रो मोडेल प्रदर्शनमा नेतृत्व गर्छ
7. सन्दर्भहरू
- Papineni, K., et al. (2002). BLEU: A method for automatic evaluation of machine translation.
- Thibault Sellam (2021). BLEURT
- Tom Brown et al. (2020). Language models are few-shot learners.
- Amr Hendy et al. (2023). How Good Are GPT Models at Machine Translation? Microsoft.