Parallel corpora are data sets created by representing sentences with the same meaning in different languages. One of the most important elements that determine the quality in machine translation systems is the parallel corpora created in large quantities and with high quality. Such data for the Turkish – English language pair are generally insufficient. In this study, a large amount of parallel corpora has been created that can be used for academic translations between Turkish and English languages. While creating this data set, the abstracts of the postgraduate theses were used. The best matches were obtained using sentence alignment algorithms such as Vecalign and Hunalign. As a result of the studies, 1M parallel sentence pairs were obtained. In addition, an Bi-LSTM-based translation system was created to measure the quality of the obtained data. The created model obtained 15.8 Bleu points with zero-shot learning method on the TED (Tr-En) test set.
Parallel Corpora Neural Machine Translation Sentence Alignment Natural Language Processing.
Paralel corpora aynı anlama gelen cümlelerin farklı dillerde temsil edilmesiyle oluşturulan veri setleridir. Makine çeviri sistemlerinde kaliteyi belirleyen en önemli öğelerden birisi büyük miktarda ve yüksek kalitede oluşturulmuş paralel corporadır. Türkçe – İngilizce dil çifti için oluşturulan bu tür veriler genellikle yetersizdir. Bu çalışmada Türkçe – İngilizce dilleri arasında akademik çeviriler için kullanılabilecek büyük miktarda paralel corpora oluşturulmuştur. Bu veri seti oluşturulurken lisansüstü tezlerinin özet kısımları kullanılmıştır. Vecalign ve Hunalign gibi cümle hizalama algoritmaları kullanılarak en iyi eşleştirmeler elde edilmiştir. Yapılan çalışmalar sonucunda 1M paralel cümle çifti elde edilmiştir. Ayrıca elde edilen verinin kalitesini ölçebilmek için Bi-LSTM tabanlı çeviri sistemi oluşturulmuştur. Oluşturulan model TED(Tr-En) test seti üzerinde sıfır vuruş öğrenme (zero shot learning) yöntemiyle 15.8 Bleu puanı elde etmiştir.
Paralel Corpora Sinirsel Makine Çevirisi Cümle Hizalama Doğal Dil İşleme.
Birincil Dil | İngilizce |
---|---|
Konular | Yapay Zeka |
Bölüm | PAPERS |
Yazarlar | |
Yayımlanma Tarihi | 20 Ekim 2021 |
Gönderilme Tarihi | 3 Eylül 2021 |
Kabul Tarihi | 16 Eylül 2021 |
Yayımlandığı Sayı | Yıl 2021 Cilt: IDAP-2021 : 5th International Artificial Intelligence and Data Processing symposium Sayı: Special |
The Creative Commons Attribution 4.0 International License is applied to all research papers published by JCS and
a Digital Object Identifier (DOI) is assigned for each published paper.