Abstract
"在“一带一路”倡议持续推进的背景下,中国与中亚国家交流日益深化,对高质量的跨语言信息处理技术提出了迫切需求。然而,中文与中亚国家语言之间的平行语料库资源极度匮乏,且现有资源质量参差不齐,严重制约了机器翻译、跨语言信息检索、情感分析等下游任务的发展。针对中亚国家低资源语言,本文提出一种融合神经机器翻译(NMT)与跨语言语义匹配的平行语料构建框架。该方法通过定向爬取中亚国家官方渠道的单语新闻数据,利用DeepSeek模型的多语言翻译能力生成伪平行句对,再通过LaBSE 模型获取跨语言句子嵌入向量,基于余弦相似度动态阈值和边距实现噪声过滤。实验表明,该方法在BLEU分数指标上比较传统回译方法提升了0.65,最终构建包含8 万句对的多领域平行语料库,覆盖政治、经济、文化等核心领域,该语料库为提升中亚低资源语言的机器翻译、跨语言信息检索、文本分类等下游任务的生成质量奠定了坚实的基础。"
- Anthology ID:
- 2025.ccl-1.36
- Volume:
- Proceedings of the 24th China National Conference on Computational Linguistics (CCL 2025)
- Month:
- August
- Year:
- 2025
- Address:
- Jinan, China
- Editors:
- Maosong Sun, Peiyong Duan, Zhiyuan Liu, Ruifeng Xu, Weiwei Sun
- Venue:
- CCL
- SIG:
- Publisher:
- Chinese Information Processing Society of China
- Note:
- Pages:
- 488–499
- Language:
- URL:
- https://aclanthology.org/2025.ccl-1.36/
- DOI:
- Bibkey:
- Cite (ACL):
- YuanQi YuanQi and Alim Murat. 2025. 基于LLM与跨语言嵌入的中亚低资源语言平行语料库构建方法. In Proceedings of the 24th China National Conference on Computational Linguistics (CCL 2025), pages 488–499, Jinan, China. Chinese Information Processing Society of China.
- Cite (Informal):
- 基于LLM与跨语言嵌入的中亚低资源语言平行语料库构建方法 (YuanQi & Murat, CCL 2025)
- Copy Citation:
- PDF:
- https://aclanthology.org/2025.ccl-1.36.pdf


























