阿拉伯语语言大模型 (ALM 1.0)

12月 1, 2022

北京智源人工智能研究院认知模型与数据研究团队与埃及阿拉伯科技与海运学院（AASTMT）、亚历山大图书馆（BA）、阿布扎比阿联酋起源人工智能研究院（IIAI）等阿拉伯语国家和地区优势高校院所和科研机构合作，构建了目前全球数据量最大的开源阿拉伯语预训练数据集ArabicText 2022，可用于阿拉伯语语言模型的训练。

通过对现有可用的阿拉伯语网络文本数据进行收集、整理、扩充和清洗，我们最终获得了200GB+的高质量预训练文本。在数据清洗过程中，我们基于支撑WuDaoCorpora的网页文本深度清洗工具WudaoCleaner，针对阿语进行了高度适配和优化，同时我们将开源的阿语文本清洗库ArabertPreprocessor融入清洗流程中，保证了清洗后的文本质量。相较于现有开源阿语文本数据集，我们此次开源的数据集的体量为全球最大，且新闻、资讯、百科等文字与知识富集类数据占比超过65%，有利于模型从数据中学习到更多的先验知识。

基于数据集 ArabicText 2022, 我们训练并开源了阿拉伯语语言大模型 (ALM 1.0)。

Yequan Wang

研究员，团队主管

我的研究兴趣包含大模型，具身智能和自然语言处理等。