智源研究院与拓尔思等单位共建开源可信的中文互联网语料库

11月29日，2023人工智能计算大会AICC于北京开幕。智源研究院联合拓尔思等单位共建的“中文互联网语料库”（Chinese Corpora Internet，简称CCI）在大会分论坛大模型创新论坛上正式发布。在CCI中，拓尔思主要提供中央重点新闻网站及中央和地方政府门户网站数据集。

中文互联网语料库是在中国网络空间安全协会人工智能安全治理专业委员会数据集工作组、北京市委网信办、北京市科委、中关村管委会、海淀区政府的鼎力支持下构建的，旨在为国内大数据及人工智能行业提供一个安全、可靠的语料资源，共同推动大数据和人工智能领域的健康发展。

随着大模型的快速发展，业界及学界对高质量数据集的需求日益增长。这些数据集不仅需要包含大量信息，而且还需经过严格的筛选和清洗，以确保其准确性和下游模型及应用的安全。然而，当前业内流行的公开数据集均存在一定质量和安全风险，中文领域尤其缺乏高质量、符合安全要求的数据集。

中文互联网语料库是首个针对当前主流评测数据集进行严格过滤的开源数据集。其在数据来源上均为高质量可信、中国境内的互联网站，经过严格的数据清洗和去重，并且在内容质量、价值观等方面进行了针对性的检测与过滤，进一步提升数据质量和安全可信程度。在数据处理过程中采用了多种检索技术，对当前主流的多个中文评测数据集进行严格筛查和过滤。

拓尔思作为领先的大数据及人工智能产品及服务提供商，拥有规模位列业界前茅的权威高质量公开数据超2000亿，并具备数千亿数据量的数据索引、标记、查询、挖掘分析能力，万亿级数据总量的秒级检索能力和日均亿级数据获取能力。公司自有的产业要素数据集、产业风险数据集与电子报刊数据、互联网主流新闻网站数据、新闻资讯客户端数据、政务网站数据、拓知基因数据库先后入选北京市首批与第二批人工智能大模型高质量数据集。

论坛上，智源研究院与包括拓尔思在内的17家大模型机构和企业共同发起《“中文互联网语料库”共建共享倡议书》，倡导坚持合作共享、安全合规、数据高质量等6项原则，持续推动人工智能产业健康持续发展。

未来，拓尔思与智源研究院等单位将继续在CCI语料库的基础上，进一步扩充数据来源、完善数据处理流程，不断提升语料库规模并提升数据集的质量，为大模型开源社区提供更多的高质量、可信的数据资源。

CCI语料库首期开放的数据（CCI v1.0.0）规模为104GB。数据集总体的时间跨度为2001年1月至2023年11月。

下载地址

智源开放数据仓库：https://data.baai.ac.cn/details/BAAI-CCI

HuggingFace：https://huggingface.co/datasets/BAAI/CCI-Data