中国版ChatGPT三月底开源，中国发展NLP有两大困难

中国版的ChatGPT要来了。

日前复旦大学计算机科学技术学院教授邱锡鹏教授透露，国内第一个对话式大型语言模型MOSS将有可能在3月底开源，在不少媒体的介绍中，复旦大学的MOSS被看作是中国版的ChatGPT。

只不过尴尬的是，从网上透露出来的内测信息来看，就算是中国顶尖大学推出的NLP模型，它回答英文问题的水平却高于中文问题，说白了，中国人做的大型语言模型，更擅长英文，而不是中文。

针对这个问题，邱锡鹏教授坦言：英文作为科研主流语言，在学术界和工业界中得到广泛应用，积累了大量高质量的语料数据，这为英文自然语言处理的研究提供了极大的优势。根据相关数据，MOSS学习的英文单词数量是中文的十倍。

必须承认，这也是国内发展NLP不得不重视的问题之一。

正如上文所说，英语作为科研主流语言，在全球范围内有着大量的学术期刊、网页、书籍，可以作为ChatGPT的训练数据来源，比如说英国人创办的《自然》杂志、《柳叶刀》等等，在ChatGPT的训练数据来源总量中，类似的杂志、期刊排名第三，尤其是专业的学术期刊，这些数据会帮助ChatGPT的写作更清晰、有条理。

除此之外，英文网站占全球网站总量近60%，而中文网站目前仍不足2%。