世界焦点!黄铁军:ChatGPT训练只用了百分之几的中文数据
2023-06-17 14:20:00 来源:和讯网
【资料图】
凤凰网科技讯 6月16日消息,凤凰网科技《浪潮》对话智源研究院黄铁军,谈到对中英文大模型算法分析的看法,黄铁军表示,ChatGPT训练时用的英文数据多,中文数据只有百分之几,所以英文表现得比中文好。
凤凰网科技《浪潮》:我们刚才也提到了一个上下游,因为要进入到这个生态里边,要投入很多的技术和内容。我们在刚接触ChatGPT的时候发现用英文比用中文更好沟通。它们的理解,它们的算法,都是以英文为基础。您觉得中文的这个大模型的算法分析和英文的这些哪一个更加容易,或者是哪个更困难一些?
黄铁军: ChatGPT当初训练的时候用的确实是英文数据多,中文数据少,而且据我们了解,他们也用了智源中文的数据集,但他们用的中文数据只有百分之几,所以它英文表现得比中文好,这也是自然而然的。因为我们刚才说大模型的智能主要是来源于数据,那数据的分布也就决定了它的智能输出特性的不同。中文的这个数据的建设,确实对于未来大模型发展来说是特别重要的一项工作。
标签:
游戏
更多
-
17
2023-06观天下!壤塘县气象台发布雷电黄色预警信号【III级/较重】【2023-06-17】
壤塘县气象台2023年06月17日13时17分发布雷电黄色预警信号:岗木达镇、 -
17
2023-06观点:2023年中国基因检测服务行业重点企业分析:诺禾致源VS贝瑞基因VS华大基因 [图]
2023年第一季度,诺禾致源营业总收入为4 41亿元,较2022年同期增长13 9 -
17
2023-06世界热消息:皮带输送机_夏利发电机皮带多久换?
夏利发电机皮带一般行驶10至12万公里更换一次,不换的话会出现异响。以 -
17
2023-06全球要闻:装饰的英文字母是怎么写 装饰的英文
1、decoratevt vi 装饰;布置decorationn 装饰ornamentn 装饰
产品
更多
来为大家解答以下的问题,动加载失败可能被防火墙拦截,驱动加载失败这
2023-06-17 14:19:09
我国已建成村级公共法律服务实体平台54.9万个 热消息
本报北京6月16日电(记者张璁)记者从司法部获悉:截至2022年底,全国
2023-06-17 13:50:04
云南能投:力争今年年底新能源总装机规模突破200万千瓦
6月16日晚,云南能投发布投资者关系活动记录表,公司与投资者交流了今
2023-06-17 12:51:15