引言
昨晚22:30收到内测邀请码,赶紧试用下,以飨读者。
1 比赛回顾
上次提到了国内外各大厂商使出浑身解数,希望快速复刻ChatGPT,抢占先机:
- (1)刻舟求剑:从大模型(1750亿级别)入手,fine-tune(精调),植入RLHF、CoT、ICL等技术,试图趋近ChatGPT效果。目标明确,路径相对清晰,风险较低,但速度要快。(少数先行者)
- (2)观望徘徊:这次变革有那么大吗?不会又是炒作吧?先观望下,别人趟完坑再说,先按兵不动。(主流)
- (3)弯道超车:理解ChatGPT背后原理及不足,做出更好的聊天机器人。理想很美好,现实很骨感,道阻且长,这条路注定不会一帆风顺。(个别勇者)
达克效应:人对陌生事物的认知规律:愚昧山峰(过度乐观)→绝望之谷(过度悲观)→开悟之坡(客观理性)→平稳高原(谦卑进取)。
详见:漫谈Prompt(提示工程)与CoT(思维链)
今天聊聊路线(1)刻舟求剑,近期的变化。
2 近期资讯
- 2月21日复旦NLP实验室发布国内第一个对话式大型语言模型MOSS吗?访问地址(https://moss.fastnlp.top/),内测当天就崩了,邱锡鹏教授表示效果“很不好”。(悲观)
- 2月24日,META发布受限开源大模型LLaMA(羊驼),13b参数的 LLaMA 模型在大多数基准上可以胜过 GPT-3( 参数量达 175b),而且可以在单块 V100 GPU 上运行,而65b参数的 LLaMA 模型可以媲美谷歌的 Chinchilla-70B 和 PaLM-540B。
- 2月25日, LAION 机构开源Open Assistant ,旨在训练一个 ChatGPT 的小规模替代版本,就像 Stable Diffusion 相对于 DALL-E 一样,让普通人都可以跑起来
- 3月10日,Together 组织基于 EleutherAI 开源的 GPT-Neo 和 GPT-J 构建了一个新的类 ChatGPT 开源项目 —— OpenChatKit
- 3月14日,斯坦福微调了 7B LLaMA 模型(META受限开源),只用了 52K 的数据,达到了和达芬奇003类似的效果,并且可以跑在消费级设备上,比如树莓派。(稍乐观)
- 3月15日,GPT-4突然发布,吸引了全球目光。OpenAI 发布论文(其实是技术报告)、 System Card,ChatGPT 直接升级成了 GPT-4,也开放了 GPT-4 的 API(仅限付费用户)。传闻去年8月就完成了GPT-4的训练,但拖到现在才发布,中途还推出中间版本ChatGPT。GPT-4 标志着OpenAI正式步入多模态大语言模型行列,升级点:
- ①强大的识图能力;
- ②文字输入限制提升至 2.5 万字;
- ③回答准确性显著提高;
- ④能够生成歌词、创意文本,实现风格变化。
- (悲喜交加:喜的是大模型都可以识别图片啦!悲的是其它公司,快要追上OpenAI时,距离又拉大了)
- 3月14日,清华系公司智谱AI发布ChatGLM-6B,基于已有的清华GLM-130B大模型(亚洲唯一上榜GPT-3规模大模型)发展而来,对标ChatGPT,内测已结束。详见:https://chatglm.cn/blog
- 创作剧本、写代码,功能看着还不错
- 只是生不逢时,被GPT-4淹没,匆匆内侧结束,无人知晓
- 3月16日下午14点,百度正式推出大语言模型文心一言,视频展示了在多个使用场景中的综合能力。(情绪复杂:半信半疑,百度真的可以吗?)
3 文心一言
文心一言在 ERNIE 及 PLATO 系列模型的基础上研发而来,关键技术包括:有监督精调(SFT)、人类反馈的强化学习(RLHF)、提示(Prompt)、知识增强、检索增强和对话增强。
功能很强,包括文学创作、商业文案创作、数理推算、中文理解和多模态生成
- (1)文学创作:文心一言根据对话问题将知名科幻小说《三体》的核心内容进行了总结,并提出了五个续写《三体》的建议角度,体现出对话问答、总结分析、内容创作生成的综合能力。
- (2)商业文案:文心一言顺利完成了给公司起名、写 Slogan、写新闻稿的创作任务。
- (3)思维能力:数学推演及逻辑推理等相对复杂任务。面对“鸡兔同笼”这类锻炼人类逻辑思维的经典题,文心一言能理解题意,并有正确的解题思路,进而像学生做题一样,按步骤算出正确答案。
- (4)中文理解:
- 正确解释了成语“洛阳纸贵”的含义、“洛阳纸贵”对应的经济学理论,还用“洛阳纸贵”四个字创作了一首藏头诗。
- (5)多模态生成:生成文本、图片、音频和视频的能力。
- ①语音,会说四川话、东北话、广东话和台湾话。文心一言甚至能够生成四川话等方言语音;
- ②图像,调用文心一格能力
- ③视频,视频生成能力因成本较高,现阶段还未对所有用户开放。
看起来功能强大,ChatGPT有的,文心也有,ChatGPT没有的,文心还有(文生图/语音/视频)。
然而,由于某些原因,大家对百度的信心不足,不少网民以此开涮。
发布会当天百度港股大跌,好在一天后回升。
4 内测
不管悲观还是乐观,先放一边,花点时间,亲自测测不就知道了?收到内测邀请码,赶紧登录账号,开启体验之旅。
【ChatGPT】 vs 【文心一言】
UI交互上,大致相当,ChatGPT根据问题自动生成标签,而文心直接获取问题。
【第一轮】数学题
从一个数学题开始:ChatGPT vs 文心一言
问:24577是质数吗 |
/div>
p>
/p>
div>
/div>
div>
/div>
p>24577=3511*7,两者都有模有样,但文心结论错误,ChatGPT结论正确,过程错误
/p>
p>【第二轮】一致性
/p>
p>检查语言模型是否真正理解。
/p>
div>
问:24577是质数/合数吗 同时,结合用户反馈,干扰 |
/div>
img src="/uploads/202306/18/8f925e2d32409792.png" img_width="1080" img_height="1051" image_type="1" mime_type="image/png" web_uri="tos-cn-i-qvj2lq49k0/634c53e3c09c4ab9a810e3dbdadea80a"/>
img src="/uploads/202306/18/8f925e2d32409792.png" img_width="1080" img_height="935" image_type="1" mime_type="image/png" web_uri="tos-cn-i-qvj2lq49k0/90efccca74e346cfac02d1693da6b39f"/>
div>
问:爸爸和妈妈能结婚吗 |
/div>
div>
/table>
table>
/colgroup>
tbody>
/tbody>
问:地球围绕月球转,太阳围绕地球转。。。 |
问:九大行星信息按照表格形式展示,包含大小,年龄,转速,亮度等信息 问:黑洞照片来一个 |
ChatGPT:表格整齐有序,有记忆能力,能矫正用户错误信息
文心:表格内容凌乱,有些缺失,图片找不到,只能勉强用文心一格画,但是并未理解到位,上文信息(黑洞)丢失,进一步提示后,文心一格作图还是挺惊艳的
还支持语音播报
案例很多,不再罗列。
更多示例参考知乎专题:
https://www.zhihu.com/question/589955024
5 内测结论
总结下文心一言的体验感想
- 文心一言整体上可用,相对之前的生成式对话模型(柏拉图)有较大进步
- 3个月时间推出这样的版本,已经不错了
完整总结:
- (1) 模型信息:
- 基于transformer,使用海量数据训练而来,细节未知,跟GPT-4一样神神秘秘
- (2) 工程性能
- 输入长度最大1024个字
- 输出支持文本、表格、代码、图片、语音
- 响应速度跟GPT-3.5 Turbo类似,比GPT-4快很多
- (3) 内容质量
- 知识丰富,集成了中文知识图谱,对时兴的电视剧(狂飙)、小说了如指掌。
- 语料质量不高,泛娱乐化,严谨科学的预料相对较少
- 不联网,训练数据截止约2022年底,无法获取当前时间信息 —— 不同于NewBing
- 但具备近实时纠偏能力,怀疑收到用户负反馈后,有语料纠偏机制,大概间隔几小时。
- (4) 对话能力
- 基础能力:具备NER(命名实体识别)、指代、纠错等浅层语义,未出错
- 连贯性、
- 逻辑性
- 、一致性
- 记忆力:具备上文感知能力,但不太稳定,chatgpt也是
- 风格化:具备角色模拟能力,用法不如chatgpt多、灵活(假设你是***)
- (5) 自我意识
- 承认无知:用户否认时,当场认怂,但再次询问时,依然坚持自己的立场,没被用户带偏。
- 敢于质疑:用户表述偏差时,敢于质疑,并给出一系列依据。
- (6) 专业能力
- 不具备chatgpt里一键复制按钮
- 代码质量不如chatgpt,毕竟人家背后有GitHub大规模代码做后盾。
- 自动摘要:提取题目、总结要点
- 机器翻译:多语言翻译
- 写代码:支持,颜色显示,代码可执行,但有时结果不对;
- 文案创作:表现还不错,当然跟chatgpt一样,有时不能满足字数要求
- 数学题:看题目难度,解答有的对,有的错,展示形式上较好(公式),质量上同chatgpt
- 作诗:擅长藏头诗、文学创作,中文理解能力较好
- 自然语言格式化:文本转表格(markdown)、json(有些质量问题)
- (7) 多模态能力:支持文本、表格、图片、语音
- 不具备图像理解能力,VisualQA不行,当然也不能根据语义修改图像(微软Visual GPT)
- 语音播放:仅支持广东话、四川话、东北话、闽南语,不支持其他,如普通话、英语
- 画画(文生图):调用文心一格,文生图质量不错,优于普通版stable diffusion
- 还不能做视频
- (8) 道德准则
- 违规违法约束:较好,拒绝回答非法问题(抢银行、炸弹制作等)
- 负面情绪干预:能识别用户负面情绪,并适当引导
文心一言像是在已有大语言模型基础上匆匆赶制出来,语言理解、表达、角色模拟、知识融合上跟ChatGPT有一定距离,短时间内难以追赶,怎么办?集成已有功能(方言播报、文生图、视频生成)作为功能亮点,形成自己的商业生态,讲好AI故事。
6 差异究竟在哪儿?
人们常说,中美互联网差异:
- 美国擅长从0到1的技术创新,而中国擅长从1到10的商业模式创新。
可事实果真这样吗?ChatGPT这样一个技术味儿十足的聊天工具,没什么产品打磨,也没太多商业变现逻辑,居然能掀起AGI大浪,人尽皆知。
前阵子流传的话题:中美AI差异在哪儿?有这样一个精彩的解答:
如果把AI想象成一个小孩
- (1)欧美的AI属于精英教育路线,出生后,家里就一路砸钱,供他读书读到博士。等到毕业之后,一出场就王炸,惊艳全场。
- (2)我们的AI属于功利教育路线,出生就接受生存教育,养到15岁,就开始逼着他想办法给家里挣钱。学的都是如何市场化的技巧。
从谷歌的围棋,波士顿动力的机器狗,到现在的ChatGPT,都有3个共性
- 1、默默烧钱,蛰伏多年;
- 2、一鸣惊人,出来都是王炸;
- 3、靠技术基建挣钱,看不到直接盈利的模式。
再看看我们:
- 机器人刚学会基本对话,就开始找盈利场景,于是出现了**AI及其家电衍生物;
- 某大厂对话机器人刚能说话,就转向**客服机器人;
- 无人驾驶刚开始学会在开放道路上低速行驶,只会认路认障碍物,就开始搞无人车配送;
- 某大厂NLP做机器人客服。产品刚有雏形,技术和产品就被迫为业务目标服务。
ChatGPT爆火,大家并不关心中国现有技术到什么层面,中美最大的差异从哪来……
他们想的依然是:AI怎么赚钱,有哪些业务机会。
现在AI从业者面对老板/投资人的处境,就像一个想从村里走出去求学的年轻人,每经过一个路口,就有一群大爷大妈,怼着他问:“ 咦~读博士花那么多钱有啥用唻~能挣钱不~~还不如牛二娃去厂里打螺丝~3年就给起了新房子~”。
为什么欧美AI比我们强?
- 在公开场合会说“中国AI更倾向于业务应用和商业化的能力”。
- 而夜深人静时,内心的声音是 “人的命运在子宫里就注定了,机器人也不可幸免。”
扪心自问:我也是,总想着怎么应用,没有耐心在技术上细细打磨。。。
差异究竟在哪儿?在我,在我,在他。。。