引言

昨晚22:30收到内测邀请码,赶紧试用下,以飨读者。


1 比赛回顾

上次提到了国内外各大厂商使出浑身解数,希望快速复刻ChatGPT,抢占先机:

  • (1)刻舟求剑:从大模型(1750亿级别)入手,fine-tune(精调),植入RLHF、CoT、ICL等技术,试图趋近ChatGPT效果。目标明确,路径相对清晰,风险较低,但速度要快。(少数先行者)
  • (2)观望徘徊:这次变革有那么大吗?不会又是炒作吧?先观望下,别人趟完坑再说,先按兵不动。(主流)
  • (3)弯道超车:理解ChatGPT背后原理及不足,做出更好的聊天机器人。理想很美好,现实很骨感,道阻且长,这条路注定不会一帆风顺。(个别勇者)

达克效应:人对陌生事物的认知规律:愚昧山峰(过度乐观)→绝望之谷(过度悲观)→开悟之坡(客观理性)→平稳高原(谦卑进取)。

详见:漫谈Prompt(提示工程)与CoT(思维链)

今天聊聊路线(1)刻舟求剑,近期的变化。

2 近期资讯

  • 2月21日复旦NLP实验室发布国内第一个对话式大型语言模型MOSS吗?访问地址(https://moss.fastnlp.top/),内测当天就崩了,邱锡鹏教授表示效果“很不好”。(悲观)
  • 2月24日,META发布受限开源大模型LLaMA(羊驼),13b参数的 LLaMA 模型在大多数基准上可以胜过 GPT-3( 参数量达 175b),而且可以在单块 V100 GPU 上运行,而65b参数的 LLaMA 模型可以媲美谷歌的 Chinchilla-70B 和 PaLM-540B。
  • 2月25日, LAION 机构开源Open Assistant ,旨在训练一个 ChatGPT 的小规模替代版本,就像 Stable Diffusion 相对于 DALL-E 一样,让普通人都可以跑起来
  • 3月10日,Together 组织基于 EleutherAI 开源的 GPT-Neo 和 GPT-J 构建了一个新的类 ChatGPT 开源项目 —— OpenChatKit
  • 3月14日,斯坦福微调了 7B LLaMA 模型(META受限开源),只用了 52K 的数据,达到了和达芬奇003类似的效果,并且可以跑在消费级设备上,比如树莓派。(稍乐观)

  • 3月15日,GPT-4突然发布,吸引了全球目光。OpenAI 发布论文(其实是技术报告)、 System Card,ChatGPT 直接升级成了 GPT-4,也开放了 GPT-4 的 API(仅限付费用户)。传闻去年8月就完成了GPT-4的训练,但拖到现在才发布,中途还推出中间版本ChatGPT。GPT-4 标志着OpenAI正式步入多模态大语言模型行列,升级点:
    • ①强大的识图能力;
    • ②文字输入限制提升至 2.5 万字;
    • ③回答准确性显著提高;
    • ④能够生成歌词、创意文本,实现风格变化。

    • (悲喜交加:喜的是大模型都可以识别图片啦!悲的是其它公司,快要追上OpenAI时,距离又拉大了)
  • 3月14日,清华系公司智谱AI发布ChatGLM-6B,基于已有的清华GLM-130B大模型(亚洲唯一上榜GPT-3规模大模型)发展而来,对标ChatGPT,内测已结束。详见:https://chatglm.cn/blog

    • 创作剧本、写代码,功能看着还不错
    • 只是生不逢时,被GPT-4淹没,匆匆内侧结束,无人知晓
  • 3月16日下午14点,百度正式推出大语言模型文心一言,视频展示了在多个使用场景中的综合能力。(情绪复杂:半信半疑,百度真的可以吗?)

3 文心一言

文心一言在 ERNIE 及 PLATO 系列模型的基础上研发而来,关键技术包括:有监督精调(SFT)、人类反馈的强化学习(RLHF)、提示(Prompt)、知识增强、检索增强和对话增强。

功能很强,包括文学创作、商业文案创作、数理推算、中文理解和多模态生成

  • (1)文学创作:文心一言根据对话问题将知名科幻小说《三体》的核心内容进行了总结,并提出了五个续写《三体》的建议角度,体现出对话问答、总结分析、内容创作生成的综合能力。
  • (2)商业文案:文心一言顺利完成了给公司起名、写 Slogan、写新闻稿的创作任务。
  • (3)思维能力:数学推演及逻辑推理等相对复杂任务。面对“鸡兔同笼”这类锻炼人类逻辑思维的经典题,文心一言能理解题意,并有正确的解题思路,进而像学生做题一样,按步骤算出正确答案。
  • (4)中文理解:
  • 正确解释了成语“洛阳纸贵”的含义、“洛阳纸贵”对应的经济学理论,还用“洛阳纸贵”四个字创作了一首藏头诗。
  • (5)多模态生成:生成文本、图片、音频和视频的能力。
    • ①语音,会说四川话、东北话、广东话和台湾话。文心一言甚至能够生成四川话等方言语音;
    • ②图像,调用文心一格能力
    • ③视频,视频生成能力因成本较高,现阶段还未对所有用户开放。

看起来功能强大,ChatGPT有的,文心也有,ChatGPT没有的,文心还有(文生图/语音/视频)。

然而,由于某些原因,大家对百度的信心不足,不少网民以此开涮。

发布会当天百度港股大跌,好在一天后回升。


4 内测

不管悲观还是乐观,先放一边,花点时间,亲自测测不就知道了?收到内测邀请码,赶紧登录账号,开启体验之旅。

【ChatGPT】 vs 【文心一言】

UI交互上,大致相当,ChatGPT根据问题自动生成标签,而文心直接获取问题。


【第一轮】数学题

从一个数学题开始:ChatGPT vs 文心一言

问:24577是质数吗

/div>

p>


/p>

div>

/div>

div>

/div>

p>24577=3511*7,两者都有模有样,但文心结论错误,ChatGPT结论正确,过程错误

/p>

p>【第二轮】一致性

/p>

p>检查语言模型是否真正理解。

/p>

div>

问:24577是质数/合数吗

同时,结合用户反馈,干扰

/div>

img src="/uploads/202306/18/8f925e2d32409792.png" img_width="1080" img_height="1051" image_type="1" mime_type="image/png" web_uri="tos-cn-i-qvj2lq49k0/634c53e3c09c4ab9a810e3dbdadea80a"/>

img src="/uploads/202306/18/8f925e2d32409792.png" img_width="1080" img_height="935" image_type="1" mime_type="image/png" web_uri="tos-cn-i-qvj2lq49k0/90efccca74e346cfac02d1693da6b39f"/>

div>

问:爸爸和妈妈能结婚吗

/div>

div>

/table>

table>

/colgroup>

tbody>

/tbody>

问:地球围绕月球转,太阳围绕地球转。。。

问:九大行星信息按照表格形式展示,包含大小,年龄,转速,亮度等信息

问:黑洞照片来一个

ChatGPT:表格整齐有序,有记忆能力,能矫正用户错误信息

文心:表格内容凌乱,有些缺失,图片找不到,只能勉强用文心一格画,但是并未理解到位,上文信息(黑洞)丢失,进一步提示后,文心一格作图还是挺惊艳的

还支持语音播报

案例很多,不再罗列。

更多示例参考知乎专题:
https://www.zhihu.com/question/589955024

5 内测结论

总结下文心一言的体验感想

  • 文心一言整体上可用,相对之前的生成式对话模型(柏拉图)有较大进步
  • 3个月时间推出这样的版本,已经不错了


完整总结:

  • (1) 模型信息:
    • 基于transformer,使用海量数据训练而来,细节未知,跟GPT-4一样神神秘秘
  • (2) 工程性能
    • 输入长度最大1024个字
    • 输出支持文本、表格、代码、图片、语音
    • 响应速度跟GPT-3.5 Turbo类似,比GPT-4快很多
  • (3) 内容质量
    • 知识丰富,集成了中文知识图谱,对时兴的电视剧(狂飙)、小说了如指掌。
    • 语料质量不高,泛娱乐化,严谨科学的预料相对较少
    • 不联网,训练数据截止约2022年底,无法获取当前时间信息 —— 不同于NewBing
    • 但具备近实时纠偏能力,怀疑收到用户负反馈后,有语料纠偏机制,大概间隔几小时。
  • (4) 对话能力
    • 基础能力:具备NER(命名实体识别)、指代、纠错等浅层语义,未出错
    • 连贯性、
    • 逻辑性
    • 、一致性
    • 记忆力:具备上文感知能力,但不太稳定,chatgpt也是
    • 风格化:具备角色模拟能力,用法不如chatgpt多、灵活(假设你是***)
  • (5) 自我意识
    • 承认无知:用户否认时,当场认怂,但再次询问时,依然坚持自己的立场,没被用户带偏。
    • 敢于质疑:用户表述偏差时,敢于质疑,并给出一系列依据。
  • (6) 专业能力
    • 不具备chatgpt里一键复制按钮
    • 代码质量不如chatgpt,毕竟人家背后有GitHub大规模代码做后盾。
    • 自动摘要:提取题目、总结要点
    • 机器翻译:多语言翻译
    • 写代码:支持,颜色显示,代码可执行,但有时结果不对;
    • 文案创作:表现还不错,当然跟chatgpt一样,有时不能满足字数要求
    • 数学题:看题目难度,解答有的对,有的错,展示形式上较好(公式),质量上同chatgpt
    • 作诗:擅长藏头诗、文学创作,中文理解能力较好
    • 自然语言格式化:文本转表格(markdown)、json(有些质量问题)
  • (7) 多模态能力:支持文本、表格、图片、语音
    • 不具备图像理解能力,VisualQA不行,当然也不能根据语义修改图像(微软Visual GPT)
    • 语音播放:仅支持广东话、四川话、东北话、闽南语,不支持其他,如普通话、英语
    • 画画(文生图):调用文心一格,文生图质量不错,优于普通版stable diffusion
    • 还不能做视频
  • (8) 道德准则
    • 违规违法约束:较好,拒绝回答非法问题(抢银行、炸弹制作等)
    • 负面情绪干预:能识别用户负面情绪,并适当引导


文心一言像是在已有大语言模型基础上匆匆赶制出来,语言理解、表达、角色模拟、知识融合上跟ChatGPT有一定距离,短时间内难以追赶,怎么办?集成已有功能(方言播报、文生图、视频生成)作为功能亮点,形成自己的商业生态,讲好AI故事。

6 差异究竟在哪儿?

人们常说,中美互联网差异:

  • 美国擅长从0到1的技术创新,而中国擅长从1到10的商业模式创新。


可事实果真这样吗?ChatGPT这样一个技术味儿十足的聊天工具,没什么产品打磨,也没太多商业变现逻辑,居然能掀起AGI大浪,人尽皆知。

前阵子流传的话题:中美AI差异在哪儿?有这样一个精彩的解答:

如果把AI想象成一个小孩

  • (1)欧美的AI属于精英教育路线,出生后,家里就一路砸钱,供他读书读到博士。等到毕业之后,一出场就王炸,惊艳全场。
  • (2)我们的AI属于功利教育路线,出生就接受生存教育,养到15岁,就开始逼着他想办法给家里挣钱。学的都是如何市场化的技巧。


从谷歌的围棋,波士顿动力的机器狗,到现在的ChatGPT,都有3个共性

  • 1、默默烧钱,蛰伏多年;
  • 2、一鸣惊人,出来都是王炸;
  • 3、靠技术基建挣钱,看不到直接盈利的模式。


再看看我们:

  • 机器人刚学会基本对话,就开始找盈利场景,于是出现了**AI及其家电衍生物;
  • 某大厂对话机器人刚能说话,就转向**客服机器人;
  • 无人驾驶刚开始学会在开放道路上低速行驶,只会认路认障碍物,就开始搞无人车配送;
  • 某大厂NLP做机器人客服。产品刚有雏形,技术和产品就被迫为业务目标服务。


ChatGPT爆火,大家并不关心中国现有技术到什么层面,中美最大的差异从哪来……

他们想的依然是:AI怎么赚钱,有哪些业务机会。

现在AI从业者面对老板/投资人的处境,就像一个想从村里走出去求学的年轻人,每经过一个路口,就有一群大爷大妈,怼着他问:“ 咦~读博士花那么多钱有啥用唻~能挣钱不~~还不如牛二娃去厂里打螺丝~3年就给起了新房子~”。

为什么欧美AI比我们强?

  • 在公开场合会说“中国AI更倾向于业务应用和商业化的能力”。
  • 而夜深人静时,内心的声音是 “人的命运在子宫里就注定了,机器人也不可幸免。”


扪心自问:我也是,总想着怎么应用,没有耐心在技术上细细打磨。。。

差异究竟在哪儿?在我,在我,在他。。。