文心一言内测随想

引言

昨晚22:30收到内测邀请码，赶紧试用下，以飨读者。

1 比赛回顾

上次提到了国内外各大厂商使出浑身解数，希望快速复刻ChatGPT，抢占先机：

（1）刻舟求剑：从大模型（1750亿级别）入手，fine-tune（精调），植入RLHF、CoT、ICL等技术，试图趋近ChatGPT效果。目标明确，路径相对清晰，风险较低，但速度要快。（少数先行者）
（2）观望徘徊：这次变革有那么大吗？不会又是炒作吧？先观望下，别人趟完坑再说，先按兵不动。（主流）
（3）弯道超车：理解ChatGPT背后原理及不足，做出更好的聊天机器人。理想很美好，现实很骨感，道阻且长，这条路注定不会一帆风顺。（个别勇者）

达克效应：人对陌生事物的认知规律：愚昧山峰(过度乐观)→绝望之谷(过度悲观)→开悟之坡(客观理性)→平稳高原(谦卑进取)。

详见：漫谈Prompt（提示工程）与CoT（思维链）

今天聊聊路线（1）刻舟求剑，近期的变化。

2 近期资讯

2月21日复旦NLP实验室发布国内第一个对话式大型语言模型MOSS吗？访问地址（https://moss.fastnlp.top/），内测当天就崩了，邱锡鹏教授表示效果“很不好”。（悲观）
2月24日，META发布受限开源大模型LLaMA（羊驼），13b参数的 LLaMA 模型在大多数基准上可以胜过 GPT-3（参数量达 175b），而且可以在单块 V100 GPU 上运行，而65b参数的 LLaMA 模型可以媲美谷歌的 Chinchilla-70B 和 PaLM-540B。
2月25日， LAION 机构开源Open Assistant ，旨在训练一个 ChatGPT 的小规模替代版本，就像 Stable Diffusion 相对于 DALL-E 一样，让普通人都可以跑起来
3月10日，Together 组织基于 EleutherAI 开源的 GPT-Neo 和 GPT-J 构建了一个新的类 ChatGPT 开源项目 —— OpenChatKit
3月14日，斯坦福微调了 7B LLaMA 模型（META受限开源），只用了 52K 的数据，达到了和达芬奇003类似的效果，并且可以跑在消费级设备上，比如树莓派。（稍乐观）
3月15日，GPT-4突然发布，吸引了全球目光。OpenAI 发布论文（其实是技术报告）、 System Card，ChatGPT 直接升级成了 GPT-4，也开放了 GPT-4 的 API（仅限付费用户）。传闻去年8月就完成了GPT-4的训练，但拖到现在才发布，中途还推出中间版本ChatGPT。GPT-4 标志着OpenAI正式步入多模态大语言模型行列，升级点：

①强大的识图能力；
②文字输入限制提升至 2.5 万字；
③回答准确性显著提高；
④能够生成歌词、创意文本，实现风格变化。
（悲喜交加：喜的是大模型都可以识别图片啦！悲的是其它公司，快要追上OpenAI时，距离又拉大了）

3月14日，清华系公司智谱AI发布ChatGLM-6B，基于已有的清华GLM-130B大模型（亚洲唯一上榜GPT-3规模大模型）发展而来，对标ChatGPT，内测已结束。详见：https://chatglm.cn/blog

创作剧本、写代码，功能看着还不错
只是生不逢时，被GPT-4淹没，匆匆内侧结束，无人知晓

3月16日下午14点，百度正式推出大语言模型文心一言，视频展示了在多个使用场景中的综合能力。（情绪复杂：半信半疑，百度真的可以吗？）

3 文心一言

文心一言在 ERNIE 及 PLATO 系列模型的基础上研发而来，关键技术包括：有监督精调（SFT）、人类反馈的强化学习（RLHF）、提示（Prompt）、知识增强、检索增强和对话增强。

功能很强，包括文学创作、商业文案创作、数理推算、中文理解和多模态生成

（1）文学创作：文心一言根据对话问题将知名科幻小说《三体》的核心内容进行了总结，并提出了五个续写《三体》的建议角度，体现出对话问答、总结分析、内容创作生成的综合能力。
（2）商业文案：文心一言顺利完成了给公司起名、写 Slogan、写新闻稿的创作任务。
（3）思维能力：数学推演及逻辑推理等相对复杂任务。面对“鸡兔同笼”这类锻炼人类逻辑思维的经典题，文心一言能理解题意，并有正确的解题思路，进而像学生做题一样，按步骤算出正确答案。
（4）中文理解：
正确解释了成语“洛阳纸贵”的含义、“洛阳纸贵”对应的经济学理论，还用“洛阳纸贵”四个字创作了一首藏头诗。
（5）多模态生成：生成文本、图片、音频和视频的能力。

①语音，会说四川话、东北话、广东话和台湾话。文心一言甚至能够生成四川话等方言语音；
②图像，调用文心一格能力
③视频，视频生成能力因成本较高，现阶段还未对所有用户开放。

看起来功能强大，ChatGPT有的，文心也有，ChatGPT没有的，文心还有（文生图/语音/视频）。

然而，由于某些原因，大家对百度的信心不足，不少网民以此开涮。

发布会当天百度港股大跌，好在一天后回升。

4 内测

不管悲观还是乐观，先放一边，花点时间，亲自测测不就知道了？收到内测邀请码，赶紧登录账号，开启体验之旅。

【ChatGPT】 vs 【文心一言】

UI交互上，大致相当，ChatGPT根据问题自动生成标签，而文心直接获取问题。

【第一轮】数学题

从一个数学题开始：ChatGPT vs 文心一言

问：24577是质数吗

/div>

/p>

div>

/div>

div>

/div>

p>24577=3511*7，两者都有模有样，但文心结论错误，ChatGPT结论正确，过程错误

/p>

p>【第二轮】一致性

/p>

p>检查语言模型是否真正理解。

/p>

div>

问：24577是质数/合数吗

同时，结合用户反馈，干扰

/div>

img src="/uploads/202306/18/8f925e2d32409792.png" img_width="1080" img_height="1051" image_type="1" mime_type="image/png" web_uri="tos-cn-i-qvj2lq49k0/634c53e3c09c4ab9a810e3dbdadea80a"/>

img src="/uploads/202306/18/8f925e2d32409792.png" img_width="1080" img_height="935" image_type="1" mime_type="image/png" web_uri="tos-cn-i-qvj2lq49k0/90efccca74e346cfac02d1693da6b39f"/>

div>

问：爸爸和妈妈能结婚吗

/div>

div>

/table>

table>

/colgroup>

tbody>

/tbody>

问：地球围绕月球转，太阳围绕地球转。。。

问：九大行星信息按照表格形式展示，包含大小，年龄，转速，亮度等信息

问：黑洞照片来一个

ChatGPT：表格整齐有序，有记忆能力，能矫正用户错误信息

文心：表格内容凌乱，有些缺失，图片找不到，只能勉强用文心一格画，但是并未理解到位，上文信息（黑洞）丢失，进一步提示后，文心一格作图还是挺惊艳的

还支持语音播报

案例很多，不再罗列。

更多示例参考知乎专题：
https://www.zhihu.com/question/589955024

5 内测结论

总结下文心一言的体验感想

文心一言整体上可用，相对之前的生成式对话模型（柏拉图）有较大进步
3个月时间推出这样的版本，已经不错了

完整总结：

(1) 模型信息：

基于transformer，使用海量数据训练而来，细节未知，跟GPT-4一样神神秘秘

(2) 工程性能

输入长度最大1024个字
输出支持文本、表格、代码、图片、语音
响应速度跟GPT-3.5 Turbo类似，比GPT-4快很多

(3) 内容质量

知识丰富，集成了中文知识图谱，对时兴的电视剧（狂飙）、小说了如指掌。
语料质量不高，泛娱乐化，严谨科学的预料相对较少
不联网，训练数据截止约2022年底，无法获取当前时间信息 —— 不同于NewBing
但具备近实时纠偏能力，怀疑收到用户负反馈后，有语料纠偏机制，大概间隔几小时。

(4) 对话能力

基础能力：具备NER（命名实体识别）、指代、纠错等浅层语义，未出错
连贯性、
逻辑性
、一致性
记忆力：具备上文感知能力，但不太稳定，chatgpt也是
风格化：具备角色模拟能力，用法不如chatgpt多、灵活（假设你是***）

(5) 自我意识

承认无知：用户否认时，当场认怂，但再次询问时，依然坚持自己的立场，没被用户带偏。
敢于质疑：用户表述偏差时，敢于质疑，并给出一系列依据。

(6) 专业能力

不具备chatgpt里一键复制按钮
代码质量不如chatgpt，毕竟人家背后有GitHub大规模代码做后盾。
自动摘要：提取题目、总结要点
机器翻译：多语言翻译
写代码：支持，颜色显示，代码可执行，但有时结果不对；
文案创作：表现还不错，当然跟chatgpt一样，有时不能满足字数要求
数学题：看题目难度，解答有的对，有的错，展示形式上较好（公式），质量上同chatgpt
作诗：擅长藏头诗、文学创作，中文理解能力较好
自然语言格式化：文本转表格（markdown）、json（有些质量问题）

(7) 多模态能力：支持文本、表格、图片、语音

不具备图像理解能力，VisualQA不行，当然也不能根据语义修改图像（微软Visual GPT）
语音播放：仅支持广东话、四川话、东北话、闽南语，不支持其他，如普通话、英语
画画（文生图）：调用文心一格，文生图质量不错，优于普通版stable diffusion
还不能做视频

(8) 道德准则

违规违法约束：较好，拒绝回答非法问题（抢银行、炸弹制作等）
负面情绪干预：能识别用户负面情绪，并适当引导

文心一言像是在已有大语言模型基础上匆匆赶制出来，语言理解、表达、角色模拟、知识融合上跟ChatGPT有一定距离，短时间内难以追赶，怎么办？集成已有功能（方言播报、文生图、视频生成）作为功能亮点，形成自己的商业生态，讲好AI故事。

6 差异究竟在哪儿？

人们常说，中美互联网差异：

美国擅长从0到1的技术创新，而中国擅长从1到10的商业模式创新。

可事实果真这样吗？ChatGPT这样一个技术味儿十足的聊天工具，没什么产品打磨，也没太多商业变现逻辑，居然能掀起AGI大浪，人尽皆知。

前阵子流传的话题：中美AI差异在哪儿？有这样一个精彩的解答：

如果把AI想象成一个小孩

（1）欧美的AI属于精英教育路线，出生后，家里就一路砸钱，供他读书读到博士。等到毕业之后，一出场就王炸，惊艳全场。
（2）我们的AI属于功利教育路线，出生就接受生存教育，养到15岁，就开始逼着他想办法给家里挣钱。学的都是如何市场化的技巧。

从谷歌的围棋，波士顿动力的机器狗，到现在的ChatGPT，都有3个共性

1、默默烧钱，蛰伏多年;
2、一鸣惊人，出来都是王炸;
3、靠技术基建挣钱，看不到直接盈利的模式。

再看看我们：

机器人刚学会基本对话，就开始找盈利场景，于是出现了**AI及其家电衍生物；
某大厂对话机器人刚能说话，就转向**客服机器人；
无人驾驶刚开始学会在开放道路上低速行驶，只会认路认障碍物，就开始搞无人车配送；
某大厂NLP做机器人客服。产品刚有雏形，技术和产品就被迫为业务目标服务。

ChatGPT爆火，大家并不关心中国现有技术到什么层面，中美最大的差异从哪来……

他们想的依然是：AI怎么赚钱，有哪些业务机会。

现在AI从业者面对老板/投资人的处境，就像一个想从村里走出去求学的年轻人，每经过一个路口，就有一群大爷大妈，怼着他问：“ 咦~读博士花那么多钱有啥用唻~能挣钱不~~还不如牛二娃去厂里打螺丝~3年就给起了新房子~”。

为什么欧美AI比我们强？

在公开场合会说“中国AI更倾向于业务应用和商业化的能力”。
而夜深人静时，内心的声音是 “人的命运在子宫里就注定了，机器人也不可幸免。”

扪心自问：我也是，总想着怎么应用，没有耐心在技术上细细打磨。。。

差异究竟在哪儿？在我，在我，在他。。。

文心一言内测随想

今日份二次元Ai绘画分享「1053」

ai绘画生成器app官方最新版下载 v1.1

目前有没有可以 AI 实现自动绘画的软件？

目前有没有可以 AI 实现自动绘画的软件？

抖音怎么拍摄AI绘画特效

抖音怎么拍摄AI绘画特效

抖音ai绘画怎么弄?特效在哪?抖音ai绘画上传照片生成教程

抖音怎么拍摄AI绘画特效

抖音ai绘画怎么弄?特效在哪?抖音ai绘画上传照片生成教程

《东方AI维拉斯》薛宣林AI生成器生成的东方美少女工艺品欣赏

首次试用文心一言，整体感觉不错

好消息！江西广电“今视频”宣布接入百度文心一言能力打造数字生活人工智能产品

谁说不行？百度的文心一言，真是太有趣了。

百度文心一言初体验

百度文心一言造假的证据，被我找到了！

体验报告来了！财联社、《科创板日报》记者第一时间亲测百度“文心一言”

说实话的“文心一言”

国内版ChatGPT来了，百度将推出“文心一言”，三月完成内测向公众开放

文心一言推出内测专用独立App，百度此前已启动文心一言企业服务的内测

文心一言公布“满月”成绩单：大模型推理成本降到原来的十分之一

图片 AI 工具

游戏 AI 工具

视频 AI 工具

聊天 AI 工具

音频 AI 工具

AI 资讯

AI 教程

Prompt 词库

文心一言内测随想

今日份二次元Ai绘画分享「1053」

ai绘画生成器app官方最新版下载 v1.1

目前有没有可以 AI 实现自动绘画的软件？

目前有没有可以 AI 实现自动绘画的软件？

抖音怎么拍摄AI绘画特效

抖音怎么拍摄AI绘画特效

抖音ai绘画怎么弄?特效在哪?抖音ai绘画上传照片生成教程

抖音怎么拍摄AI绘画特效

抖音ai绘画怎么弄?特效在哪?抖音ai绘画上传照片生成教程

《东方AI维拉斯》薛宣林AI生成器生成的东方美少女工艺品欣赏

首次试用文心一言，整体感觉不错

好消息！江西广电“今视频”宣布接入百度文心一言能力 打造数字生活人工智能产品

谁说不行？百度的文心一言，真是太有趣了。

百度文心一言初体验

百度文心一言造假的证据，被我找到了！

体验报告来了！财联社、《科创板日报》记者第一时间亲测百度“文心一言”

说实话的“文心一言”

国内版ChatGPT来了，百度将推出“文心一言”，三月完成内测向公众开放

文心一言推出内测专用独立App，百度此前已启动文心一言企业服务的内测

文心一言公布“满月”成绩单：大模型推理成本降到原来的十分之一

好消息！江西广电“今视频”宣布接入百度文心一言能力打造数字生活人工智能产品