如果半个月前我因为某些原因被拘留了十五天,出来的时候我一定会有一种穿越了的感觉,因为这世界变化太大,而变化来自AI:
上上周一,微软发布了新的office办公工具,基于ChatGPT大语言模型的Copilot。以后不管是在Word,Excel,PPT还是邮件系统,都会多出一个对话框也就是一个人工智能助手,它可以帮你改文章,做ppt,查询数据。比如当你在用Excel查公司数据的时候,你可以跟它直接说:“请把过去一年公司增长的原因找出来”它就会把关键增长部门的数据划重点提示你。
如果你错过了一个重要的会议,你可以根据会议记录问他,“主要讨论了啥,各方面都有什么观点啊?什么问题没有解决啊?”当然也可以用Word文档直接生成PPT。相当于让每个人都可以拥有一个清华毕业的秘书。
上上周三,OpenAI发布了新版本的GPT-4,也就是新版本的AI大模型,与人类对话更加准确,一本正经胡说八道的概率大大降低,还能看懂图片。
(问:这张图片有何特殊之处?GPT-4答:有个男人在飞驰的车上熨衣服)
上上周四,图片生成工具Midjourney V5发布,基本上解决了之前AI画不好手指的问题,整体产出的图片不像之前版本那么天马行空,却更接近真实场景,很多时候让人难辨真假。
(夜晚灯光下的女孩)
(被纽约警察逮捕的懂王)
另外,百度的大语言模型文心一言也在这一天发布公测,成为第一个发布类ChatGPT大模型的互联网大厂。
上周二,在英伟达的年度开发者活动GTC上,黄仁勋做了主旨演讲,通篇没有一处提到游戏显卡,而是在软件部分发布了100多个基于英伟达通用GPU和CUDA架构的加速计算工具,包括流体力学仿真、数据库处理、光刻机掩膜设计和AI等,更新了工业元宇宙Omniverse;在硬件部分发布了四款AI推理芯片,新的超级计算机,整体上把AI的运算效率提升了一个数量级;还发布了三个基于AI大模型的云服务,分别面向文本处理、图像处理和生物医药研究。
上周三,继百度之后,谷歌也发布了他们的AI大语言模型Bard,进入公测阶段。不过公测的效果依托答辩,还不如百度的文心一言。
同一天,GitHUB发布了接入GPT-4的AI编程工具CopilotX,只要跟它说你要的功能它就会帮你把代码写出来,还能帮你本身的代码找错改错。
还是在同一天,Runway发布了他们的AI视频生成工具Gen-2,不同于上个版本需要输入文字+图像才能生成视频,Gen-2只要输入文本就能生成视频。
比如生成一个沙漠地形。
或者一个人在冲浪。
上周五,OpenAI推出了ChatGPT的插件功能,可以把你的网站或者App跟ChatGPT连上,起到的作用类似于,比如说你是王兴,你把美团跟ChatGPT连上,然后用户就可以给AI助理下指示:“周末要带女朋友去大理玩”,让后它就会根据美团上的商家用户评论数据,过几秒钟给你把行程酒店机票餐厅全给安排了,然后你跟它说“太贵了”,然后它就给你整体搜一圈优惠。这不仅开启了ChatGPT应用的无限场景,更大的改变是有可能以后大家就不上美团,也不在应用商城里下美团了,而是直接在ChatGPT里用美团或者别的什么生活服务App了,直接颠覆了互联网流量入口。
01
AI的IPhone时刻
AI正在以天为周期进化,给人前所未有的压迫感,对此比尔盖茨和英伟达老板黄仁勋的表态是最具代表性的。
比尔盖茨表示:这就像我当年第一次见到图形界面操作系统(MacOS)。
黄仁勋在发布会上三次强调:我们正在经历又一个IPhone时刻。
比尔盖茨靠着抄Mac的图形界面操作系统抄得够快以及设计出了快速扩张的商业模式,率领微软登上巅峰成为世界首富。
黄仁勋因为错过了IPhone带来的移动互联网革命,他公司股价从2007年高峰的接近十美元一度掉到接近一美元(现在是268美元),差点嗝儿屁。
我相信这两人对于他们口中的那个时刻,一定是印象深刻的,做梦都会梦到的那种。
每一项改变世界的技术的发展,都会大致遵循一个曲线:
当它刚被提出的时候,只有少数学术精英会注意到它,试图探索出完整的技术实现路线,这个阶段的发展是平缓和持久的;
直到有一天,有人提出了完整的技术方法,人们会赞叹它的伟大,投资和关注蜂拥而至达到高峰,但往往勉强能实现的技术不能满足业界和消费者的期待,大家转瞬之间变得失望,投资人作鸟兽散,关注度跌入谷底;
这个过程会重复若干次,直到有一天,出现了一个划时代的产品,它真正满足了大众消费者的需求,业界为之疯狂,开发者鱼贯而入,产业一飞冲天!
1984年乔布斯在Macintosh电脑上安装了鼠标和图形界面操作系统,以前电脑需要通过键盘输入格式化的指令来操作,如果大家用过Dos系统的话应该会有印象,学习门槛很高,而Macintosh电脑直接看着图像用鼠标点就行,完全符合人类直觉。从此家用电脑从少数极客程序员的生产工具,一跃成为每个人都能使用的学习娱乐办公终端,电脑从此开始进入寻常百姓家。
2007年乔布斯发布IPhone,重新发明了智能手机。多点触控屏幕的出现使得我们操作手机App、打游戏不再受制于小到根本按不准的实体按键,而后续AppStore规范化了手机端的应用格式,视网膜屏幕拉近了我们跟手机屏幕之间的距离,最终随着4G移动网络的普及,我们进入到了移动互联网时代。
ChatGPT在今年1月,也就是推出仅两个月后,月活跃用户就达到1亿,成为历史上增长最快的消费应用,排名第二的TikTok用了13个月。
而对于它的讨论早已不限于科技创投圈,现在我研究大家玩AI有什么新玩法,最好的平台,不是知乎B站,而是小红书,集美们都在为AI疯狂。
我想已经不必多说,ChatGPT就是AI的IPhone时刻。
02
有关效率和可能性的革命
我们需要为即将到来的AI革命做好准备,正如我们本应该在2007年为即将到来的移动互联网革命做好准备。
我们现在称之为AI的这个东西其实是很多AI技术路线当中的一种,叫做神经网络,是上世纪五十年代以来一系列模型、算法、计算机发明累积的结果。它的是一种对人脑神经元连接的模拟,特点也非常像人脑,就是你给AI一个问题,它能给你一个结果,你可以通过训练去让这个结果变得更加令你满意,但是没法具体操作中间的过程,整个过程也没有太多的逻辑。
举一个之前说过的例子,这是一张末代皇后婉容的照片。
用AI模型上色之后,就成了这样。
当然它还可以有很多别的配色。
那AI是怎么完成黑白照片上色的呢?
如果让我这个人类去给这张照片上色的话,我能想到两种方法:
方法1:我先去调查婉容这件衣服的材质,甚至尝试去找到这件衣服本体,再结合史料上拍这张照片的时间地点,当天的天气光照,确定一种最有可能的颜色给它涂上去。这种方法叫做分析推理。
方法2:我随便找个看着不突兀的颜色就给它涂上,然后所有的背景事物照此操作,最后出来照片像那么回事儿就行。因为我看过很多女人穿着衣服的彩色照片,也看过很多清宫剧,那个味儿我还是很熟悉的。这种方法我们姑且称之为套模板,或者说内味儿法。
AI并不擅长分析推理,但它非常擅长找出内味儿然后总结成模板到处套,特别是在最近这一轮大模型革命之后,AI变得非常、非常擅长总结模板到处套。
这既体现为它无与伦比的效率,也体现为它无人可及的能力。
先说效率。
就拿开头提到的微软给Office软件做的Copilot来说,它很难承担原创性的工作,也就是它无法替代你去形成目标、决心、策略,但它能比任何人都更高效的完成扩展、翻译、总结、查找。
比如做周报把你上周做划的水写成精神饱满的文字就是典型的扩展,用文本形成ppt可以看成是在不同内容形式之间进行翻译,把两小时的会议总结成500字会议纪要当然是一种总结,而在繁杂的Excel数据中找到关键增长指标就是查找,这些本来需要投入几小时甚至几天去完成的工作,现在AI能在几秒钟之内帮你完成。
更有意思的地方在于,这里的扩展、翻译、总结、查找都是广义上的,比如把中文内容变成英文当然是翻译,把同一封邮件根据不同发送对象改成或轻松或严肃的语气是翻译,把内容在文字,图片,视频,3D模型甚至蛋白质结构当中转换是翻译,当然把人类能理解的自然语言转成计算机能理解的编程语言也是翻译。
于是围绕AI大模型就产生了大量的应用,所有刚才提到的场景都已经有相对成熟的产品,比如文字转图片的MidJourney,Discord,Adobe Firefly,文字转ppt的Tome,Copilot,文字转视频的Runway,文字转网站代码的CopilotX等等等等;现在美国的互联网新产品发布网站Product Hunt上面,一半以上的新发应用是基于AI帮你解决各种各样的小问题的。
比如有个叫BookAi.chat的帮你查书的网站,你只要输入一本书的名字和作者,它就会帮你从这本书当中找答案回答你的问题。一方面它能帮你快速提取一本书的精华内容,帮你快速看书;另一方面它也能辅助你看书,当你在看一个大部头的小说比如哈利波特,你看到后面忘了斯内普教授是谁了,你就可以问他。
再比如在管理软件领域的大数据分析。
现在的大型连锁商店都会搜集大量经营数据以供分析,但是当运营人员真的提出要看某些数据的时候,首先数据涉及到商业机密不能让你随便看,然后你的电脑也跑不了那么大的数据库。这时候就需要专业的工程师去帮你调取特定的数据,他们会根据先来后到轻重缓急给调取数据的要求排个序,你会进入到排队队列,真的拿到数据的时间可能是两个月以后。ChatGPT把这个时间缩短到了几秒钟。
最近跟一些创业者和公务员朋友深入聊AI革命,发现实际上我们日常的工作当中,只有非常非常少的一部分是严格意义上的原创,而是有大量的信息搜索总结翻译扩展,大量的沟通,上传下达。当AI充分介入之后,这些流程将会不复存在,公司老板和国家领导人,将可以直接获取最基层的信息,而绝大多数产品的开发周期,都会缩减到一天以内,上午形成想法,晚上网站上线,甚至配合日益成熟的3D打印技术,上午形成想法,晚上零件入库。
这就是AI能给我们带来的效率。而更激动人心的,是AI创造的新的可能性。
有一种医疗诊断技术叫做fMRI(功能性磁共振成像),可以观测记录到大脑血流的微小变化。我们认为大脑在工作的时候,比如说看一张图片,必然会导致各部分的神经元产生不同的对能量氧气的需求,进而导致血流量的微小变化,而这个数据可以通过fMRI记录下来。
那有没有可能这种血流的微小变化数据,跟我们现在看到的图像存在对应的关系呢?当然是有可能的。但是这里这个对应的模板,这个味儿太复杂了,完全超出了人脑的理解能力。
而一个日本大阪大学的团队,用一个叫做Stable Diffusion的AI模型,利用fMRI数据,画出了这样的图像。
患者看到的原图是这样的。
再看两张,这是AI画出来的:
这是患者看到的:
这是AI画的:
这是患者看到的:
这为我们展现了一种实现非侵入式脑机接口的可能性,未来在义肢、轮椅等领域有巨大应用前景,如果说得科幻一点,这就是在字面意义上实现了读心术。
短短11页的论文,读心术,是不是很大胆?
更大胆的是,像这样我们知道两件事情,两组数据之间有关联,而用人脑不知道如何对应上的情况,在人类社会比比皆是。
马丁路德金曾说,我梦想有一天,我的四个孩子将在一个不是以他们的肤色,而是以他们的品格优劣来评价他们的国度里生活。
什么叫做一个人的品格?这曾经是一个抽象的概念,体现为一个人的所有行为举止的集合,而人的行为举止这个数据,其实是可以记录的。
比如数字生命实际上已经可以实现了。对于一个心智成熟的成年人来说,TA在网络上未来的行为,可以认为是过去行为的一种延续。于是只需要对你在网络上所有足迹,看了什么、发了什么做一个数据记录,然后让AI大模型去学习这组数据,就有可能生成一个数字化的“你”。这个“你”可以替你去发评论发弹幕发文章做视频私信表白对线,甚至可以替你花钱,替你做内容赚钱。前两天聊到这件事,有个朋友甚至说他死后更想把遗产留给这个数字化的自己,因为这个数字人比任何人都更能继承他的遗志。
更进一步说,如果能对大脑的神经信号进行细节的收录,那流浪地球2里面的那种完全能代表你线上线下所有所思所想的数字生命,也可以实现了。
这就是一个人的品格,它被AI破解了。
有人在网上发了一组新闻图片,说的是著名的01年美加西海岸9.1级大地震大海啸事件,以及它们造成的破坏和后续的救援。
(地震来了,人们惊慌失措)
(地震造成建筑损毁,桥梁垮塌)
(震后群众寻找亲人,消防队投入救援)
(小布什总统慰问灾民)
整个街景、色调、人物着装,都是2001年内味儿,唯一的问题是,这组图片是用Midjourney生成的,根本就没有这场大地震。
所谓真实感,来自于我们看到新闻内容的点点滴滴,而这个点点滴滴跟真实感之间的关联,本来应该是抽象的,而现在已经被AI破解,以后再也没有眼见为实了。
这些案例看起来可能会感觉一些疯狂可怕,我也有这种感受。自200万年前以来,人类一直是已知世界智能最高的存在,我们早已对此习以为常。而如今,一种新的智能正在破解我们所有抽象的概念。
马克思认为世间万物是普遍联系的,而AI大模型说,这种联系是可以被破解的。
03
革命再临,唯有向前
乔布斯发布初代IPhone的2007年,正是美式全球化的巅峰,中国在其中如鱼得水,随后深度参与了移动互联网革命,产生了诸多世界级的手机品牌、互联网平台,以及世界上最强大齐全的3C电子供应链。
而今时不同往日,全球化进入退潮期,美国对华科技封锁正持续收紧。
从去年10月7日开始,美国根据新的芯片法案,开始限制单精度浮点算力19.5T FLOPS以上,或双精度浮点算力 9.7T FLOPS以上,或存取速度600GB/S以上的GPU对华出口以及相关人员设备对华服务,也就是限制英伟达A100或者以上级别的通用GPU对华出口,这一举措显然意在限制中国AI大模型的训练算力。
去年11月30日,ChatGPT发布,中国大陆是四个IP地址禁止访问ChatGPT的地区之一,其它三个是分别是俄罗斯、伊朗和香港。
按照打压中国在芯片、操作系统等尖端领域追赶美国的逻辑,美国的新一代芯片和操作系统应该尽可能扩张占领中国市场,正如当年高通、英特尔和微软做的那样,所以这一波的封禁是非同寻常的。
显然美国希望整个把中国排除在这一轮AI革命之外,不只是芯片操作系统,是整个排除在外。Very exciting。
AI芯片,超级计算机,云服务,AI开发框架、编程语言,大模型以及基于大模型的终端应用,组成了万亿级别的AI产业机会。
但是台积电垄断了AI芯片代工,英伟达垄断了高端通用GPU设计和AI开发框架(CUDA),导致整个产业只有后端的大模型和终端应用对中国企业部分开放,并且随时可能被掐断。
与此同时,随着AI革命发生,工程师红利实际上已经没有了。
什么叫做工程师红利?一个新的发明出来,中美的团队几乎同时看到,同时开始工程调优,美国人磨磨唧唧一年拿不出成熟的产品,中国人996两个月搞定了,于是就占据了先机,这个循环再走几轮,美国团队彻底没影了,这就是工程师红利。
我本身对于这种建立优势的方式没有意见,这个世界的竞争是残酷的,任何能建立优势的办法都得用上。
但现在AI 10秒钟就搞定,你再在那儿996,就会显得很搞笑。
一场有关极致效率和无限可能性的革命正在发生,世界的经济发展正在向创新驱动快速移动。
要是还有一些什么东西在阻挡着我们转型成创新型国家,是时候做出改变了。
酷玩实验室整理编辑
首发于微信公众号:酷玩实验室(ID:coollabs)
如需转载,请后台留言。
分享给朋友或朋友圈请随意