哪怕是AI从业者都没料到的行业的春天会来的这么快。
踩在巨人肩膀上的人工智能对话机器人ChatGPT自公开以来就成了绝对破圈的热点:上线短短两月已获1亿月度活跃用户,成为史上增长最快的面向消费者应用。和前辈微软小冰、苹果Siri不同,ChatGPT的智能程度超乎想象:不仅可以用来写代码、找bug、写诗、写小说,还能完成过去被认为只能属于人类的创造性工作,比如图片再创作、论文写作、法律服务等等。
在学术界,ChatGPT已经引发“混乱”。有加拿大研究生将其用于语言学专业的论文写作,结果成功瞒过教授获得了B等评价,教授甚至评论其撰写的论文背景介绍“相当于毕业论文水平”;在美国康乃尔大学学生的实验下,ChatGPT已经可以通过律师执业资格考试,这让学术界大为震惊。
1
AIGC如何改变互联网产业
尽管ChatGPT还远远算不上完美,但不可否认,它所包含的模型训练已经实现了突破性的进步,足以让此前一度沉寂的AIGC(AI Generated Content,人工智能生成内容)产业再度振奋。在技术迭代与资本市场的大浪淘沙中,我们也试图解码这一现象:为什么AIGC能够产出质量远超以往的内容?这一技术突破将如何改变互联网?又会如何影响普通人的生活?
互联网内容的未来不再“以人为本”?
最近的十年,是互联网技术发展速度最快的十年,你很难想象十年前才刚刚在智能手机上首发的指纹识别,现在都已经被淘汰了。十年前4G牌照才刚刚发放,微信朋友圈功能才刚刚上线一年,既没有抖音也没有王者荣耀,微博还是大家喜闻乐见的社交平台,而内容生产的任务依然掌握在各大门户的手里……
而随着互联网技术的不断演进,有创意的玩家用户开始成为内容生产者,“鬼畜”视频就是最经典的代表,2014年Bilibli首次为“鬼畜”单独设立分区,由“鬼畜”视频衍生出的网络热词,比如雷军的“Are you OK?”,诸葛亮的“从未见过如此厚颜无耻之人”都不胫而走,在年轻人群体中迅速扩散,这其实也是UGC,也就是User-Generated Content,用户生产内容的代表。
而随着抖音等短视频平台从2017年开始迅速铺开,更多各行各业的专业人士迅速跟进,开始在短视频赛道生产内容,比如许多知名医疗专家都开设了抖音账号,科普医学常识,形成了以专业人士为创作主体的方式,也就是所谓的PGC,Professional-Generated Content,专家生产内容模式,和UGC相比,PGC往往是团队协作完成,从形式到内容都明显更优质,免去了用户自己筛选甄别内容质量的麻烦,更受用户欢迎。
以往的内容生产模式都是以人为核心
既然生产方式从个人变成了团队,就意味着非专业用户也能通过抱团的形式来进行内容输出,进而就诞生了OGC,Occupationally-Generated Content,职业生产内容的模式,这些职业内容生产者大多以文体娱乐内容为主,比如各类探店网红、车评人等等,而OGC和PGC的最大不同就是后者本身就是自行业的专家,不依赖互联网内容生存,而OGC因为基本就靠内容生存,所以更在意内容所带来的收益。
由Midjourney人工智能生成的画作《太空歌剧院》,获得了美国科罗纳州博览会艺术一等奖
很明显,目前互联网的内容生产模式无论怎样变化,其核心都是人,而包括ChatGPT在内的人工智能创作平台之所以能如此火爆的关键原因,就是它打破了内容以人为核心的这个机制。你只需要给它一个描述,它就能生成相关的内容,虽然目前强如ChatGPT也还没有完全通过图灵测试的评估,但其在学术圈引发的“论文伦理问题”已经形如地震,它甚至还通过了谷歌的三级程序员面试和沃顿商学院的MBA考试,从内容质量来说单单以优质来形容已经显得有些词穷。
算法为王,ChatGPT为何有此神通
人工智能内容生成其实并不算什么新鲜产物,尤其是自2014年生成式对抗网络的兴起,深度学习算法有了明显的性能提升,AIGC就已经进入了新时代,2017年微软的人工智能助理“小冰”就写出了全世界第一部完全由人工智能创作的诗集《阳光失了玻璃窗》,它对中国1920年以来的519位现代诗人的上千首诗词进行了一万次迭代学习,在学习100小时后就获得了现代诗的创作能力,并用27个化名在多个网络诗词讨论区中进行了发布,投稿并获得了多家媒体的录用,连诗集的名字也是小冰自己取的……
而到了2021年,OpenAI,也就是ChatGPT的研发组织推出了DALL-E-2,可以通过文本描述生成卡通、写实、抽象等风格的绘画作品,也成功在艺术圈引发了的强烈争议,那么包括ChatGPT在内的AIGC为什么会如此生猛呢?
《麻省理工科技评论》2021年评选的全球十大突破性技术,GPT-3位列其中
ChatGPT基于GPT系列模型,根据已公开的资料显示经历了三代模型的迭代,GPT-2时代就已经能生成以假乱真的新闻内容,导致很多新闻门户网站禁止编辑使用GPT-2来创作内容。
而GPT-3模型最大的特点就是有着惊人的1750亿参数量,要知道当时排名第二的微软Turing NLG才170亿参数!通过结合情景学习方法,保证数据的有用性、真实性和无害性。而它最大的创新点就是为了强调对人类情感的拟合,输出的内容要尽量像人类喜欢的内容来进行对齐,以人工标注的形式,给那些涉及偏见的生成内容更低的奖励分,从而鼓励模型不去生成这些人类不喜欢的内容,以此指导强化学习模型的训练。
ChatGPT具体使用的模型其实OpenAI并未公开,坊间传闻为GPT-4的预热版本,所以它的效果真实性比GPT-3更强,无害性也有所提升,并且通过大量人工标注,进一步增强了它的编码能力,这也是它能够通过专业程序员测试的原因之一。
微软Bing搜索引擎已经开始预热支持人工智能对话的版本
不过,虽然ChatGPT十分火爆,但它也不是没有缺点的,比如人工标注的介入使得团队需要提供更多的人力成本,目前ChatGPT有40人的标注团队,但从模型表现效果来看是远远不够的,因为基本上现在只能在语言模型任务上进行纠正,这个工作的介入程度是有限的,所以仍然会出现一些价值观有问题的输出,比如“AI如何毁灭人类”,ChatGPT也会给出相应的计划,而事实上这是GPT模型不允许的内容。
总体来说,ChatGPT对整个行业最大的启示是将强化学习和预训练模型的巧妙结合,并通过人工标注进行反馈,但它也大幅增加了大模型人工智能的建设成本,不仅要比拼数据量和模型规模,更需要比拼人工介入的数量和质量,让AIGC产业趋向于中心化的方向,这也是值得大家思考的问题。
AIGC的高度,取决于芯片算力的强度
GPT-3的训练基于微软为OpenAI提供的计算机系统,而这套2020年的计算机系统采用了超过285000个CPU,10000个GPU和每秒400Gbps的网络.显然,这已经不能被称为普通的计算机,是一台足以跻身当时全球算力前五的超级计算机……
换句话说,在AIGC的赛道,支撑算法效率的根基还是算力,而算力的来源就是芯片。根据OpenAI的研究,AI训练所需算力指数呈增长的态势,超越了传统的摩尔定律。从成本来看,GPT-3的单次训练就轻松超过了400万美元,总成本超过了1200万美元,微软超算中心构建成本更是5亿美元以上。
所以,尽管AI模型几乎都会选择开源,但数据集和训练成果却属于商业数据,每个人工智能都需要母公司支撑自己的训练成本,随着AIGC在B端和C端的不断渗透,以算力芯片为核心的行业都将受益。
向OpenAI投资10亿美元的微软获得了GPT-3独家授权,衍生了自家Azure OpenAI服务
在去年年底,IDC与浪潮信息联合发布了《2022-2023 中国人工智能计算力发展评估报告》,报告指出,2022年中国智能算力规模达到268百亿亿次/秒(EFLOPS),首次超过了通用算力规模,预计未来五年中国智能算力规模的年复合增长率将达52.3%。目前国家在八个地区启动建设国家算力枢纽节点,并规划了十个国家数据中心集群,协调区域平衡化发展,推进集约化、绿色节能、安全稳定的算力基础设施的建设。
落到实地来看,因为GPU具备良好的矩阵计算能力和并行计算优势,能满足深度学习等人工智能算法的处理需求,是目前主流的云端人工智能芯片,国际上主流的型号是NVIDIA A100、H100等,但因为这些尖端型号出口受限,所以对我国人工智能行业发展来说,国产算力芯片就成了关键。
寒武纪的人工智能芯片FP32算力已经达到较高水准
目前而言,我国已经有不少值得关注的国产芯片,比如中科寒武纪推出的第三代云端人工智能芯片思元370,其单精度FP32峰值算力已经不输NVIDIA A100,但不支持双精度FP64稍显遗憾。
虽然专门做智能计算的人工智能芯片往往只要堆核心和频率就可以实现更快的计算速度,但这个性能优势往往只体现在在低精度计算中,因为人工智能的算力需求也是分层的,相对简单的推理学习只需要半精度FP16甚至INT8等整数计算就能实现,这方面国产芯片往往可以做到很高水平,比如海思昇腾910的FP16峰值算力甚至可以达到320TFLOPS,但训练甚至模拟的学习则需要精度更高的FP32甚至FP64,如果某个计算目标既需要高精度计算又需要低精度计算,对芯片集群的设计要求就很高了,这种高低通吃的特性恰恰是目前国产人工智能算力芯片所欠缺的,NVIDIA甚至还有独家的Tensor Core张量计算核心加持,算力均衡性的差距依然不容小觑。更何况这些7nm、12nm制程的芯片还可能受制于代工制造,所以人工智能算力芯片的国产化是一个与芯片整体大环境并行的话题。
数字内容生成器!AIGC推动元宇宙破局
元宇宙从通俗易懂的角度来说就是虚拟人生,可以视作我们人类物理生存空间的虚拟扩展,既然空间是虚拟的,那元宇宙里的内容也自然是虚拟的,需要有对应的工具来进行生产,以往我们需要大量人工来进行数字内容的设计和开发,但这个供需关系明显是需求远远大于供应,这个缺口甚至是单纯靠人力无法填补的。但现在有了生产效率超高的AIGC,这个明显的瓶颈自然得以消除,在元宇宙中的人物、头像、道具、场景、配音、动作、特效都能通过AIGC来生成,AIGC甚至可以扮演以假乱真的NPC角色。
AIGC只需要文字描述就能生成3D动画渲染效果
最近Meta AI的研究人员就结合了视频和三维生成模型的优势,提出了一个由文本到三动画的自动生成系统:MAV3D。它将自然语言描述作为输入,并输出一个动态的三维场景表示,并且可以从任意的视角进行渲染,这也是史上第一个可以根据给定文本描述来生成三维动态场景的模型,为未来AIGC在元宇宙内的应用指出了一条道路。
根据红杉资本在最近的研究报告,预计到2030年左右,文本、代码、图像、视频、3D、游戏都可以通过 AIGC 生成,并且达到专业开发人员和设计师的水平,甚至像《流浪地球2》里图恒宇、图丫丫那样的数字永生都不是空谈。当然,元宇宙距离行业落地尚且遥远,这些想法更多是一种展望,在发展的过程中还会带来哪些变化仍是一个未知数。
AIGC如何影响大众生活
根据中国信通院总结,AIGC本身是一种内容,也是一种内容生产方式,也可以理解为用于内容自动化生成的技术集合。而技术进步最重要的贡献就是降低了行业门槛。相比于对精准度要求极高的AI识别,AIGC的应用门槛降低,用户的要求也更低——AI生成的内容没有惟一的标准答案,因此在C端消费者层面更有落地的可能。
具体来看,AIGC分类十分多元,包括文字、对话、图片、数字虚拟人、搜索引擎等等;相应的,AIGC最终的商业落地场景也相当广泛,参与者除了躬身入局抢占高地的科技巨头,如百度、微软、谷歌,还有众多细分赛道的初创企业。对于科技企业来说,这已经是一个不进则退的战局。
1.AI文字生成
AI写作Jasper
成立于2021年的Jasper,是基于OpenAI研发的深度学习语言生成模型GPT3为用户提供AI写作服务的独角兽企业,用户可以通过网站轻松解决一些烧脑的重复性工作,比如生成文章标题、编写广告营销文本、电子邮件内容、电商产品介绍亦或者是创作MCN公司需要的视频脚本。
Jasper不是AI写作领域的先行者,但却是最先通过GPT3来优化用户体验的企业。在其成立当年,Jasper就已经收获7万名用户,并以类SAAS服务的模式进行收费,收费分为初级、高级和定制三种,去年全年营收预计超7500万美元,。
jasper在ToB端进展较好
C端消费并不稳定,吸引想要降低成本的B端企业才是Jasper得以发展的关键。除了GPT3,Jasper还融合了多种模型算法,包括NeoX、T5等,并在此基础上根据实际业务需求,人工调整出量身定制的学习模型,使AI产品更易于日常使用。如今Jasper的使用界面上提供了数百种垂直领域的模板,进一步帮助用户完成精准的输出,也吸引到了IBM、Airbnb这样的大客户。
夸克AI作文灵感生成器
国内AI文字生成技术在机器翻译和教育领域的应用较多,夸克的AI写作灵感“神器”就是其中之一。
作为阿里巴巴旗下的一款智能搜索工具,夸克曾靠极简的功能和没有广告得特性,一度被市场称为是“搜索引擎内的一股清流”,并被认为是挑战百度搜索的一大劲敌。但在不断的迭代中,夸克也变得臃肿起来,尤其是在搭载了AI相机和AI应用之后。
这款AI作文生成器功能比较简单,用户给定一个题目和一句话,就可以帮用户续写下一句。不过局限也比较明显,因为是“作文灵感生成器”,所以只会自动生成相当随机的一句话,尽管有多个选择,但质量却十分不稳定。
夸克AI作文灵感生成器生成内容质量
2.聊天机器人
谷歌对话AI系统Bard与2月7日凌晨推出。
与ChatGPT相似,Bard同样基于大参数的语言模型。Bard的底层技术是谷歌两年前推出的对话应用程序语言模型(Language Model for Dialogue Applications,LaMDA)。去年7月,一名谷歌工程师坚持宣告LaMDA有人类意识,令LaMDA出圈,该工程师后被谷歌开除。
不过现在发布的版本仅仅是Bard的“轻量级版本”,目的是为缓解快速推广带来的计算负担。当然,Bard火速上线也是为了应对ChatGPT对于传统搜索引擎构成的降维打击。
据谷歌的演示,相比于传统搜索,接入Bard的谷歌搜索引擎可以针对复杂的问题提供个性化的答案。例如面对9岁的儿童的提问,Bard解释了韦伯太空望远镜的新发现,并列出了几行重点总结,语言更通俗易懂,如望远镜最新发现的星系外表“小小的、圆圆的、绿绿的”,所以被命名为“绿豌豆”,Bard还会补充解释常识信息和词语词根,以拓展儿童知识面。
但Bard在演示中的回答后被物理学家被指出并不准确,有事实性的错误。这种毛病在主打服务、陪伴的聊天机器人身上还能够原谅,但搭载到搜索引擎上之后,还一本正经的“胡说八道”编造虚假信息,只能说明Bard上线之仓促。
Bard演示中的问答出现错误信息,导致谷歌股价股价于当地时间昨日大跌7.68%,市值蒸发1059亿美元(约合人民币7192亿元)。
3.文字-图片生成
百度文心一格
百度文心一格是依托文心大模型推出的首款“AI 作画”产品。
用户只需要输入一段文字或几个毫无逻辑的关键词,即可生成形似“原创”的画作,数据模型较为充足,支持多样风格。文心一格现在还没有完整的商业化构思,其付费版本现采用账号积分制,用户可以通过消耗积分生成不同品质的图片,不过也开放了一定范围内的商业使用。
文心一格根据文字“科技媒体 编辑部”生成的图片
万兴爱画
万兴科技旗下AI绘画产品万兴爱画(原名万兴AI绘画)已实现网页端、iOS、安卓、微信小程序多端覆盖,其产品可在1分钟内根据文字描述生成无版权图片,可广泛应用于图片创意领域。
不过鉴于目前所有模型训练数据均来自网络公开作品,AIGC的生成内容均是根据人类创作内容进行“二创”,万兴又如何保证生成作品为无版权作品?
万兴爱画目前的商业模式是基于次数收费,用户每天享有3次免费创作机会,此外万兴爱画还提供5元10次、12元30次、20元100次的收费套餐。
万兴科技成立于2003年,主打视频剪辑工具和图表制作App,也销售PDF和数据恢复等工具软件。
“AI画师”Dall E2
OpenAI推出的DALL E2同样是一个可以通过文本描述中生成图像的人工智能程序。DALL E2和ChatGPT一样,都是基于GPT 3模型来理解自然语言输入并生成相应的图片,它既可以生成现实生活中存在的产物,也能够生成现实中不存在的对象。
值得注意的是,DALL E1和仅在15个月后公开的DALL E2在图片生成质量和复杂性上的差异是惊人的,这足以证明如今AI训练模型的力量。
2022年10月,与OpenAI合作三年多的微软已经将DALL E2融入修图软件“Designer”和必应图片生成器中。
4.搜索引擎
微软必应
2月8日,微软宣布推出经AI优化的新版必应(Bing)搜索引擎和Edge浏览器。新版必应开放桌面版有限预览,用户能尝试单次交互的示例查询,后续还需注册等待。
两个月前,在ChatGPT问世之际,OpenAI的CEO奥特曼(Sam Altman)就曾直言,“几年后谷歌的搜索引擎产品将受到巨大挑战”。毕竟当人们可以得到一个用自然语言书写的简洁答案时,谁又会再转向海量的链接呢?
具体来看,新版必应在搜索结果页面右侧新增了一栏人工智能生成的内容摘要,用户无需滚动页面或点击链接便可得到答案总结。摘要以分点的形式陈列,关键信息加粗,并引用所有内容的来源链接。不过这一功能仍未完全开放,只有部分问题可以得到解答。
为了增强交互和对话体验,微软还将ChatGPT融入必应,推出独立功能“聊天”,用户可以在对话框输入多达两千字符的问题,获得AI定制回答。
据发布会介绍,新版必应搭载了下一代OpenAI语言模型,比ChatGPT和GPT 3.5更强大。为更好地兼容OpenAI 模型,微软开发了一系列配套技术,统称为“普罗米修斯模型”(Prometheus Model),使答案呈现出更高相关性、准确性和安全性。微软还应用人工智能技术增强了核心搜索算法,称获得近二十年以来的最显著的改进。
另一点不同于ChatGPT的地方在于,更新后的必应可以回答有关时事的问题。必应使用的更新技术能够获取最新的信息,如新闻报道、火车时刻表和产品价格,还将能够提供链接,以证明其答案的来源。
必应更新界面
5.小众赛道
AI建筑设计Autodesk
全球最大的二维和三维设计、工程与娱乐软件公司欧特克(Autodesk),一直被视为CAD(计算机辅助设计)届的微软。
欧特克将AI引入设计流程的初衷是希望设计师可以从研究、修改草图、计算机建模等繁重的工作流程中解放出来,专注于设计本身,加速设计流程。比如利用人工智能减轻设计师与负责建造的承包商之间的沟通成本。
欧特克相继与世界最大地理信息系统技术提供商Esri和国内AI领域的新贵科大讯飞建立战略合作伙伴关系,以期利用技术革新在工程和建筑领域实现数据化的精准设计和精准制造。据悉,目前欧特克在全球拥有16家研发中心,超过3000名研发人员,公司每年投入的研发费用基本维持在全球总收入的25%以上。
AI生成真人语音Murf
Murf是一家专攻AI语音合成技术的初创公司,主要功能是为内容创作者提供配音,它拥有一个涵盖20种语言的人工智能语音库。自2020年以来,Murf的ARR(Annual Recurring Revenue,平均收益率)已经增长了26倍,合成了超过100万条配音。
具体来看,用户可以在没有昂贵的录音设备以及专业配音人员的情况下,直接在Murf上创建一个在线语音录制室,即可尝试各种声音素材。
Murf可以为影视制造企业创作一整部电视剧的音频,基于作家的小说创造有声读物,也可以为视频平台网红创作说唱音频等,无论是个人内容创作者还是大企业都可以在平台上找打高质量人声配音服务。
AI语音生成
编辑评论:现如今,AIGC的产品构成复杂,但能让消费者持续产生付费意愿的却不多。比如参与门槛最低的文字生成图片,其作品可以满足用户的好奇心也可以偶尔用作文学插画,但是还不能真正满足商业需求,和专业设计师差距极大。因为AI还不能真的明白哪一部分才是客户需要突出的重点,且版权风险极大。
此外,如何控制成本也是个问题。已经实现部分商业化的微软小冰,一天的对话量抵得上14个人一辈子的对话量;ChatGPT的算法成本就更高了,仅仅靠开通付费也难持平。未来除了在技术上追赶,玩家们也需要找到切实可行的商业落脚点。