我们认为,人工智能不仅会带动底层算力等基础设施硬件的变化,也会在应用端带来信息产业及行为决策方式的变化,并进而带动智能终端人机交互模式的创新性变革。
摘要
在算法端,ChatGPT引发AI浪潮,多模态大模型持续迭代。随着OpenAI陆续发布ChatGPT、GPT-4推进大模型迭代,国内外科技巨头也在AI大模型领域加快布局节奏。除大模型外,生成式模型还沿着三个方向迭代:1)模型扩展:由文本模型拓展到SAM为代表的图像模型,由大模型拓展到中间层模型。2)从通才到专才:垂类小模型将迎来百花齐放的发展期。3)模态融合:从单一大模型到多模态大模型,不同模态实现互相转化。
从信息交互视角看,人工智能将在应用领域实现百花齐放。在AI技术之外,通过引入外部知识源或将大模型与现有应用结合,催生出了许多创新性领域和信息交互多个环节的变革:1)内容生成:AI实现了内容创作领域量和质的飞跃,大模型能够快速生成海量内容,且在质量和效率上不逊色于人类;2)内容分发:AI的更重要作用在于改变了内容分发的逻辑,并形成新的流量入口;3)决策和行动:基于信息的交互,在决策和行动领域,科技巨头已开始探索如何通过AI直接控制机器人的决策和行为。
从人机交互视角看,人工智能有望带动AIoT智能终端底层硬件和交互模式的升级。我们认为,AI赋能智能终端变革可能存在以下趋势:1)智能手机:在硬件端,AI应用有望带动移动AI芯片性能提升,进一步有望带动手机创新加快;在生态端,AI长期将改变人机交互的方式,手机端或有望形成新的流量入口,长期或深刻影响产业商业模式。2)可穿戴产品:AI使市场重新挖掘了TWS、手表中语音助手的入口价值,同时借助内容生成和图像分割模型,AR/VR人机交互效率将得到显著提升。3)智能家居:智能音箱的交互水平有望得到全面提升,促使智能音响成为智能家居关键入口之一,同时通过接入大模型,将提升智能家居系统的智能化程度,有望真正意义上实现全屋智能。4)机器人:谷歌PaLM-E模型探索了通过自主学习的大模型,在现实环境中处理机器人指令,实现复杂任务的完成。
风险
AI算法技术及应用落地进展不及预期,AI变现模式不确定,消费电子智能终端需求低迷。
正文
在人工智能的四大要素算力、算法、数据、应用中,我们在此前的“AI浪潮之巅”系列报告中,已经探讨了算力:《AI浪潮之巅系列:服务器,算力发动机》、《AI浪潮之巅系列:边缘AI SoC,百花齐放》、《AI浪潮之巅系列:云端算力芯片,科技石油》;算法:《AI浪潮之巅系列:ChatGPT之后,大小模型如何推演?》两大要素。本文则聚焦于应用视角,以人机交互为切入口,探讨人工智能尤其是近期以GPT4为代表的大模型发展,将对包括智能终端在内的硬件行业产生的影响。
GPT4带动人工智能发展步入新阶段
ChatGPT引发AI浪潮,科技巨头加速追赶布局大模型
GPT带动AI行业的奇点时刻到来
基于Transformer神经网络架构的聊天机器人ChatGPT一经问世,其展现出强大的语言理解及生成能力在全球范围内得到了广泛关注。我们认为,ChatGPT的重要之处在于将自然语言处理与生成决策相结合,从而使模型在一定程度上具备了思考能力。在此前大小模型的报告中,我们介绍了ChatGPT背后OpenAI对GPT系列模型持续迭代的过程,其中2023年3月15日,OpenAI发布GPT-4,相比GPT-3.5增强了图像识别等多模态输入能力,进一步引发了对多模态大模型的讨论。
图表1:GPT模型及其技术演进过程
海内外科技巨头加速追赶,生成式大模型百花齐放
随着OpenAI陆续发布ChatGPT、GPT-4推进以文本模型为主的大模型迭代,同时GPT5或渐行渐近,国内外的科技巨头也在AI大模型领域加快了布局节奏。
图表2:国内外AI大模型进展
注:其中画虚线外框的为还未发布的模型
图表3:主要头部科技公司在人工智能模型/技术及应用端布局
技术路线回顾:GPT模型性能快速提升的原因是什么?
ChatGPT的技术原理是什么
ChatGPT聊天机器人程序背后的基础是基于Transformer算法建立的GPT-3.5模型,隶属大规模语言模型(Large Language Model,LLM),其背后的工作原理分基础大模型训练、指令微调和人类反馈三部分。
► 基础大模型训练:模型架构方面,GPT(Generative Pre-trained Transformer)采用由多层Transformer组成的单向语言模型架构,通过自回归方式从左到右对文本序列建模;训练数据方面,GPT-3训练数据高达45TB,来源包括Common Crawl(训练权重占60%)、WebText2(22%)、两本基于互联网的书籍语料库(各8%)及维基百科(3%)。
► 指令微调:指令微调是将大量各类型的任务,统一为生成式自然语言理解框架,并构造语料对模型进行微调,使得大模型具备了任务泛化能力。
► 人类反馈:经过指令微调的模型具备了很好的任务泛化能力,但是模型输出的简单答案与人类表述相差较大,因此需要通过对模型训练人类偏好以达到更好的效果。
NLP的iPhone时刻:从GPT3.5到GPT4,发生了什么变化?
自然语言处理模型(Natural Language Processing,NLP)所能实现的语言理解及生成功能,来自于机器学习、神经网络以及Transformer模型的多种技术积累;而ChatGPT的诞生及GPT-4的推出,则造就了NLP的iphone时刻。
图表4:NLP模型的演进过程
ChatGPT出现之前,以GPT-3为代表的LLM存在着模型使用成本高、泛化能力不强等问题,而ChatGPT通过指令微调、有人类反馈的强化学习、思维链等技术融合,解锁了GPT模型更强任务泛化能力、更低的使用成本。
#1 指令微调
► 成本优势:指令微调的训练成本是传统预训练微调模型成本的千分之一。根据OpenAI 2022年1月27日发布的论文[1],预训练微调1,750亿参数的GPT-3需要3,640 petaflops/s-days的算力,而通过指令微调同样参数的SFT模型只需要4.9 petaflops/s-days(训练同样参数的 PPO-ptx模型则需要60 petaflops/s-days)。
► 任务泛化能力:当用于微调的“指令-输出”数据集达到一定数量后,大模型对没有见过的指令做出反馈的泛化能力显著提升。根据论文[2],使用指令微调的FLAN在zero-shot任务上表现比预训练及prompting方式好;此外,随着微调任务数量的增加,zero-shot下模型在新任务的表现明显提升,证明了指令微调优秀的任务泛化能力。
图表5:不同模型的zero-shot任务表现
图表6:指令数的增长带来zero-shot任务更好表现
#2 基于人类反馈的强化学习
基于人类反馈的强化学习(Reinforcement Learning from Human Feedback,RLHF)主要分为包括:1)初步训练大模型,从得到的指令集合中采用部分数据,对初始的大模型进行有监督的微调;2)收集专业人员对答案打分的数据,并训练奖励函数模拟人工评分;3)利用强化学习机制根据奖励得分进一步优化大模型。通过RLHF,模型的输出可以更贴近人类表述;此外,实时的人类反馈也可以让模型更好匹配用户不断变化的需求,促成了更好的人机交互。
图表7:基于人类反馈的强化学习过程
#3 思维链
思维链(Chain-of-Thought,CoT)通过向大型语言模型提供带解释推理过程的样例,使得其在回答提示时也可以显示推理过程,从而实现由此前“问题输入——答案输出”向“问题输入——过程推理——答案输出”形式的转变。思维链的出现为大模型提供了调试推理路径出错的机会,使得解决泛化任务问题的过程更加可控、模型结果输出更加准确。
图表8:指令和训练目标中思维链示例
GPT以外,生成式模型还有哪些迭代方向?
模型扩展:由文本到图像,由大模型到中间层模型
ChatGPT体现了文本大模型的能力,而在视觉领域,SAM大模型引发关注。2023年4月6日,Meta发布SAM(Segment Anything Model)模型[3],使Prompt创新方案从自然语言处理领域(NLP)向计算机视觉(CV)领域延伸。在训练方式方面,SAM可以通过提示(Prompt)对新的数据集和任务进行zero shot和few shot学习,从而实现基于前景、自由格式文本、背景点、粗框或掩码、或者能指示图像中要分割内容的任何信息等Prompt实现泛化任务中图像的自动分割。而此前解决图像分割主要分两种:1)交互式分割,需要人工手动迭代细化掩码来指导识别对象;2)自动分割,需要大量的手动注释对象来训练特定对象并进行定义,随后可自动分割该提前定义的对象。在训练数据集方面,SAM是通过本身对图像的交互注释来搜集数据,而此前模型是通过大量人工标注的方式,因此SAM可以通过交互注释图像搜集更多的数据集,实现模型任务泛化能力的进一步提升:SAM交互式注释一个掩码只需大约14 秒,比之前COCO手动掩码注释快6.5倍。
图表9:SAM产生掩码图像分割的原理
图表10:SAM收集分割掩码数据集是之前模型的400倍
除了大模型的迭代外,侧重于具体功能实现落地的中间应用层模型,也正展现出更大的发展空间。
► 图片生成模型:2023年3月15日,MidJourney推出了V5新一代文本到图像算法的模型,它通过输入文本和参数,基于机器学习算法生成图片。
► 图像创作模型:2023年3月17日,Stability AI推出Stable Diffusion Reimagine新算法,通过以图生图,它允许用户无限制的生成单个图像的多个变体。
► 长视频生成模型:2023年3月22日,微软发布基于Diffusion over Diffusion架构的超长视频生成模型NUWA-XL[4],首次实现了基于自然语言指令的高质量超长视频的并行生成。NUWA-XL采用了Diffusion over Diffusion架构,通过“从粗到细”的过程生成长视频,以这种迭代应用局部扩散来填充中间帧,视频的长度会呈现指数级增长,并具备了以下的特点:1)这种分层结构使得模型可以直接在长视频上训练,从而消除了之前模型训练-推理的差距问题;2)支持并行推理,显著提升长视频的生成速度;3)由于视频的长度可以相对于深度 m 呈指数级扩展,因此模型可以很容易地扩展出更长的视频。
从通才到专才:垂类小模型百花齐放,潜力待开发
从大到小,垂类小模型兼具性能与成本优势。前述的大模型注重通过大规模的数据训练,以海量计算的方式搭建一个通用型的基础模型,在通用性、涌现能力等方面表现极佳。但大模型同样存在算力成本高昂、数据量庞大等较高的研发门槛,人手一个大模型不具备经济性同时在应用上未免“大材小用”。同时在聚焦到具体的人工智能落地领域时,由于不同细分行业在数据源、聚焦功能、安全性等方面的要求不尽相同,大模型在细分垂类领域的适配性也无法达到最佳。因此在实际的商业化落地过程中,小模型更多地引起了行业的关注。尤为重要的是,小模型的出现为未来模型在小型化、移动化设备的运行提供了可能。
图表11:模型越大效果越好,但产生的价值需要考虑成本
通过模型迁移,小模型可基于大模型进行研发。当前较为通用的做法是基于现有大模型进行小模型的开发,所涉及的技术主要为知识蒸馏、剪枝、迁移学习三种。从根本上而言,模型大小应当取决于数据量和任务复杂性,由于大小模型各自具备优点,因此在实际使用中,将大小模型结合能够获得更好的效果,具体的融合方法包括集成或者异构等方式。大小模型的结合能够较好平衡资源占用与性能最大化之间的矛盾。
模态融合:触类旁通,多模态大模型的展望
从单一大模型到多模态大模型,不同模态实现互相转化。在单一模态大模型的迭代发展之外,当前人工智能的创造能力边界已经由纯文本、编程逐步扩展到不同模态之间的转化,包括文本、图片、音视频等多模态领域,目前比较主流的视觉合成模型包括OpenAI的DALL·E、微软的女娲、谷歌的Parti等。
图表12:主要多模态模型对比
信息交互视角:AI影响信息生成、分发、决策
当前AI的发展如此迅猛,以至于人类无法完全展望到底AI能在什么程度上改变未来世界。当前GPT为代表的基础模型仍在迭代,各行业仍在探索与AI结合的方式,无法全面概括AI发展对未来社会将有多大影响。在本章中,我们从信息交互视角出发,聚焦于探讨AI将给科技行业带来的创新机会。
内容生成:AIGC的出现,丰富了内容端的供给
在内容生产的角度,内容创作遵循产出持续丰富的规律。互联网时代经历了PGC-UGC-AIUGC的过程,但UGC发展到今天,受限于普通用户的生产能力、创作水平、时间精力等,在内容量级(生产内容有限)和内容质量(更多聚焦于低门槛的文字、图像、短视频)上存在局限,并且生产效率也较低。AIGC的出现,实现了内容创作领域量和质的飞跃,大模型能够快速生成海量内容,且在质量和效率上不逊色于人类。
图表13:2023年中国AIGC价值市场规模分配
图表14:中国AIGC产业不同模态赛道发展预测
注:圆圈大小表示预估2030年,该赛道相对市场规模
AIGC目前主要通过模型+应用的方式进行。由于大模型的训练对算力、人才、资金的需求具有很高的门槛,许多科技公司通过引入外部知识源或将大模型与现有应用结合,催生出了许多创新性领域。在3月2日,OpenAI宣布开放ChatGPT和Whisper的模型API,用户可将其集成在应用程序等产品中。AIGC的出现,丰富了包括文本、音频、图像、视频、代码生成等方面的内容供给。
图表15:国内主要大模型接入的内容生成产品
内容分发:改变人机交互方式,更改变了流量分发渠道
在内容生成之外,AI的更重要作用在于改变了内容分发的逻辑。在GPT之前,弱人工智能只能在有限程度上提升分发效率。在互联网时代,内容的分发亦经历了门户编辑——搜索引擎——个性化推荐三个过程,但当前的内容分发仍存在如下问题:1)不同行为的智能化程度不同,距离商业化变现最近的广告(程序化广告)智能化程度最高,娱乐内容如短视频次之,但社交及需要用户主动发起的工具行为个性化程度最低;2)用户的需求仍被分隔在不同的应用中,如出行需要高德地图,买东西需要淘宝,外卖需要美团外卖等;3)用户需要主动发起需求,且无法满足带有弱用户意志的信息获取需求;4)除了部分细分的图片、视频APP外,人机交互主要还是以单一文本为主,且语义理解能力较差。
GPT的出现,使人们看到了AI在内容分发方面的强大潜力。举例来看,如果简单地将ChatGPT理解为搜索引擎+社交软件,人工智能将在以下方面对内容分发做出改进:1)通过提升个性化推荐能力,扩大内容分发的覆盖领域,包括工具性行为如打车、购物;社交、视频、游戏等社交娱乐领域;2)统一入口的出现,有望集成单一用户多种需求行为,如业界讨论是否未来会出现统一的API接口,通过问答智能助手的方式,完成出行路线推荐、购物推荐、外卖下单等多个行为;3)通过内容生成,满足带有弱用户意志的信息获取需求,用户或许不需要非常精准的指令,也能获得所需要的内容;4)多模态的人机交互方式,打破了内容分发类型的鸿沟,通过文本、语音指令,或许就能够完成和实现其他定制化模态内容的获取。
图表16:内容分发渠道变迁
图表17:AI相关应用涉及细分领域
行为决策:AI赋能机器决策,智能化程度提升
当AI改变了前述的内容生成和分发两个环节后,下一步演进方向或许是在行为决策领域。2022年5月,DeepMind发布集合CV和NLP的通用智能体“GATO”,它可以玩雅达利游戏、输出图片字幕、用机械臂堆叠积木、跟人聊天等等,还能根据上下文决定是否输出文本、关节力矩、按钮按压或其他 token(逐词)。近期微软已经宣布了用ChatGPT控制机器人和无人机的实验框架。谷歌也推出了视觉语言模型PaLM-E[5],能够利用视觉数据来增强其语言处理能力,这样PaLM-E可以指导机器人完成复杂任务。
图表18:谷歌推出视觉语言模型PaLM-E
人机交互视角看,AIoT智能终端迎来硬件与生态升级
技术创新在过去持续推动了科技硬件的升级,消费电子终端在过去几十年中朝着小型化、集成化方向持续迭代。在本章,我们将在前述AI改变信息交互方式的基础上进一步探讨,作为人机交互的硬件载体,人工智能将如何改变智能终端硬件产品。
回溯AI技术的发展历程,从技术的创新到产业应用侧的变化或许需要经历较长时间,但长期看,我们认为AI将会深刻改变AIoT硬件的发展方向。
► 手机/笔电:一方面AI的应用存在移动化、轻量化的趋势,未来将对手机/笔电算力需求提出更高要求;另一方面AI应用于手机端,将在带来流量入口变化的基础上,或深刻改变手机厂商的商业模式。
► 可穿戴设备:多模态技术有望打通不同形态内容的区隔,在这种趋势下,AI有望成为互联网的基础支撑,而内容生成的千人千面与下一代智能硬件的结合,也将催生个性化模型和更多可穿戴设备结合的发展,如基于智能手表的全方位个人健康管家等。此外AI通过丰富内容供给、个性化反馈等能力,改变人机交互方式,ARVR设备或有望形成新的流量入口,迎来放量增长。
► 智能家居:AI赋能下有望提升以智能音响为代表的AIoT终端智能化水平,过去由于智能化水平不足,智能家居等产品存在伪智能、交互效率低下、个性化服务难等痛点。我们认为ChatGPT的发展提升了语音作为人机交互方式的重要性,智能音响作为入口的价值被重新挖掘,同时整体全屋智能解决方案的作用将得到体现。
► 机器人:多模态大模型,尤其是AI在指导机器人行为决策方面的发展前景,使人们看到了服务机器人的广阔空间,未来通用人工智能有望成为现实。
图表19:AIoT智能硬件交互程度逐步加深
智能手机:移动AI生态时代,从智能手机走向人工智能手机
在硬件端,移动AI芯片性能提升,AI应用望带动手机需求升级
移动端AI应用出现,或带来手机终端AI芯片升级需求。AI芯片是对AI算法作进一步特定优化的硬件结构。当前在手机等终端设备中,基本不存在独立的AI芯片,更多是通过将NPU集成在SoC当中实现。目前的AI芯片除了人脸识别、AI算法拍照之外,已经能够实现通过芯片硬件离线处理能力(收集整理信息、运算与分析、应对处理)与系统传输配合,推算出用户需求并反馈给用户。虽然当前大部分的训练与推理仍在云端完成,但在小模型及AI应用的移动化和轻量化趋势下,同时用户对隐私、网络安全和低延迟的需求将增强,我们预计基于降本增效的考量,未来部分简单推理或将下沉到终端,云-端结合的AI计算有望得到发展。而从用户和开发者侧来看,移动端AI芯片的重要意义在于降低了消费级AI应用的准入门槛,从而赋予应用开发者推出轻量级AI产品的可能。
图表20:端侧已经承担了部分简单推理需求
AI应用加速升级,或将成为手机终端创新的下一个突破口。从终端产品创新角度看,从苹果定义触控手机后,当前智能手机已经进入存量市场,创新的乏力使得消费者换机周期持续拉长。我们认为,未来随着基于大模型的各类小模型及应用在移动端落地,在带动手机硬件升级的基础上,有望激发消费者换机升级热情。
图表21:智能手机发展回顾:渗透率基本见顶,创新放缓,格局稳定
在生态端,AI改变人机交互方式,有望形成新的流量入口
在手机生态中,AI长期将改变人机交互的方式。虽然当前AI主要在图像处理、语音问答、系统优化等方面发挥作用,但AI还只是提供辅助性改进功能,用户并未在手机侧很明显感受到AI带来的影响。GPT为代表的大模型的飞速发展,或在远期带来手机终端人机交互模式的进一步进化。具体而言,手机的人机交互模式经历了按键——触控的变化,而信息的呈现窗口则经历了门户网站——搜索引擎——超级APP。虽然Siri、小爱同学等手机语音助手也在特定场景能够发挥作用,但语音形式并未成为主导模式。从提升交互效率的角度看,我们认为未来人机交互的模式有望从文本进化到语音等方式,用户可以通过语音进行手机操作,同时人机交互也将呈现多模态结合的特点。
图表22:人工智能在智能手机终端应用及升级方向
手机端或有望形成新的流量入口,深刻影响手机厂商商业模式。移动互联网时代APP替代了网页端的搜索引擎,各色APP成为了人们获取垂类信息的渠道,对应应用商店的入口作用也得到了凸显。当前在手机端,用户主要依靠手动从应用商店下载对应APP产品,APP本身承担了内容筛选的角色,不同APP也对应提供不同类型的内容产品。2月27日,微软宣布正式推出采用ChatGPT AI技术的全新Bing搜索引擎,新版Bing集成了GPT-4并支持实时搜索。谷歌也计划将在谷歌的核心搜索引擎中,集成类ChatGPT对话式AI功能。我们认为,类比在移动互联网时代,垂类APP取代了搜索引擎作为流量入口的角色,那么在GPT时代,搜索引擎或智能机器人助理,有望再次成为用户获取信息及进行交互的重要入口。更重要的是,ChatGPT的引入有望通过手机语音助手的方式,直接帮助用户进行内容筛选和内容生成。
可穿戴产品:AI助力内容生成+交互能力提升
在可穿戴产品领域,智能化程度不足、内容生态不够完善、交互能力较弱等问题一直困扰着新型消费电子终端的出现。
TWS、智能手表:AI语音助手入口价值重新挖掘
展望未来,内容生成的“千人千面”与下一代智能硬件的结合,有望催生个性化模型和更多可穿戴设备结合的发展,如基于智能手表的全方位个人健康管家、TWS耳机与语音助手的进一步结合等。我们认为可穿戴设备同样有望成为AI助手对话的广泛入口之一,为消费者提供高度交互、健康监测、生活娱乐等功能应用。
图表23:物联网+AI技术发展推动可穿戴设备产品升级
AR/VR:内容生成之外,交互方式的进化更值得关注
内容生成:AIGC有望提升AR/VR平台内容丰富度。当前在VR/AR产品硬件逐渐成熟的背景下,内容端的缺乏将成为限制AR/VR用户规模扩大的重要因素。AI在多模态内容生成方面的潜力,有望解决初始的创新型终端平台内容不足的问题,如我们在前文中提到的AI赋能游戏生产、图像/视频生成等领域。展望未来,我们认为AIGC有望逐步提升VR/AR平台内容的可扩充性,在一定程度上提升AR/VR用户的海量内容需求。
AI提升AR/VR产品人机交互效率。在内容生成之外,过去AR/VR产品的人机交互能力相对较弱,包括对周围环境、物体、行人的识别等等,在一定程度上限制了AR/VR产品的应用范围。AI大模型,尤其是图像大模型的进步,带来了新的变化:
► 对话:Meta宣布“CAIRaoke 计划”,即公司计划开发了一个名为CAIRaoke的端到端神经模型,支持更个性化和上下文的对话模型,并在未来搭载到Meta产品Portal上。而在AR领域,来自斯坦福的创业团队正在开发接入GPT模型的AR眼镜RizzGPT。该产品有望根据佩戴者现实生活的对话实时生成聊天内容,并显示于挂放在普通眼镜的AR镜片上,进一步帮助佩戴者开始、深化对话,并通过观测对方的回答给出肢体、表情回复建议。
► 图像识别:SAM大模型在图像分割领域的创新性进展,让人们看到了通过AR眼镜识别日常物品,为用户提供提示的可能性。Meta预计,与专门为一组固定任务训练的系统相比,基于prompt工程等技术的可组合系统设计将支持更广泛的应用。
图表24:RizzGPT通过AR和GPT辅助实时聊天
图表25:Meta宣布CAIRaoke项目
软硬件平台分化问题被解决,互通互联的开放生态已经搭建。此前由于缺乏标准化的跨平台协议,VR应用程序、游戏、引擎需要移植到每个供应商的API,每个VR设备只能运行对应SDK应用程序,因此内容生态的发展被碎片化的软硬件平台限制。Open XR是一个无版权费的、开放式的XR行业标准规范。该行业标准规范使得应用程序可以在无需移植或重写代码的情况下,支持不同的VR头显运行,实现跨平台的XR体验。目前Open XR已经获得谷歌、Meta、HTC等众多VR厂商的支持。
智能家居:智能音箱占据入口地位,AI带来系统级智能互联水平提升
智能音箱:ChatGPT驱动升级,新兴需求待挖掘
智能音箱占据智能家居领域入口位置。回顾过去,自2014年美国亚马逊推出了第一款智能音箱Echo以来,谷歌、苹果等科技巨头迅速跟进;同时国内互联网巨头自2015年以来也不断推出智能音箱产品。据Omdia数据显示,2020年,全球智能音箱市场价值达到97亿美元,预计在2025年将增长到263亿美元,年复合增长率(CAGR)达22.1%。我们认为,目前智能音箱正逐渐成为智能家居、智慧生活的核心入口和未来家居场景中可预见的“神经中枢”。
图表26:智能音箱历史复盘
科技大厂持续导入GPT大模型,音箱智能程度不断提高。2023年4月,阿里推出阿里大模型“压缩版”的“鸟鸟分鸟”,并首次将大模型搭载至智能终端天猫精灵,使得智能音箱产品具有了更强的内容生成能力和语义理解能力;相较于以往的单轮任务式对话,产品已实现多轮流畅对话,支持上下文语义理解。百度则官方宣布在小度音响中融合“文心一言”,公司希望在未来打造针对智能设备场景的人工智能模型“小度灵机”,并应用到小度全系产品。我们认为,在ChatGPT等AI大模型的赋能下,智能音箱的交互水平有望得到全面提升,促使智能音响成为智能家居关键入口之一。
图表27:主要智能家居平台大多以智能音箱为入口
全屋智能:AI带来系统级智能互联水平升级
全屋智能行业长期存在碎片化和伪智能化的问题。在过去,以5G为代表的物联网、云计算及边缘计算、人工智能等核心技术一方面提高了家居产品的智能化程度,另一方面也使家庭中物物互联、智能系统管理、智慧家庭等成为了可能。虽然目前全屋智能产业已经初步形成了完备的产业链,但也面临许多问题和争论,包括物联网终端异构、网络通信方式与平台多样化、安全隐私保护等。
图表28:智能家居领域的问题与争论
AI提升互联能力,帮助改善碎片化问题,提升智能化水平。我们认为全屋智能系统平台的核心竞争力在于,以更广的消费者覆盖面、更好的系统稳定性吸引更多优质B端品牌汇集在同一平台,从而吸引更多C端消费者选择该生态,进一步加强平台的辐射力。GPT等大模型的接入,有望通过提升交互效率改善碎片化现状。更重要的是,此前用户普遍感知除了智能光感外,许多智能化需求并未得到满足,通过接入大模型,全屋系统的智能化程度将大大提升,有望真正意义上实现全屋智能化生活。
图表29:涂鸦、小米、华为平台对比
机器人:通往更通用的人工智能(AGI)?
服务机器人的演进过程与人工智能密切相关
AI与机器人的结合是学术界和业界一直讨论的话题。与工业机器人相比,服务机器人对人机交互性、环境感知和适应能力要求更高,因此其发展与机器人控制、人工智能的演进密切相关。从技术路径看,机器人的发展大致经历了示教再现型机器人、感觉型机器人和智能型机器人三个阶段。目前机器人处于行业第三阶段,机器学习、语音交互、SLAM等技术的发展为其市场开拓提供了前提条件。
图表30:机器人发展历程:智能型机器人的出现成为服务机器人发展的前提条件
决策大模型帮助机器人走向通用人工智能(AGI)
近期谷歌推出的视觉语言模型引起了人们将大模型与机器人结合的关注。作为多模态具身视觉语言模型 (VLM),PaLM-E可以理解图像,还能理解、生成语言,并在此基础上处理复杂的机器人指令。经过单个图像提示训练,PaLM-E不仅可以指导机器人完成各种复杂的任务,还可以生成描述图像的语言,代表了人机交互的再一次升级。
图表31:PaLM-E模型在两个不同实体上执行规划以及长跨度的任务
PaLM-E引发了业界对于通用人工智能(AGI,Artificial General Intelligence)[6]的讨论。如果说此前的大模型更多聚焦于在软件应用层面,影响内容的生成和分发,那么PaLM-E则从更进一步的维度,探索了通过自主学习的大模型,如何在现实环境中,无需对场景进行预处理,仅通过数据规划利用和正迁移能力,处理机器人指令,实现复杂任务的完成。整体PaLM-E在长序列任务处理、应用场景适应性等方面展现出了较好的成果。
风险提示
AI算法落地进度不及预期:ChatGPT\GPT-4等模型不开源,同时存在着隐私数据泄露、模型窃取、数据重构、Prompt Injection攻击等数据安全性问题、回答准确性问题、道德问题,威胁着模型应用的落地。
AI变现模式不确定:虽然AI的出现或将改变数字内容生产关系,但是:1)ToC端,除了GPT-4,其他AI模型的用户还处于免费体验的模式,同时以Microsoft 365、New bing等为代表的应用也仍处于免费体验的模式,收费模式尚不确定;2)ToB端,目前大量初创企业接入的ChatGPT、GPT-4 API接口收费较低,未来的收费标准和模式也不确定。
消费电子智能终端需求低迷:受整体宏观经济、国际地缘政治冲突及半导体周期下行等因素叠加影响,消费电子市场受到较大冲击,国内外市场需求均呈现不同程度的疲软。根据IDC,2022年全球智能手机出货量同比下降11.3%至12.1亿台,创2013年以来新低;1Q23全球智能手机出货量同比下降1.1%至11.9亿部。根据IDC,2022年中国智能手机出货量同比下降13.2%至2.86亿台,创历史最大跌幅。若2023年消费电子需求回暖不及预期,我们认为硬件端受益AI的进展或将不及预期。
[1]Training language models to follow instructions with human feedback https://arxiv.org/abs/2203.02155
[2]Finetuned language models are zero-shot learners https://arxiv.org/abs/2109.01652
[3]Segment Anything https://arxiv.org/abs/2304.02643
[4]NUWA-XL: Diffusion over Diffusion for eXtremely Long Video Generation https://www.arxiv-vanity.com/papers/2303.12346/
[5]PaLM-E: An Embodied Multimodal Language Model https://arxiv.org/pdf/2303.03378.pdf
[6]AGI指能够像人类一样理解、学习和思考任何问题的AI系统。AGI不仅要求具备知识和技能,还要求具备自我意识、创造力、情感、道德等人类特有的属性。
文章来源
本文摘自:2023年4月20日已经发布的《AI浪潮之巅系列:智能终端,人机交互再升级》
贾顺鹤 分析员 SAC 执证编号:S0080522060002
温晗静 分析员 SAC 执证编号:S0080521070003 SFC CE Ref:BSJ666
查玉洁 联系人 SAC 执证编号:S0080122120012
黄天擎 联系人 SAC 执证编号:S0080121070283 SFC CE Ref:BTL932
彭虎 分析员 SAC 执证编号:S0080521020001 SFC CE Ref:BRE806
法律声明