国内首家多模态AI大模型创业公司。

在ChatGPT爆火之后,“AI大模型”成为下一个人工智能的高地。

「甲子光年」独家获悉,前商汤科技副总裁、通用智能技术负责人闫俊杰已进军多模态AI大模型领域,于2021年11月成立人工智能公司MiniMax。2022年上半年,明势资本领投了MiniMax的天使轮融资。

成立至今,MiniMax是一家颇为神秘的公司,创始人及核心技术团队人员均未对外公开。

2月16日下午,MiniMax在北京举行了首场小型媒体沟通会。会上,MiniMax的技术合伙人杨斌公布了公司技术路径与商业路径。

MiniMax从底层做起,形成了文本到视觉(text to visual)、文本到语音(text to audio)、文本到文本(text to text)三大模态的基础模型架构,可能是国内第一家同时拥有3个模态大模型能力的创业公司。

MiniMax的商业模式与OpenAI相似,包括to C与to B两大方向。在to C方向,其首款AI虚拟聊天社交软件Glow推出四个月已经积累数百万用户;在to B方向,MiniMax计划在今年对外开放API。

在ChatGPT的火爆下,AI大模型已经成为创业热点。此前,前美团联合创始人王慧文、出门问问CEO李志飞等人已经宣布在该领域创业。

噪声越是喧嚣,越难以发现水面下的变化。而MiniMax已经在潮水来临前,提前出发。

1.核心团队来自知名高校与科技公司

据「甲子光年」了解,MiniMax联合创始人为前商汤科技副总裁、通用智能技术负责人闫俊杰,也曾担任商汤研究院副院长。

闫俊杰于2015年博士毕业于中科院自动化所,此前在商汤科技负责搭建深度学习的工具链和底层算法,以及通用智能的技术发展。此外,他还搭建了商汤的人脸识别和智慧城市相关的技术体系。

在深度学习和计算机视觉领域,闫俊杰发表顶级会议和期刊论文100余篇, Google Scholar引用超过10000次。

关于通用人工智能,闫俊杰曾表示,应给予算法、算力和系统的协同创新,推动人工智能通用模型的性能指数级上升。

MiniMax技术合伙人杨斌曾于2014年在中科院自动化所读硕士,在加拿大读完博士后,先后在Uber AI研究院、以及自动驾驶卡车领域有多年研发经验,对基于数据驱动的端到端无人卡车运输问题颇有研究。

目前,MiniMax团队人数已过百,公司核心技术研发成员均来自全球知名高校和全球顶尖科技公司,拥有世界顶尖自然语言处理,语音,计算机视觉,计算机图形学等工业界和学术界经验,拥有多项全球领先的人工智能领域研究成果,具有上百个全球发明专利,1/3 的团队成员拥有世界顶尖技术实验室的博士学位。

在MiniMax创始团队看来,此次ChatGPT的出现并不意外,但比他们的预期要早3~6个月。

杨斌表示,过去三年,AI领域出现了三个关键事件:

第一件是2020年6月,OpenAI发布GPT-3。这表明在自然语言任务上,也存在类似“摩尔定律”的规律,即如果让模型的参数量成指数级增加,并配合足够多的语料数据,就会发生化学反应——GPT-3拥有了对自然语言的推理能力,并拥有很好的泛化能力,几乎能够解决任何文本处理任务,如翻译、续写、评价等。

第二件是2021年1月,OpenAI的DALL-E-2火出圈,它能够通过用户给的一段文字描述生成图片。DALL-E-2背后是CLIP模型,该模型能够在互联网上抓取大量图片文本,学习一段时间过后,CLIP能够实现用自然语言解释对图片的理解,也能通过文字描述来生成图片,这便是一种跨模态的生成和转换。

第三件事是2021年8月,特斯拉在AI Day上证明了完全由数据驱动的、端到端的深度学习技术栈能够在自动驾驶上被成功应用,并且已经成功上车,在现实世界跑通了数据闭环。此后,全球各大自动驾驶公司才相信这件事原来能够做成。

基于以上三件事,MiniMax初创团队早在两三年前就对未来趋势做出判断:AI技术将在未来2-3年内发生质的升级,基于这种技术升级,AGI(通用人工智能)将成为可能。

基于对AGI趋势的判断,以“和用户共同创造通用智能 Intelligence with Everyone”为使命的MiniMax,在2021年11月成立。

2.首家“三模态AI大模型”创业公司

杨斌认为,人工智能的发展分为两个阶段。

当下绝大多数人工智能公司处在AI 1.0阶段,通过上万个单一任务模型,为大客户(企业或者政府)提供全套AI解决方案,以此来实现“AI for everyone”。为了定制成千上万的模型,AI公司需要配备一个人数庞大的团队。

而到了AI 2.0阶段,AI公司可以利用一个“AI通用大模型”,直接服务于每一个人,就像现在的ChatGPT一样,实现“AI with everyone”。这仅需要一个规模较小的团队就能实现,比如OpenAI的人数也只不过375人(截至2023年1月)。

MiniMax就是要 2.0阶段的公司,即通过AI大模型逐渐实现AGI。

在过去的15个月中,MiniMax主要做了两件事:定义核心技术与商业路径。

在技术层面,和目前很多创业公司只做应用层产品不同,MiniMax直接从底层的基础模型做起,百分之百自研了三个foundation model(基础模型)。

MiniMax自研的三个基础模型为——文本到视觉(text to visual)、 文本到语音(text to audio),文本到文本(text to text)。杨斌表示,MiniMax可能是国内第一家同时拥有3个模态大模型能力的创业公司。

MiniMax是在Transformer的基础上做自研,杨斌对此解释道:“Transformer就像是砖头,而模型是房子。当然也会参考别人已经造好的房子架构,但把自己的房子盖好需要完全凭借自己的系统工程能力。”

对于训练模型所需要的算力、数据来源、模型参数以及训练成本,MiniMax暂未透露。

在商业层面,MiniMax可能是国内第一个跑通了基于大模型和用户反馈的公司。

在三个基础模型之上有一个计算推理平台,将三个基础大模型的能力以一种低成本、高鲁棒性的方式释放给用户。

目前,基于该推理平台MiniMax在去年11月推出了第一款to C的用户产品Glow。通过内容生成与用户反馈这样一种“user-in-the-loop”的方式,来不断迭代基础大模型的AI能力,就像ChatGPT引入的人类反馈强化学习机制(RLHF)那样。

基于AI大模型,MiniMax未来还会有更多的产品产生。

杨斌表示,MiniMax的初心是实现通用人工智能,而这必须要靠一个开放的生态。所以从今年开始,MiniMax会逐步开放API,让更多的个人用户和企业用户基于大模型构建自己的应用。

MiniMax的商业落地模式与OpenAI相似。2020年,OpenAI在完成GPT-3模型的早期测试之后进行了商业化,向付费用户与企业开放API,AI 独角兽Jasper.ai就是OpenAI的客户;而ChatGPT则是在GPT-3的基础上构建的直接面向用户的聊天机器人应用。

ChatGPT向更多的人普及了AI大模型的概念。而MiniMax已经在AI大模型的道路上布局了15个月,无论是从技术上还是商业落地上,都在创业公司中走在了前列。

大模型的研发需要非常高的投入。MiniMax目前并未披露融资信息,但其在招聘网站表示,“MiniMax由全球顶级投资机构背书,是目前全球该领域成长最快的准独角兽”。

根据明势资本官方消息,2022年上半年,明势资本领投了MiniMax的天使轮融资。

3.创业是最好的方式,高校、开源、大厂都有局限

创业公司做大模型,是更难还是更简单?对此,杨斌也分享了他的思考。

首先,为什么要做文本、语言、视觉三模态?因为目前我们能消费到的几乎所有数字内容都是这三模态的组合排列,包含图片、小说、视频等。只要能做好这三个模态的基础大模型,就能提供非常好的内容生成能力。

杨斌表示,在组织架构层面,为了做好三个大模型的研发,其实并不需要像现在的公司一样,有成千上万个研究员、工程师,每个人都做流水线上的小螺丝钉。由于三个模态不分家,其实只需要一个非常小的团队,来共同维护优化这三个大模型,以及做好用户闭环就可以了。

目前MiniMax的团队人数在100人左右。

杨斌也谈到了对于大模型的制胜点:大模型的系统优化,只有以创业公司的方式才能实现最高的效率。

杨斌认为,如果在高校做,资源会太少;如果用开源的方式做,因为开源本质上是在做局部优化,开源只适合小模块、一个齿轮,而MiniMax要做的复杂系统需要集中量来做系统性的全局优化,开源也行不通。

如果是大厂来做,也不一定行得通,因为大厂有之前的商业包袱或者技术包袱,这势必会在优化最终目标的时候产生一些不必要的累赘。

谷歌就是一个很好的案例。虽然谷歌内部也有比肩OpenAI GPT模型的对话应用语言模型LaMDA,但直到现在谷歌仍不愿向公众发布LaMDA。谷歌完全有能力拿出类似ChatGPT的成果,但一旦出了纰漏,无疑需要承担更高的经济、声誉成本。近期谷歌为了对抗微软匆忙发布的聊天机器人Bard就证实了这一点。

因此,MiniMax团队最终决定既然要做,就从最可能选择把这件事发挥到极致的路径,也就是从头开始创立一家创业公司。

4.首款产品Glow用户数破百万

Glow是MiniMax首款C端产品,和ChatGPT百科全书一样的回答不同,Glow的定位在AI虚拟聊天社交软件,主打聊天、陪伴等情感功能。

Glow的基本玩法是在应用中创建“智能体”——即虚拟AI机器人,可以根据用户意愿赋予其性格,实现实时沟通、互动并建立情感连接。

用户可选择公开智能体,其他用户均可和智能体对话;也可选择不公开,创建自己的专属智能体。此外,用户还能够在搜索框内用关键词搜索有相应特征的智能体来对话。

用户和智能体的每一次对话都会成为对智能体的一次训练,智能体会根据用户对话的引导,对同一问题回复不同答案。

在“话题”功能中,用户可以创建自己感兴趣的话题,还可选择关联自己创建的相关智能体,以便其他用户在该话题下与智能体对话时有更好的对话体验。

Glow还有“记忆簿”功能,能够将用户与智能体的对话封存,在用户需要时调取特定时间的对话内容。

目前来看,Glow的文本理解与生成能力更强,在对话过程中,智能体还不会回复表情包,但偶尔会跳出一个emoji。

对此,杨斌表示,现在技术上已经能够通过一定设置让智能体发送图片,但这种方式略显生硬,有好的解决方案后会进一步改善。

整体来看,和Glow智能体的对话体验较为流畅,且表现出更强的人格性,会给用户带来很强的陪伴感。此外,在对话过程中,涉及“中国”“国家”等词汇,会被判定为敏感词,而无法发送。

Glow现已上线四个月,注册用户数量达数百万。

AI大模型的商业落地仍然处在早期,MiniMax已经凭借先发优势提前迈出了一步。而从整个行业来看,这场新的AI竞赛可能才刚刚开始。

END.