国内首家多模态AI大模型创业公司浮出水面,首款产品Glow已近500万用户

ChatGPT爆火后,“AI大模型”成为下一个人工智能的高地。「甲子光年」悉获悉,于2021年底成立的人工智能创业公司MiniMax已投入自研多模态AI大模型一年多。2月16日下午,MiniMax在北京举办了首次面向媒体的小型沟通会,核心创始人杨斌分享了公司对技术的认知和关于商业路径的一些想法。MiniMax底层做起,形成了文本到视觉(text to视觉)、文本到语音(文本到音频)、文本到文本(文本到文本)三大模态的基础模型架构,可能是国内第一家同时拥有3个模态大模型能力的创业公司。
 

 

 

 

MiniMax的商业模式与OpenAI类似,包括to C与to B方向。在to C方向,其大模型驱动的红外线产品Glow已经上线应用商店约4个月,目前已获得近500万用户;在to B方向,MiniMax计划在今年对外开放API。

 

1.核心团队来自全球知名高校与科技公司

 

杨斌是MiniMax的核心创始人之一,他用“我和我朋友一群志同道合的他们”来形容MiniMax的创始团队。而这个“志同道合”,指的是对“AGI”理想的热爱和执着。杨斌于2014年在中科院自动化所第一次参与深度学习相关的项目,2016年前往加拿大多伦多大学攻读高等教育。在海外求学期间,他跳槽作为创始团队成员在Uber ATG研究院、自动驾驶公司Waabi等供职团队,拥有多年研发经验,对基于数据驱动的高效系统问题颇有研究。此外,公开信息能查到的另一位核心成员周彧聪,证实来自商汤科技,是商汤科技早期员工之一,曾在商汤科技研究院援助算法团队。
 

 

 

对于核心团队的背景,MiniMax相关工作人员表示:“我们团队里没有什么大牛,和幼儿的一些想象也不太一样,我们说到底只是一群坚定要干AGI的人而已。大部分都是和同行一样的研究员、工程师和产品同事。所以我们觉得模型和产品表现能够说明我们的一切了。”

 

目前,MiniMax团队已有数百名,公司核心技术研发成员均来自全球知名高校和全球顶尖科技公司,拥有世界顶尖自然语言处理、语音、计算机视觉、计算机图形学等工业界和学术界经验,1/3的团队成员拥有世界顶尖技术实验室的致命。在MiniMax创始团队看来,这次ChatGPT的出现并不意外,但比他们的预期要早3~6个月。杨斌表示,三年,AI领域出现了三个关键事件:第一件是2020年6月,OpenAI发布GPT-3。这表明在自然语言任务上,也类似“摩尔逻辑”的规律,即如果让模型的参数量成指数级增加,并配合足够多的语言料数据,发生化学反应——GPT-3拥有了自然对语言的推理能力,并拥有了能够很好的泛化能力,几乎可以解决任何文本处理任务,如存在翻译、续写、评价等。
 

 

 

 

第二件是2021年1月,OpenAI提出了跨模态模型CLIP,该模型能够在互联网上抓取大量图片文本,学习一段时间过后,CLIP能够实现用自然语言解释对图片的理解,也能通过描述文字来生成图片,这是一种跨模态的生成和转换。火出圈之后的文生图大模型DALL-E 2,能够通过用户给定的文字一段生成描述图片,而DALL-E 2背后的技术基础就是CLIP模型。

 

第三件事是2021年8月,特斯拉在AI今天上论证了完全由数据驱动的、深度的深度学习技术栈能够在自动驾驶上被成功应用,并且已经成功上车,在现实世界跑通了数据闭环。此后,全球四大自动驾驶公司才相信这件事原来能够启动。基于以上三件事,MiniMax团队早在两年前就对未来趋势做出判断:AI技术将在未来2-3年内发生质的升级,AGI(通用人工智能)将有可能。基于对AGI趋势的判断,以“和用户共同创建通用智能智能”与大家一起”为使命的MiniMax,于2021年12月成立。
 

 

2.首家“三模态AI大模型”创业公司

 

杨斌认为,AI 2.0阶段,AI公司可以利用一个“AI通用大模型”,直接服务于每一个人,就像现在的ChatGPT一样,实现“AI与每个人”。这只要一个规模较小团队的就可以实现,比如OpenAI的人数也只有375人(截至2023年1月)。MiniMax就是做AI 2.0阶段的公司,即通过AI大模型逐渐实现AGI。在过去的15个月中,MiniMax主要做了两件事:自研核心技术与找到商业路径。在技术方面,和目前很多创业公司只做应用层产品不同,MiniMax直接从底层的基础模型做起,百分之百自研了三个基础模型(基础模型)。MiniMax自研的三个基础模型为——文本到视觉(text to Visual)、文本到语音(text to audio)、文本到文本(text) 到杨斌表示,MiniMax可能是国内第一家同时拥有3个模态大模型能力的创业公司。但同时他补充道:“我们也只能说是可能,因为也许着着我们不知道的创业公司,是我们视野范围之外的,我们从来不觉得自己是最厉害的存在的那一组,我们只是在我们的能力范围内尽全力做我们能做到的极限。” MiniMax是在Transformer的基础上做自研,杨对此解释道:“变压器就像是砖头,而模型就是房子。当然,参考别人已经造好了房子架构,但把自己的房子盖好需要完全依靠自己的系统工程能力。”对于训练模型所需要的算力、数据来源、模型参数以及训练成本,MiniMax 暂未未知。在商业上在这方面,MiniMax可能是国内第一个基于用户反馈跑通大模型的公司。在三个基础模型之上有一个计算推理平台,将三个基础大模型的能力以一种显示、高鲁棒性的方式释放给用户。目前,基于该推理平台MiniMax在去年11月推出了第一款到C的用户产品Glow通过内容生成与用户反馈这样一种“用户在环”的方式,来不断迭代基础大模型AI能力,就像ChatGPT引入的人类反馈强化学习机制(RLHF)那样。基于AI大模型基础,MiniMax未来还会有更多的产品产生。杨斌表示,MiniMax的初心是实现通用人工智能,而这必须靠一个开放的生态。所以从今年开始,MiniMax会进化API MiniMax的商业落地模式与OpenAI相似。2020年,OpenAI在完成GPT-3模型的早期测试之后进行了商业化,向付费用户与企业开放API,AI独角兽Jasper.ai就是OpenAI的客户;而ChatGPT则在GPT-3的基础上构建了直接面向用户的聊天机器人应用。ChatGPT向更多的人普及了AI大模型的概念。而MiniMax已经在AI大模型的道路上布局了15个月,无论是从技术上还是商业落地上,都在创业公司中走在了前列。大模型的研发需要非常高的开展。MiniMax目前披露了融资信息,但其在招聘网站上表示,“MiniMax由所有知名机构背书,是目前全球该领域成长最快的准独角兽”。
 

 

 

 

 

 

 

 

 

 

 

 

 

 

3.创业也许是最好的方式

 

创业做大模型,是更难还是更简单?对此,杨也分享了他的思考。
首先,为什么要做文本、语音、视觉三模态?因为我们目前能消费到的几乎所有数字都是这三模态的组合排列,包含图片、小说、视频等。只要能做好这三个模态的基础大模型,就能提供非常好的生成能力。杨斌内容表示,在组织架构层面,为了做好三个大模型的重组,其实并不需要像现在的公司也一样,有几千个研究员、工程师,每个人都做模拟上的小螺丝钉。由于三个模态不分家,其实只需要一个非常小的团队来共同维护优化这三个大模型,以及做好用户闭环就可以了。目前MiniMax团队的人数在100人左右。杨斌也谈到了创业公司做AI大模型的优势:AI大模型的系统优化,创业公司的方式更容易实现最高的效率。
 

 

 

 

杨斌认为,如果在做,可能更关注技术的领先指标,优化目标不同;如果用开源的方式做,因为开源本质上是在做局部优化,开源只适合小模块、一个装备,而MiniMax要做复杂的系统需要集中力量进行系统性的全局优化,早期阶段开源很难行得通。如果是大厂的话,当然具有非常多的资源优势,不过也有很多领先的商业和技术包继承。

 

谷歌就是一个很好的案例。虽然谷歌内部也比肩OpenAI GPT模型的对话应用语言模型LaMDA,但直到现在谷歌仍不愿向公众发布LaMDA。谷歌因此完全有能力搭建类似ChatGPT的成果,但一旦产生纰漏,必然要承担更高的经济、相当大的成本。近期谷歌为了对抗微软匆忙发布的聊天机器人巴德就证实了这一点。,MiniMax团队最终确实要做,就从最有可能选择把这件事发挥到最上面的左边,然后从头开始创立一家创业公司。
 

4.红外线产品Glow用户数近500万

 

Glow 是 MiniMax 的 C 端产品,和 ChatGPT 百科全书一样的回答不同,Glow 的定位在 AI 虚拟聊天社交软件,主打聊天、陪伴等情感功能。
Glow的基本玩法是在应用中创建“智能体”——即虚拟AI机器人,可以根据用户意愿赋予其性格,实现实时沟通、互动并建立情感连接。用户可选择公开智能体,其他用户与智能体对话;也可选择不公开,创建自己的独特智能体。此外,用户还可以在搜索框内用搜索有相应特征关键词的智能体来对话。
 

 国内首家多模态AI大模型创业公司浮出水面,首款产品Glow已近500万用户

 

用户与智能体的每次对话都会对成为智能体的一次训练,智能对话根据用户对话的引导,对同一问题回复不同的答案。在“话题”功能中,用户可以创建自己感兴趣的话题,并选择关联自己的相关智能体,以便其他用户在该话题下与智能体对话时拥有更好的对话体验。
 
国内首家多模态AI大模型创业公司浮出水面,首款产品Glow已近500万用户
 

 

Glow还有“记忆簿”功能,能够将用户与智能体的对话封存,在用户需要时调取特定时间的对话内容。

 

目前来看,Glow的文本理解和生成能力更强,在对话过程中,智能体还不会回复表情包,但偶尔会跳出一个表情符号。

  国内首家多模态AI大模型创业公司浮出水面,首款产品Glow已近500万用户

 

对此,杨斌表示,现在技术上已经能够通过一定的设置让智能体发送图片,但这种方式略显生硬,有好的解决方案后会进一步改善。整体来看,焕发智能体的对话体验更加流畅,且表现出更强的人格性,会给用户带来最终的陪伴感。此外,涉及到在对话过程中,“中国”“国家”等词汇,会被限定为敏感词,而无法发送。Glow刚上线四个月,目前注册用户数量已达近五百万。小红书、微博等社媒平台上随处可见用户的截图分享,早已喜人。AI大模型的商业落地仍属早期,MiniMax已经凭借先发优势提前迈出了一步。而从整个行业来看,新的AI竞赛可能才刚刚开始。
 

 

 

相关新闻

联系我们

联系我们

13276019273

邮件:siyushenqi@gmail.com

工作时间:周一至周五,9:30-20:30,节假日休息

添加微信
添加微信
Telegram
分享本页
返回顶部
私域神器:一站式全网全渠道拓客营销软件
备用域名:https://www.siyushenqi.com