秘密研发,“威胁人类”,一个代号就引发全网恐慌?OpenAI的Q*到底是啥?

秘密研发,“威胁人类”,一个代号就引发全网恐慌?OpenAI的Q*到底是啥?

让我们先把OpenAI仓库内部的极地大乱斗放在一边,聊一聊这家公司最新的传言——Q *。OpenAI在11月22号的时候给员工发了一封内部信,承认了Q*,把这个项目描述为“超越人类的自主系统”。着实让人感觉到有一丝丝可怕。

虽然OpenAI官方没有放出任何有关Q*的消息,但是我们还是有能力浅浅了解。

首先,我们要认识Q*的读法,官方正式名称叫Q-Star,翻译过来就是Q星。对,你没看错,升级深度学习中,区块之间是通过乘积来活动的,但是在Q*里,“*”不是乘的意思,而是“星号”。“ Q”这个字母在强化学习中表示一个动作的期待奖励。

在人工智能领域里,但凡跟大写Q沾边的,本质都是Q学习。Q学习以现在的评判标准可以自由强化学习的一种,指的是在训练的过程中,以记录历史奖励值的方式,告诉智能体下一步怎么样选才能跟历史最高奖励值相同。但请注意,历史最大奖励值并不代表模型的最大奖励值,有可能是,也有很大可能不是,甚至还有可能八竿子打不着。换句话来说,Q学习和智能体就像是进行团队的分析师和作业之间的关系。 作业负责指导团队,作业分析师则用来辅佐作业。

在强化学习的过程中,智能体输出的决策是要反馈到环境中才能获得奖励值。而Q学习因为只记录奖励值,因此不需要对环境进行建模,“实际上结果好,一切都好”。

这样看下来,好像Q学习还不如现在人工智能,尤其是大模型常用的深度学习模型。像现在这种动不动几十亿几十亿这么多参数下,Q学习不仅对模型没什么帮助,反倒还增加了复杂性,从而降低了鲁棒性。

另外急,其实这是因为上述Q学习背后的思想本身只是一个诞生于1989年的基本概念。

DeepMind在2013年的时候曾经通过改进Q学习,推出了一个叫做深度Q学习的算法,其最大的特点就是利用经历回放,从过去的多个结果中进行采样,再使用Q学习,进一步达到提高模型的稳定性,因为降低模型某一次结果导致训练方向过度发散。

不过说实话,这个概念一直没有走红也是有原因的,而从实际意义来看,深度Q学习在学界看来最大的作用就是开发催生了DQN。

DQN是指深度Q网络,诞生于深度Q学习。DQN的思路和Q学习是一模一样的,但是在求得Q学习中最大奖励值的过程,是用神经网络来实现的。这下子就流行起来了。

DQN同一时间生成一个节点。同时,DQN会生成优先级队列,然后再把剩余的节点和动作的元祖存到优先级队列里。迭代,一个节点肯定不够用,如果迭代就一个节点那最后一个答案一定错得离谱。当节点和动作元祖从队列中移出来的时候,就会根据这个动作应用到已经生成的那个节点得一个关联性再生成一个新节点,以此类推。

稍微懂一点人工智能发展史的人会觉得越看越眼熟,这不就是高配版弗洛伊德求边长吗?

现代计算机中,处理器所使用的核心原理就是弗洛伊德算法,通过与历史最优化值比对,求得最短路径之间的两点。内存的作用就是将计算以优先级的方式存储,每当处理器完成一次计算后,内存再把下一次计算扔给处理器。

DQN 本质上没有什么区别。

这基本就是Q的意思,那么*又是指文件?

从初始化的人工智能的分析来看,*很可能指代A*算法。

这是一种启发式算法。先不着急启发式算法是什么,我来说个笑话:

A问B说“快速求出1928749189571*1982379176的乘积”,B立马就回答A说:“32”。这个A听了就很纳闷,这么大的两个数相乘,答案不可能是他们数。B反问A:“你就说快不快?”。

看起来离谱,但启发式算法也是同理。

它的本质就是提示,选择在效率和正解之间只能有一个。要不然就非常严格效率,可能偶尔会出错;要不然就非常严格正确性,可运行有时会很长。A*算法先通过启示式算法给出一个大概的值,当然这个值很可能最终其得到正解。注意完成就会开始循环,如果怎么不行办法重新估值那就开始出现解。如此反复,最终开始出现解。

虽然能得到最佳解,不过A*就是前面提到的第二个,答案对,运行时间比较长。放在实验室环境还好,这种算法最好放在个人设备上,有可能会导致内存溢出,产生系统问题,比如蓝屏。

因此这样的限制使得过往A*算法往往会评估一些不太复杂的模型,最典型的就是网络游戏中角色寻路。一些大型游戏中,角色在寻路开始的那一刹那出现卡顿,就是因为A*算法。

综合来看,目前人工智能圈的思路是,OpenAI内部信中提到的Q*算法,大抵是Q学习和A交替的取长补短,即节省算力、节省内存,并得到最佳解——因为它总不可能又多消耗算力,又浪费内存,最后还得不到最佳解吧!那不成累傻小子了吗!

而且,就像OpenAI把基础模型这件事最终启动了一样,它同样多次,甚至也一度被人们冷落,OpenAI用具体的创新的方法把它的潜力重新治愈出来。今天人们自然有理由相信在Q和A这两个前沿提出的算法思路里,OpenAI能故技重施创造奇迹——当然,因为这个奇迹可能给人类带来的灾难也让最近OpenAI闹剧而让更多人忧心忡忡的救援失效。

所以,回到这个算法,Q*最有可能的样子是,利用Q学习找到接近最优化解的估值,再利用A*算法在小范围内活动,省去大量没有意义的计算过程,从而达到快速求得最佳解的效果。OpenAI具体要怎么做,还得等公开论文(如果能等到的话)。

Q*的出现确实说明了一个问题,人工智能头部公司意识到但是人工智能发展中动量的过程比活动更有意义。因为现在只追求答案的正确性已经不能满足人们对人工智能的需求。比如OpenCompass上,甚至是平均分数差10分、20分,从理解的准确率上看,最好的模型和最差的模型也没有很大的差距。

在人们的猜测和恐慌中,关于 Q* 的一个说法是,Q* 可以解决非常高级的数学问题。萨里以人工智能研究所所长安德鲁·罗戈斯基表示“我们知道现有的人工智能已被证明能够进行本科水平的数学轰炸,但无法处处理更高级的数学题。不过Q*极有可能用来解决高考的数学题。”说不定等到Q*出来的那一天,还可以考考它哥德巴赫猜想。而数学被认为是人类智慧的最大结晶之一,Q*只是一个代号就引发了全网的恐慌。

而且Q*背后还被与OpenAI的那个使命相联系——那就是对通用人工智能(AGI),甚至是超级智能的探索。OpenAI将AGI定义为在超越人类的自主系统中最具经济价值的任务,Q*就是OpenAI迈向AGI的一步。

目前OpenAI对于Q*和内部信泄露事件没有对外发表任何置评,可我却喜忧参半。对Q*拥有强大的能力表示开心,人工智能领域的发展将会更进一步。同时也比较担心Q*模拟头更大实际,最后真到发布的那一天测试结果那么回事,让我被哐哐打脸。

相关新闻

联系我们

联系我们

13276019273

邮件:siyushenqi@gmail.com

工作时间:周一至周五,9:30-18:30,节假日休息

添加微信
添加微信
Telegram
分享本页
返回顶部
私域神器:一站式全网全渠道拓客营销软件
销售热线:173 5412 3667 (←点击添加微信)