首页文章详情

智谱AI CEO张鹏:担心Scaling Law碰到天花板,为时过早 | WISE2024商业之王

咏仪2024-11-29 19:13
让AI能力更快落地,走入物理世界

环境持续变化,时代总在迭变,“商业之王”们紧随时代浪潮,坚持创造,谋求新动能。立足中国经济大转型的当下,WISE2024 商业之王大会,一同发现真正有韧性的“商业之王”,探寻中国商业浪潮里“正确的事”。

11月28-29日,为期两日的36氪WISE2024 商业之王大会于北京隆重召开,作为中国商业领域的全明星盛典,WISE大会今年已经是第十二届,在不断变化的时代里见证着中国商业的韧性与潜力。

2024,是有些模糊且变化多于稳定的一年。相比过去十年,大家的脚步正放缓,发展更加理性。2024,也是寻求新的经济动力的一年,新的产业变化对每个主体的适应性提出了更高的要求。今年WISE大会以Hard But Right Thing(正确的事)为主题,在2024,什么是正确的事,成为我们更想交流的话题。

在上午的WISE会场上,智谱CEO张鹏对近期的AI热议话题,以及AI发展阶段做了一次题为《GLM大模型与通用人工智能》的分享。

智谱AI是国内大模型明星初创。早在OpenAI的ChatGPT推出之前,国内还没有多少人深入大模型领域之时,智谱AI就已经开展了大模型的探索。

GLM大模型作为通用人工智能的重要基石,不仅融合了深度学习的强大算力与泛化能力,更在语义理解、知识推理等方面展现出卓越的性能。

在演讲中,张鹏不仅回顾了人工智能领域发展的经典曲线,并且也对近期大模型领域Scaling Law碰壁、大模型研发进度延缓等热门话题,进行了阐释。

张鹏表示,但本质上,从研究、技术角度来看,这一代大模型并不像上一代的人工智能技术。随着语言能力的大幅提升,大模型在包括视觉、听觉等其他模态上,还有长足的发展空间。

“大量研究人员在做新的突破,每一次新的突破都会带来一些新的机会,我们担心碰到天花板或者碰到南墙,这个事情确实是有一点过早。”张鹏说。

此外,张鹏也提出了AI的五个发展阶段,包括语言能力、逻辑思维能力、工具调用能力、自我学习能力等。

张鹏

以下是张鹏的演讲实录:

张鹏:大家中午好!已经过了12点了,在外面很冷的情况下馆里面还热火朝天,现在还在这儿听我讲的应该是真爱。

今天我在来的路上在想应该跟大家聊什么事情,我们的市场部要求比较早做出来,交给我们的主办方,可能里面的内容还是我们之前准备的一些东西。

最近两天大家也在讨论一些新的东西,包括Scaling Law是不是已经碰到天花板,大模型这个事情是不是还会走下去,有很多的看法,我也不断被大家来问这样的问题。所以我也不一定会按照这个里面的所有内容来讲,还是跟大家讲一讲我们最近的思考。

这是今年年中发布的关于人工智能曲线,可以看到这上面有很多跟人工智能,跟大语言模型相关的词汇,这些词处在里面不同的位置上,也代表着公众对于这件事的关注度。我个人理解,现在已经越来越像舆论,媒体热度的曲线,而不是真正技术引领上的曲线了。

大家可以看到,里面有很多的新的东西,包括具身智能、智能体等等的技术,仍然处在非常快速上升的曲线上。所以,从这一波人工智能发展的角度来看,当下还是处在非常快速上升的阶段。

所以,大家因为Scaling Law撞墙,就担心整个行业会突然进入低谷期,这个担心可能有点多余。就像我们担心人工智能会统治人类一样,还有点太早,不妨让子弹飞一会儿。

在非常狭窄的意义上来说,Scaling Law确实遇到了一些挑战。可以看这条曲线,在语言能力上,单单从语言能力上来看,大模型确实已经类似到了上一代人工智能遇到的天花板问题:所有的能力已经接近了人类的极限、人类专家可以评价的极限。

大家可以回想一下,上一代人工智能之所以进入发展瓶颈期,就是因为这个,我们人类已经没有办法教AI如何来突破了。我们人类的天花板在那儿摆着,所有数据,喂给AI的数据都是来自人类。是不是能突破这个天花板?这可能是现在大家要想的问题。

这是从语言模型的角度来看。但本质上,从研究、技术角度来看,它不像上一代的人工智能技术。

上一代人工智能技术底层的神经网络、卷积神经网络等等,现在看起来还比较简单,基本上大家已经非常快速收敛,并且趋于稳定了。

但是预训练模型或者大训练模型底层的研究,仍然在非常快速地迭代,还有大量空白的空间,大量研究人员在做新的突破,每一次新的突破都会带来一些新的机会,我们担心碰到天花板或者碰到南墙,这个事情确实是有一点过早。

我们刚才说的是语言模型,语言模型确实碰到了很现实的问题,数据好像都喂进去了,智能提升速度已经有一些放缓。但是除了语言之外,还有很多的事情,比如说视觉、听觉,这些空间还非常非常的大。

比如,视觉理解还有大量的问题需要去研究。对于人眼所看到的复杂情景,现在的模型还不能很好地全面地类比,跟人类的差距还是非常非常明显,这里面我们还有很多事情要做。

我们最近也在这方面花了很多的力气做这样的事情,让我们的视觉理解的能力跟硬件、端侧的设备结合,让端侧设备具备更强的理解能力。因为我们现实世界很多的任务,都是要结合不同模态信息的输入,包括语言、视觉、听觉。

总结起来看,我们可以看这一张图。我们把人工智能发展的阶段、进步的阶梯分为五个层次,其实OpenAI也有类似的分法。

在我们的理解里面,前三级跟OpenAI非常类似。首先,最简单的、最重要的是语言能力,以及其他模态,我们统称为多模态能力——视觉、听觉还有大量的空间。

第二层,逻辑思维能力,也是最近大家热议的OpenAI的o1。我们国内也有很多的团队在做强推理能力,复杂问题解决能力的模型,也在持续往前演进。逻辑推理能力上,我们大概能走到接近60%的人类水平。

再往上,我们怎么让大模型,AI长出手脚,使用各种各样丰富的工具,产生更大的生产力,也就是工具调用的能力,也是最近热议的一件事。

我们最近也有小小的突破,让 agent 帮助人操作手机上的APP,PC上的应用,解决一些重复性的、过程性的工作。

再往上,可能(和OpenAI)略微有一些差异,我们认为四五两级分别是AI的自我学习能力。

人的能力、人的智能之所以能持续不断的更新迭代,在于人是有自我学习能力的。人可以在不断的实践,反馈当中不断的提升自己,创造新的数据、经验、智能、工具,这些能力才是人类往前得以突进,创造新事物的核心能力。

我们希望AI能够具备更强的自我学习能力,这样才有可能像人一样去突破现有的天花板,创造新的东西,未来利用这种能力去探索、研究、寻找科学的新边界。

我们最近做的一件事,包括在多模态能力上研究如何把视觉、听觉能力,声音的能力融合起来,加上非常强大的语言理解能力,去解决现实当中的一些问题。

OpenAI对于人工智能发展的分级发展脉络,叫通用人工智能之路,大家可以看到清晰的演进路线。大语言模型到多模态,到工具的使用,到自学习,我们可以看到整个路径是非常清晰的。

为什么会这样?语言是基础,人类本身的大脑智能就是多模态的,再使用工具连接物理世界,最终实现自我学习。

我们跟脑科学研究的专家、神经科学专家等等跨学科的专家一起来做了一些探讨。现在人工智能技术的演进,已经触及到通用人工智能的一些方面。

人类的大脑分区块,多样化,这是现代脑科学证实的事情,包括语言能力、逻辑推理能力、视觉能力、触觉能力、运动能力等等。彩色部分,其实是现在AI或者大模型已经触及到的部分,灰色的部分,是我们暂时还没有触及或者相对比较少的部分,包括手脚这种使用外部工具的能力。就跟刚才我们画的阶梯状图一样,在自然语言的理解和使用这方面,已经接近人类最好的上限。

在逻辑推理、情感、创新方面、工具使用方面,我们也有一定的突破,但是仍然还有一些地方仍有大量的空白,所以下一代的Scaling law到底是什么?我们可能在这些空白区域,或者说发展得还没有那么完善的区域,去找到更多的Scaling law发挥效果的地方。

在这个过程里,我们可以发现,智谱的发展路径其实是在对标OpenAI。对标OpenAI,在于我们的理念非常相似。我们认为,人类智能或者通用人工智能一定不是单向能力上限的突破。

大家想一想,上一代人工智能,不管是NLP(自然语言处理)还是计算机视觉,单向能力上限突破最终结局是什么?仍然是工具型的成果,无法解决现实生活当中、我们期待解决的通用性问题,只能利用大数据解决小任务。

这一代生成式人工智能或者大模型能够解决的问题,恰恰是另外的问题,我用大数据、小任务,简单的任务进行训练,去解决更多的问题,这才是这一代生成式人工智能要解决的核心问题。

但是要解决多样化问题,一定是多项目能力的组合。很难想象大家在日常工作的任务当中,或者说跟社交的生活当中,只使用一种感知能力,仅仅只使用一种感知能力,这是很难想象的事情。

解决现实生活、工作当中的问题,一定是多项能力的组合,这也是为什么我们做各种类型的,不同模态各种能力的全面组合。

我们8月份新发布的新一代模型,是包含了各种能力组合的产品矩阵,从文本能力开始作为最好的底座,上面结合视觉、语言、代码能力,我们让它能够具备全面的、通用化的能力,来面对通用化的任务。

8月,我们也接受了业界、学术界、公众公开的评测和检查检验,效果还是非常不错的。四代的模型跟国际上第一梯队模型打得有胜有负,这是我们很欣慰看到的事情。

在这个基础之上,还会有更新的能力,比如视频生成的能力,我们做了全新升级,有更高的码率,每秒60祯视频生成,更高的4K清晰度,更逼真的画面,并且还可以结合我们的声音能力,为视频自动的进行配音。

大家知道,电影从默片到有声电影的进步,是电影史上非常重要的跨越,视频的生成从完全无声画面,到能够同时生成配音,也是巨大的进步,表示着我们再一步向物理世界的理解和生成迈进一步。

我们不仅能够生成更高清晰度的视频,而且视频比例,更高的生成速度,多通道同时生成多个视频,这样大家可以效率更高一些。

这是AutoGLM,让大家体验用语言、语音操纵手机的能力,相信关注我们的朋友,最近也看过这样的视频介绍,体验过我们相应产品的内测。

我们这个产品发布以后,收到了广泛的关注,过程当中确实有很多的反馈给到我们,虽然还是比较早期的尝试。经过这一个月的测试和反馈,我们努力让这个产品继续迭代,大家如果感兴趣的话可以持续关注,我们还会有新的更新,开放给大家。

时间原因,给我的时间比较少,这个视频我们就不再放完了,大家感兴趣可以自己体验一下。

通过强化学习的路径,我们使得大模型像人的大脑一样,使用工具的成功率大大得到了提高,我们认为由原来通用任务上可能只有20%左右的成功率,翻了 1 倍,接近 40%的准确率。

未来,希望借助与我们全面模型的能力,多模态、跨模态,以及通用的AI Agent能力连接大模型大脑,和更多智能化设备,让AI能力更快落地,走入物理显示的世界,有着人机交互的新体验。

我感觉这个时代已经正在到来,智谱在这个过程当中,也秉持双轮驱动理念,不断在技术上进行突破,同时也不忘把我们技术转化成更新的产品,在市场上给大家创造更多的客户价值。

我的分享就到这里,谢谢大家!