周鸿祎:大模型要“涌现” AI 能力,国内还有一些“坑”没有踩完|天天热点评

雷锋网   2023-06-03 10:57:52

" 目前国内跟 GPT-4 真正的差距,我觉得主要是在所谓的超强‘涌现’能力上,但是这个差距不是算法上的,也不是模型上的差距,而是预训练数据和训练方法的差距,还是有一些‘坑’没有踩完,但这个时间差也就不到半年的时间。"5 月 31 日,在三六零视觉大模型及 AI 硬件新品发布会后采访中,周鸿祎对雷峰网如此说道。

" 涌现 " 在人工智能领域中经常被提到。那么什么叫智能涌现?过去的人工智能是,想让机器学会什么技能,就教它什么技能。教过的有可能会,没教过的就不会。而大模型让 AI 学会了 " 无师自通 ",也就是 " 涌现 "。

业界普遍认为 500 — 600 亿参数,是大模型是否具备涌现 AI 能力的一个门槛。于是,千亿参数,目前已经成了大模型的 " 标配 ",时下不少大模型产品,都把自己叫做 " 千亿模型 ",但真正能为产业赋能提高生产力的模型少之又少。


(资料图片)

那么周鸿祎是怎么看待 " 涌现 " 能力?360 智脑大模型和视觉大模型他们之间的关系是怎样的?360 又是如何利用大模型为产业赋能的呢?在会后采访中周鸿祎与雷峰网在内的一众媒体进行了深入的探讨。

谈 " 涌现能力 ":跟模型大小没关系

周鸿祎认为,目前行业内也没有统一的说法,有人认为一千亿参数才有涌现能力,也有人认为 300 亿就可以。这其实跟模型大小没关系,跟预训练的数据和训练方法有很大的关系。这就好比小孩儿头脑不够聪明,脑子容量不够,肯定是学不出来。但是,脑子容量够,还得跟你的学习方法有很大关系。

在周鸿祎看来,国内目前这些厂商大家做的时间也就不到半年,长的有 5 个月,短的可能有 3、4 个月。所以,这么短的时间内,能够拿出来和 GPT-3.5 基本上有一比的东西,已经是很大的一个进步了,如果要缩短两者之间的差距,还是需要一些时间。

他认为,赶上这个差距的时间可能是半年,在这个时间内基本上训练中很多的方法以及训练模型,大家踩 " 坑 " 踩的差不多了。涌现能力很大程度上跟预训练的知识含量有很大的关系,因为现在中文数据普遍还是缺乏高质量的知识数据,必须大量的补充英文语言的高质量素材。举个例子,如果一个小孩儿从小看的都是类似故事会的文章,没有逻辑推理性,他涌现复杂的逻辑推理能力的概率就非常低。

谈视觉大模型与智脑:从感知到认知

如果给出一张全身肌肉的蒙娜丽莎像,问他有什么怪异的地方?传统的感知层面的计算机视觉可能最多认出是一张人像,不一定能认出是蒙娜丽莎,即便认出蒙娜丽莎,也感觉不到怎么一个女的蒙娜丽莎长了一身男人的麒麟臂,而 360 的视觉大模型就可以解读出意思,这是从感知到认知的变化。

周鸿祎表示,视觉大模型和语言大模型是两个不同的基础,首先要有一个大语言模型,大语言模型能够充分地理解人类的知识,理解人类的自然语言。在这个基础之上,再给很多图文,然后进行训练,视觉大模型做出来后反过来也可以加强大语言模型的能力,例如对图片进行问答,为下一步理解视觉打好基础。

他认为,视觉大模型是个垂类大模型,过去要训练一张照片是猫是狗,首先要做很多人工标注,而且就算识别了是猫是狗,也是根据你标注的图像匹配出来的,它没有理解是怎么回事,它也不知道狗是什么意思,猫是什么意思。所以,现在在大语言模型的基础之上,它对自然语言能够理解,在识别图片过程中对这个图片不仅做了物体的识别,还可以做很多语义的解读。比如小孩儿站在一个很高的柜子上,或者老人躺在地板上,就可以识别出来不合理并进行预警,这就是多模态的能力。

谈及选择 AI 跟硬件结合去做落地的原因,周鸿祎表示:" 原来的 AIoT 只是垂直 AI,不是通用 AI,经过大模型赋能的 AIoT 才是‘真 AI ’。"

过去的人工智能是弱人工智能,在此基础上打造的智能硬件不具有真正的智能。大模型出现后,计算机第一次真正的理解这个世界,并能够赋予 AIoT 真正的智能。他表示,大模型的出现标志着通用人工智能到来,AI 完成了从感知层到认知层的进化,不仅对传统人工智能而言是一场颠覆性的革命,还能够推动自动驾驶、蛋白质计算、机器人控制等领域的发展。

" 大模型将带来一场新工业革命 ",周鸿祎认为,所有软件、APP、网站,所有行业都值得用大模型进行重塑,而智能硬件是硬件化的 APP。从大模型的发展趋势来看,多模态是大模型发展的必经之路,GPT-4 最重要的变化是拥有了多模态的处理能力。因此,周鸿祎预言,多模态大模型与物联网的结合将会成为下一个风口。

谈 AI 安全问题:不发展才是最大的不安全

随着 GPT 等 AI 技术的应用,利用 "AI 换脸 ""AI 换声 " 等虚假音视频,进行诈骗、诽谤的违法行为屡见不鲜。

周鸿祎认为 AI 的安全问题必须重视,他说 360 现在也成立了内部专门的 AI 安全团队,科技部也给了 360 一个 AI 安全的科技平台,360 承担着解决 AI 的安全问题的使命,但是这个问题比一般的问题要复杂。一方面,AI 把对普通人使用的要求降到最低,AI 很容易被利用做坏事,所以如果要对抗,就要加大犯罪和反击方面的成本,例如在 AI 作品里加入指纹等。另一方面,周鸿祎表示 AI 的安全问题不仅仅是这些,未来除了传统的网络安全之外,还要警惕数据安全和人工智能安全。因为可能未来 AI 会形成超强的 AI 能力,会产生意识和自我认知。

那 360 为什么必须要做大模型呢?周鸿祎谈到两点:第一,不发展是最大的不安全,因为 AI 是一场工业革命,我们不能因为它有一些安全的问题就因噎废食;第二,去做大模型的过程就是在了解它的原理和整个完整的过程,而不是把它当作黑盒子,这样才能在过程中提出更好的安全方案。

谈及 360 布局大模型的整体思路和扮演的角色,周鸿祎表示 360 就做好两件事:

第一,数字化的安全底座,360 安全有比较成熟的方案,未来不光解决网络安全,还要解决数据安全和人工智能安全。

第二,数字化时代,大模型是数字化的顶峰,是从数字化到智能化,因此这个时代谁没有掌握大模型这一核心技术,没有大模型实际场景的使用,谁就会被行业淘汰掉,这就是工业革命,就像有了电、蒸汽机、电脑,基本上所有的业务都要重塑一遍。所以我们作为一家互联网公司,有很多数字化的技术积累,所有的大数据最后都要用到大模型里。

谈大模型与场景:没有场景的大模型是没有生命力的

周鸿祎认为首先要把大模型的核心技术牢牢抓在自己手里,不仅要自己打造,也会跟伙伴合作;其次是要抓好场景,人工智能不是闭门造车,只有和用户、场景结合才行,没有场景的大模型是没有生命力的。

他表示,360 大模型应用场景已经很明确了,主要分为四路:一是,ToC 消费者场景,主要是浏览器、桌面和搜索、手机浏览器等存量场景,围绕着 360 智脑的核心能力打造每个人的个人助理,在这方面 360 得目标是保证在前三名左右;二是,打造了一个 SaaS 商店,未来将升级成 AI 商店,面向生态伙伴开放大模型的 API,提供给中小企业 SaaS 化服务;三是,打造企业、政府和城市的专有 GPT,未来不会只有一个大模型,公有大模型存在数据安全问题,专有或私有大模型更符合用户场景;四是,携手行业伙伴,打造行业的垂直 GPT,例如企业咨询行业的 GPT、还有可以赋能 IOT 行业等。

谈及大模型未来的发展,周鸿祎表示大模型未来一定是在小型化、轻量化、快速化,包括训练都在追求自动化。

" 大模型这个市场很大,如果大家都说我要干掉你,你要干掉我,为了争夺谁是中国的 ChatGPT,那市场就很窄,如果把大模型用到垂直领域、行业领域、企业领域,其实对大模型的能力的要求反而是降低了。" 周鸿祎提出,例如在法律、医学、教育训练一个专门的 GPT,这就比训练一个通用大模型要求降低很多。

周鸿祎最后表示:"GPT 刚出来大家被震撼了一下,仔细冷静下来思考,它要真正能够变成生产力工具,能为我们所用,还是要走垂直化的路。"