专访IDEA研究院张家兴：“做研究”只是手段 AI才是目的

频道：行业资讯日期：2023-03-04 00:06:59 浏览：1254

自然语言处理（NLP）大模型的范式变化了。

·“像ChatGPT，它确实没有什么学术价值，但它就是有实际的应用价值。以前我们过于本末倒置了，总觉得AI跟做研究等同。其实研究是服务于AI，研究是个手段，不是目的，AI才是目的。”

·“原本以为我们只是差顶尖做理论研究、原创性研究的大师，但忽视了在⻘年研究者跟工程师之间，还有一层是用工程能力做模型的一群人，而我接下来也想在中国将这层的能力补齐。”

ChatGPT出来以后，张家兴意识到，自然语言处理（NLP）大模型的范式变化了。

作为粤港澳大湾区数字经济研究院（IDEA研究院）的认知计算与自然语言研究中心讲席科学家，张家兴带领团队创建了中文最大的开源预训练模型体系“封神榜”。2022年10月， IDEA封神榜团队因提出解决零样本分类问题的新方案——仅利用亿级参数量的模型就战胜了千亿参数模型的效果，而广受讨论。

“封神榜预训练模型体系还拥有世界上最先进的信息抽取亿级参数模型，其非常复杂的结构，可以在没有任何训练样本的情况下，用一句话就能进行任何信息的抽取，效果非常好。”张家兴对澎湃科技表示。

然而，当ChatGPT出现后，其通用性表现比封神榜体系的模型强很多。“我们就知道范式变化了。”张家兴说，“这就意味着在NLP领域，将不再需要为每类任务都专⻔做一个很复杂的模型结构，而通过像GPT这样的通用模型，使用一些更先进的训练方法就能让其具备很强的能力。”

中国的AI发展缺了一层

在ChatGPT出现后的很⻓时间内，国内的反思多集中在一个问题上——为什么中国没有出现OpenAI这样的公司?

“其实在大家讨论这个话题之前，如果我们稍微往前回想5年、10年，上一个话题就是中国为什么出不了Geoff Hinton、Yann LeCun这样的（人工智能界）大师。以前我们焦虑于自己只是在做AI最上面的应用，而别人在提供最基础的理论。”张家兴说，“随着我们逐渐追赶，现在世界上AI领域的论文，几乎一半都有中国人参与。从量变到质变积累，其实相信再过十年、几十年中国也会出现这样的大师。但还没等走到这一步，我们突然发现AI这个领域变天了。”

张家兴指的是以OpenAI为代表的这类公司出现，聚集了一批更年轻的人，不是发明一些方法写一篇论文占据学术研究的位置，而是集大家的力量把AI工程化。通过积累预训练模型，不断沉淀打磨，从塔底掀翻了整个AI产业的金字塔。

谈到这一点，张家兴感叹道，“这看起来似乎是中国更擅⻓的路径。中国在两层特别强，一层是上面说的第二梯队的⻘年研究者；另一层是工程师，无论在国内还是硅谷，华人工程师都非常多。原本以为我们只是差顶尖做理论研究、原创性研究的大师，但忽视了在⻘年研究者跟工程师之间，还有一层是用工程能力做模型的一群人，而我接下来也想在中国将这层的能力补齐。”

“像ChatGPT，它确实没有什么学术价值，但它就是有实际的应用价值。以前我们过于本末倒置了，总觉得AI跟做研究等同。其实研究是服务于AI，研究是个手段，不是目的，AI才是目的。”张家兴说。

应站在OpenAI的位置思考AI的未来

ChatGPT引起的AI热潮并非是表面锦绣。

“我想最重要的是让我们看到了通用人工智能(AGI，Artificial General Intelligence)路线的可能性。”AGI更具体而言，他指的是“一个聚集了各种AI能力，甚至包括自主学习能力的智能体”。

2月24日，OpenAI发布AGI路线图。短期内，OpenAI要为AGI做好三项准备:

第一，通过快速部署AGI以积累相应应用经验，大众需要亲身体验这项技术的优缺点，公司和机构也需要考虑如何限制恶意行为者、避免对社会和经济造成不良影响等问题。

第二，努力创建更加一致和可控的模型，从GPT-3到InstructGPT和ChatGPT的转变就是例子，社会确定使用人工智能的广泛界限，在界限内，个人用户拥有自由裁量权。

第三，希望就三个关键问题展开全球对话:如何治理这些系统，如何公平分配它们产生的收益，以及如何公平共享访问权限。

长期而言，OpenAI认为，第一个AGI只是人工智能持续发展中的一个小节点。AI的发展可能会在很⻓一段时间内，保持我们在过去十年中看到的进展速度。如果这是真的，世界可能会变得与今天截然不同，⻛险可能会非常大。“成功过渡到一个拥有超级智能的世界可能是人类历史上最重要、最有希望，但也最可怕的项目。”OpenAI在文章的最后写道。

最近，新的故事开始被讲述，多家科技公司称要做中国的OpenAI，类ChatGPT大模型的研发被提上重要日程。但其实，每个人都清楚，这并非一日之功。

OpenAI在GPT-3的论文中写道，GPT-3训练一次的费用是460万美元，训练时间为355个GPU年（一块GPU运行355年的运算量），总成本据悉达到1200万美元。由于代价高昂，论文称出现BUG时无法再重新进行训练。

据英伟达估算，如果用8张V100显卡训练GPT-3，训练时⻓预计要36年;用512张V100需要将近7个月;如果拥有1024张80GB的A100，那么完整训练GPT-3的时⻓可以缩减到1个月。

对这样一波浪潮该如何反应?

在张家兴看来，要追赶，更好的做法可能不是看别人做了什么去复现，而是把心态先摆平，在相同的位置去思考AI的未来在哪，尤其是要想明白AI跟研究谁是手段，谁是目的。

“如果仅以ChatGPT为目标，跟在后面复制，那也不叫超越而是跟随。只有你站在OpenAI相同的位置思考未来，才有超越的可能性，我们拼的是下一次AGI的突破。”张家兴说。

上一篇：FT Partners：2022年第三季度金融科技报告

下一篇：GP Bullhound：2022年全球教育科技报告