MOSS、曹植、魔力写作三大模型开发者：如何投身ChatGPT引发的革命

频道：行业资讯日期：2023-04-07 01:36:39 浏览：1367

转自：俞陶然

ChatGPT问世以来，上海学术界和产业界已开发出MOSS、“曹植”和“魔力写作”等多个大型自然语言模型。其中，MOSS由复旦大学科研团队开发，目前在校园网内测阶段，计划本月完成升级并开源；“曹植”由达观数据公司开发，也处于内测阶段，计划今年上半年正式发布；“魔力写作Magic Writer”由竹间智能公司开发，多家企业用户正在试用，其面向个人用户的版本“灵感闪写”和“文胆”微信小程序已上线一个月。如何看待ChatGPT引发的科研范式变革和产业变革？政府、高校院所和企业可以有何作为？三个大语言模型开发负责人谈了他们的看法。

科研范式变革涉及众多学科

“科研范式变革可以分为两个层面，一个是在众多学科领域引入人工智能，开展AI for Science（人工智能驱动的科学研究）；另一个是在人工智能领域内，从传统的自然语言处理转向以大语言模型为基座的通用人工智能（AGI）研究。”复旦大学计算机科学技术学院教授、MOSS开发团队负责人邱锡鹏说。

在诸多学科领域，AI for Science近年来正在兴起。越来越多的科研人员在用人工智能系统分析海量数据，从中得出一些人脑很难想到的科学结论。2020年，“阿尔法折叠2”系统精准预测了蛋白质三维结构，被《科学》杂志评为2020年十大科学突破之一。去年，ChatGPT的惊艳亮相指出了一条新的AI for Science路径——让大语言模型“阅读”大量科学文献后，利用其生成内容的不确定性来进行“头脑风暴”，设计新的科研规划或技术路线。

在人工智能领域，ChatGPT淘汰了句法分析等一些过去很重要的研究方向，相关论文越来越少，因为ChatGPT强大的自然语言理解和生成能力表明，对大语言模型来说，句法分析等中间环节不是必需的。因此，高校院所和企业的科研团队都在转向，或自主研发大语言模型，或将自研小模型与开源大模型融合，打造混合式模型。

“灵感闪写”微信小程序

“灵感闪写”和“魔力写作”就是混合式模型产品。竹间智能创始人兼首席执行官、微软（亚洲）互联网工程院前副院长简仁贤介绍，公司将自研NLP（自然语言处理）小模型与大语言模型融合后，悉心“调教”，取得了不错的用户体验。记者打开“灵感闪写”小程序，发现它可以根据输入的词句，一键生成商业计划书、公众号文章、带货笔记等各类文本和插图。“魔力写作”除了能生成文本，还有对话能力，可以在学习企业的知识库后，回答企业员工及其客户的提问。

国内科技界要重视AGI研究

在科研范式和产业变革时期，邱锡鹏认为，国内科技界要重视通用人工智能研究，而不能只盯着GPT模型本身和这类产品的落地应用。“通用人工智能就是人工智能像人一样，可以干很多事，不再局限于某些特定任务。”他解释，“微软最近发表的测评论文说，GPT-4能力的广度和深度显示，它可以被视为AGI系统的雏形。OpenAI、谷歌、华盛顿大学等头部机构都已转向，研究以大模型为基座的AGI。”

为了在这场科技革命中不被落下，我国也要加强通用人工智能研究，包括将视觉、语音等多模态感知能力接入大语言模型，增强大模型与现实世界的交互能力，并构建以通用人工智能为核心的产学研合作生态。

邱锡鹏教授（左一）带领团队研发MOSS。（来源：复旦大学）

遵循这一思路，复旦科研团队正在升级MOSS。作为国内第一个对话式大语言模型，MOSS今年2月启动内测后引发广泛关注。目前，邱锡鹏和博士生孙天祥等人一方面在提升它的中文水平，中文词语训练量已由内测启动时的300亿增至1000亿；另一方面，他们在为MOSS添加联网搜索、图片生成等功能，让它可以上网获取新的知识，向通用人工智能系统演进。

复旦团队计划本月完成升级并开源，公布MOSS模型参数和训练细节，与学术界和产业界分享大语言模型开发经验，还能让企业在开源模型基础上开发各种应用，促进产业生态繁荣。

建议发挥新型举国体制优势

谈及大语言模型产业前景，达观数据董事长兼首席执行官陈运文预测，产业上游是算力供应商，中游是百度等开发C端通用大模型的大企业和开发B端服务大模型的企业，下游是开发各种应用的中小企业。其中，B端服务大模型的参数量是C端通用大模型的1/5～1/3，适合较大规模的企业开发。

达观数据研发的“曹植”就是一个B端服务大模型，参数量超过500亿，公司希望它像曹植那样有“七步成诗”能力，成为满足金融、政务、制造等行业需求的智慧大脑。它拥有ChatGPT的所有功能，可以生成贷后管理报告、投行申报文档、法律文书等各类文本，也可以与用户对话。“我们想打造垂直、专用、自主可控的国产大模型。”陈运文说，“为了能生成长篇专业文本，比如上百页的报告，我们开发了一个能输入复杂指令的表单界面，有望为企业员工大幅减负。”

“曹植”大语言模型架构（来源：达观数据）

在研发过程中，达观数据也有些烦恼——公司只有100张GPU（图形处理器）卡，而要“跑”大模型，至少需要1000张GPU卡。为此，陈运文只能到处“化缘”借卡。在他看来，新型举国体制适用于大语言模型研发和产业化，国家和地方政府可建立人工智能公共算力池，租给企业和高校院所使用。“一张A800 GPU卡的价格是8万元，公共算力池可配备5000—10000张卡，所以建设成本在10亿元内。开发大模型产品的企业可分时租用池里部分GPU，大幅节省自购算力资源的成本。”

新型举国体制还可在大模型的中文预训练中发挥作用，推动图书馆、出版社、新闻机构等拥有高质量中文语料库的单位与人工智能企业合作，提高大模型的中文知识水平。

简仁贤也表达了人工智能企业的心声：在这轮产业变革中，希望政府和投资机构更多地关注、支持中小企业。大模型并非只有“BAT”等巨头才“玩得起”，事实上，OpenAI就属于创业期的中小企业。创业公司决策效率高、创新能力强的优势，在大模型技术创新中得到了充分体现。“就像OpenAI与微软的合作一样，创业公司与大企业、投资机构联手，有望开发出颠覆性产品。”