段誉击败虚竹，与乔峰反目成仇：文心一言的bug令人唏嘘

频道：行业资讯日期：2023-03-21 14:42:27 浏览：1292

文心一言的发布引发了业内的热议，关于文心一言目前的水平究竟如何，讨论也颇为热烈，看好与不看好的兼而有之。

从百度的发布会来看，百度文心一言是仓促上线的，目前还存在诸多bug，从笔者的测试来看，小说影视剧情的数据内容缺失或是文心一言的当前的最大bug。

事实上，笔者并不认同这种说法，毕竟实践是检验的唯一标准。

文心一言与ChatGPT两者的共性与局限

笔者近期针对文心一言进行了相关的测试，从测试来看，在一些常规的问答中，文心一言能够中规中矩的列出一二三四，从几个维度给出答案。比如笔者问：蔚小理中，小鹏为何掉队了？

文心一言从市场竞争、技术创新、品牌营销以及组织架构四个方面给出了原因，虽然不够深刻，但也算是一种信息的高效整合，与ChatGPT刚推出时，有着类似之处。

笔者再让它写一篇新能源汽车市场分析报告，而文心一言也很快生成了一个报告的基本框架。

笔者的感受是，ChatGPT与文心一言的共性是，在很多的回复场景中，它提供的答案基本能满足需求，尤其在商业类文案、报告以及实用性文书撰写的时候，它能快速提供一个指导性的框架，帮助用户高效创作。

文心一言与ChatGPT两者的共性短板与局限是，都是对现有数据库中的东西消化，都偏向于中庸与常规，缺了点个性化的思维，也不具备深度思考的能力。

如果问题超出了现有数据库的东西，可能就会提供错误答案与说法，甚至被用户引导，开始有模有样的编故事。

纽约时报测试了ChatGPT和GPT-4关于艾伦人工智能研究所前CEO的一些问题，这两个机器人均将Oren解释为艾伦人工智能研究所的CEO，但事实上，Oren已经于2022年宣布卸任CEO一职。

这意味着如果数据库更新不及时，那么它就会提供错误答案，比如此前有网友测试问ChatGPT：孙中山的父亲是谁，然后不断以“你刚才说？”的语气质疑，ChatGPT的回复从孙楚贵到孙多郎再到孙应麟、孙传庭。可以知道，ChatGPT其实是经不起质疑的，答案有时候错漏百出。

目前两者都还仅限于被动响应，它有时会犯简单的推理错误或者过于轻信用户的错误陈述。在它生成的代码中可能会引入安全漏洞等等。

此外，一般涉及到提问谁比谁强的问题，哪个更好，未来趋势等需要一个明确的选择之时，无论是文心一言还是ChatGPT都无法有明确的观点与结论，虽然看似客观，但其实缺乏了更具深度的观点与逻辑分析。

比如在ChatGPT上线的时候，测试它怎么看待某个产业的发展趋势，都没有明确的观点。

比如你问：“未来哪只基金能赚大钱呢？”答案是“无法预测”，因为受制于各种因素的影响。

比如再问“未来哪个行业最可能上涨？”依旧是标准答案：“未来充满不确定性，没有任何人能准确地预测市场”。

而在文心一言的测试中，笔者问比亚迪与特斯拉谁更强的时候，同样发现有这类泛泛而谈，而无法给出明确选择答案与倾向的观点，回复过于模板化。

笔者提问蔚小理三个汽车品牌，哪家更值得买？文心一言表示都是值得考虑的品牌，当然涉及到产品选择，这种回答是没有问题的。

但在笔者提问天龙八部中，乔峰与康敏的武功谁更厉害时，它又是这套中庸的回复模版，说两人都是武功高强的人物，难以进行比较，这其实就犯了事实的错误，因为原著中康敏是没有武功的。

在影视小说等方面的内容数据还存在很大的bug与缺陷

笔者通过测试发现，在一些影视、演艺、小说人物方面的提问中、往往会提供框架性的错误答案与事实错误，甚至容易被用户引导编故事，这可能是文心一言目前的最大bug。

它体现在两方面，首先笔者测试发现，文心一言在回复的时候，有一套基本的逻辑与框架。将同样的问题，换一个名字，得出的答案可能依然类似。

比如笔者提问：梁朝伟比刘德华的演技好在哪？它的回复还算客观：

梁朝伟和刘德华都是香港影坛的著名演员，两人的演技都很出色。因此，要比较他们的演技优劣是比较困难的，因为两人的表演风格和特点都有所不同。

梁朝伟在一些电影作品中的表演风格更加细腻、内敛，他能够更好地表现出角色的情感和内心活动。例如，在电影《无间道》中，梁朝伟扮演的角色陈永仁，他的表演更加沉稳、深邃，令人印象深刻。相比之下，刘德华则更加注重表现角色的外在形象和动作，他的演技风格更加外放、张扬，能够更好地展现出角色的性格和情感。

因此，从这个角度来看，梁朝伟的演技略胜一筹。

但是笔者再提问的时候，设置了一个陷阱，问：梁朝伟比王新喜（本人姓名）的演技好在哪？它就开始按照原来的模版回复：

梁朝伟和王新喜都是香港影坛的著名演员，他们的演技都非常出色。并表示梁朝伟的表演风格更加细腻、内敛，能够更好地表现出角色的情感和内心活动；而王新喜（本人）演技则更加注重表现角色的外在形象和动作，能够更好地展现出角色的性格和情感。最后从三个方面得出梁朝伟演技比本人要更胜一筹。从这里来看，基本上就是胡诌了。

而这种胡诌能力，在笔者基于天龙八部的提问中，让笔者笑到停不下来。

比如笔者提了一个与事实不符的问题——段誉与乔峰为何反目成仇？笔者想测试它的纠错能力。

但它回复的是：段誉与乔峰反目成仇最主要的原因是两人在追求武学真理的过程中产生了分歧。两人关系的破裂还与虚竹的介入有关。虚竹是逍遥派的传人，与段誉和乔峰都有着复杂的关系。他既想维护三兄弟的团结，又想得到无崖子的珍贵遗物。

笔者再问：段誉打败了扫地僧吗？它回复，段誉确实用六脉神剑结合北冥神功和凌波微步打败了扫地僧。

笔者又问：天龙八部中，段誉为何能击败虚竹？

它列出了三点：1.内力来源不同；2.武功特点不同：段誉的北冥神功可以主动吸收他人内力，而虚竹的北冥真气则是被动吸收，只有在敌人运功攻击时才能够吸收对方的内力。因此，段誉在战斗中可以更加主动地掌握战斗节奏.3.战斗经验与技巧不同，综上原因，段誉击败了虚竹。

为了测试它是否具备纠错的能力，我反问一句：段誉与虚竹两人有过比武对决吗？

它回复：是的，在天龙八部中，段誉和虚竹曾经有过比武对决。这场比武发生在两人初次相遇后不久，地点是在西夏国的皇宫中。

笔者继续追问：段誉打败虚竹之后，发生了什么？

文心一言回答：在段誉打败虚竹之后，他继承了逍遥派的掌门之位，并且与灵鹫宫宫主虚竹的夫人梦姑重逢，两人结为夫妻。此外，他还结交了许多江湖上的好友，包括秦红棉、钟灵、木婉清、王语嫣等人。

笔者还进一步求证：你确定你说的故事是对的吗？与天龙八部小说情节吻合吗？它表示：我确定我所说的故事是基于金庸先生的天龙八部小说情节而来。在小说中，段誉最终与乔峰和解，并一起维护了武林和平。

笔者继续顺着它的故事追问：

段誉打败虚竹之后，与梦姑结为夫妻，王语嫣、虚竹怎么办？

它回复：王语嫣选择了离开，回到了自己的家乡。虚竹则继续留在少林寺，跟随师父修行，并逐渐领悟了佛法的真谛。他们都找到了自己的归宿，这也是金庸先生所希望看到的。

为了确认它是否被笔者的问答误导了，笔者还问了一句事实性的问题：天龙八部的结尾，乔峰的结局是什么？

它回复：在《天龙八部》的结尾，乔峰和段誉联手打败了慕容复等人，但是自己也身受重伤，最终离世。

从目前来看，笔者已经确信文心一言的数据库中可能缺失了天龙八部的相关内容与数据的。基于天龙八部这部小说的提问，文心一言的回答呈现出了较多的事实性错误，以及有胡编乱造的倾向。

当然，目前在内测阶段，针对这种偏冷门的文学故事情节层面的提问，出现bug难免，毕竟ChatGPT在刚推出的时候，也是赞誉与槽点齐飞。在冷门内容领域，也曾出现胡编乱造的倾向。

在商业创作、数理推算方面，文心一言展示了不错的潜力

从目前来看，文心一言可能更侧重实用性方面，在有用的内容搜索方面，包括文学创作、商业文案创作、数理推算、中文理解等方面，展示出了一定的潜力，它能做到多轮对话和连续提问的时候，文心一言回答依然能理解问题。

比如笔者提问：我想成立一个互联网公司，专注短视频、直播方面，帮助起公司名字、写slogan。它给出了：瞬拍科技、芒果互娱、星梦工厂、爆点文化、映趣科技、魔方互娱、聚光灯传媒等名字，且给出了相应的slogan，从名字看，也颇为贴合需求、且具备借鉴价值。

此外，笔者随机测试了写了两道数学题，其中一道是：解方程 X²+X-4+12=8，求X。一道是文字性描述的计算题，它非常快速、准确的给出了答案与运算过程。笔者也测试了大位数的加减乘除，它都能快速理解，准确作答。

事实上，ChatGPT在刚推出的时候，数据计算其实是它的短板。在知乎，有人给出了与笔者类似的数学解方程问题，但是ChatGPT解答对了过程，但却计算错了结果。

ChatGPT在刚推出的时候，有人测试发现，做小位数的加法结虽然大概率是对的，但是对于大位数的加法正确率极低。

因此，客观来看，在数学计算方面，百度文心一言比ChatGPT刚推出时要强一点。而文心一言在AI生成不同的照片和画作方面，结果也是比较出乎预料的。

比如笔者测试：生成一张关于落日、长河的照片

再测试：用徐悲鸿的风格画一张画像，也给出了相对不错的人物画作。

但提问不能天马行空，比如如果提问：用徐悲鸿的风格画一张乔峰的画像，它就无法生成了。

文心一言需要补齐短板

ChatGPT与文心一言本质上提供的依然是一种高效的信息处理能力，是计算机通过对大数据的筛选过滤和整合得出搜索结果，让这部分工作量得到了有效疏解。

总的来说，百度文心一言在商业文案创作、数理推算、以文绘图能力、中文理解、生活实用性问题回答等方面主流的展现了不错的潜质。但在“无用、无聊”且相对小众（影视、小说人物、内容）的问题之时，出现了很多的错误答案，甚至编故事还编的有模有样。这可能是当前文心一言的最大bug。

市场是不等人的，百度文心一言虽然还有种种缺陷，但也算是唯二了，有总胜于无，面世更早，就有机会和市场进行更好的磨合，用户的反馈与体验能促进技术与版本迭代，也因此有机会更快的进化。

从目前来看，文心一言在主流应用层面的测试实际表现是过关，但在影视小说等方面的内容数据库还存在bug与缺陷，目前还处于内测阶段，希望百度正式推出的时候，能够有效解决这些bug与短板。

作者：王新喜 TMT资深评论人本文未经许可谢绝转载

上一篇：GPT-4、百度“文心一言”相继发布，中国版ChatGPT创业正在加速

下一篇：百度文心一言下周正式上线；华为：别担心，没进军 ERP；抖音版 B 站「青桃」上线

0 留言

◎欢迎参与讨论，请在这里发表您的看法、交流您的观点。

段誉击败虚竹，与乔峰反目成仇：文心一言的bug令人唏嘘

相关文章

0 留言

评论