做项目管理试题：看国内4家大模型究竟哪家强？（作者：朱少民）

回帖数 0

阅读数 1052

发表时间 2024-02-22 09:56:22

📘

路婕

楼主

未来，不仅软件研发靠大模型（LLM）驱动，而且项目管理也会靠LLM驱动。暂时就不演练LLM是如何帮忙进行项目管理的，而是先考考它们，看看能否通过考试。如果通过了考试，我们就可以录用它们来参与我们的项目管理。

我选了两组项目管理（偏敏捷研发范式）的试题，一组相对简单的6个试题，找几个人类项目经理（或Scrum Master）来做或讨论，他们的意见比较一致，即缺少争议；另一组题目相对较难的6个试题，人类项目经理做的时候很容易做错，而且大家讨论时，意见也不一致。

然后，我选了国内流行的四大模型的聊天工具：智谱清言、百度文心一言、讯飞星火认知大模型、阿里通义千问，让它们同台竞技。避免影响，在它们竞技完之后，我再构造智能体，将敏捷项目实践、PMBOK等文档作为知识库导入智能体，我还特别特别注意，不导入试题一类的文档，只灌输十个左右的知识文档。

1. 第一组6个较容易的试题，测试四大模型

为了减少篇幅，在这里就不把每个试题的答案都贴出来，每个大模型贴出一个（而且是不同的题目），正好让大家也大致了解6个什么样的试题。

1）智谱回答的第1题，结果正确，而且先给出答案，再做解析，回答规范、清晰。

2）文心一言回答的第2题，结果正确，而且进行了正确的解析，逻辑合理，最后给出答案。

3）讯飞星火回答的第3题，结果正确，但没有给出解析。

回答第4个问题时，没有给出答案（算错），虽然说了一番道理。

4）通义千问回答的第5题，结果正确，也给出了正确的解析，只是回答不够规范。

5）在两组题目都回答之后，我构建了智谱清言智能体“全才项目经理”，它回答的第6题，结果正确，而且之前智谱清言chaGLM回答是错误的：

下面是智谱清言chaGLM回答，答案是错误的，对环境理解不对，这是测试环境，而不是生产环境。

第一组题目做下来，它们的成绩如下，文心一言和智能体得满分，胜出。

2. 第二组6个较难的试题

1）智谱回答的第1题，答案错误，正确答案是C，文心一言和星火答对，而通义千问干脆把A/C都放上（我就算它半对）。

文心一言正确的回答。

通义千问的半对（机智吗？）回答，A是优先的，错的概率更大。也说明这题的选择是比较困难的。两个模型加上智能体都选A（3:2，错的概率大），题目没出好？

2）文心一言回答的第2题，居然答对了（A），因为另外3个大模型都答错了（都给出B），此处必须给文心一言点赞

错误答案，如通义千问的回答

3）讯飞星火和通义千问都答对了第3题（D），也回答得很规范，而另两个模型都答错了（C）。

那么看看智谱清言是怎么错误理解的？

4）通义千问和智谱清言都答对了第4题（D），而另两个模型都答错了（A）。

那么看看文心一言是怎么答错的？

5）第5题可能比较简单（智谱清言都懒得做解析），4大模型都答对了（B）。

6）第6题可能很难，4大模型都答错了（C），只有智能体答对了（B）。

错误的理解是这样的：

第二组测试的结果：四大模型都没有及格（低于60分），智谱清言分数最低，只答对1/3，其它三个模型不分伯仲。但智能体优势明显，答对5题，得了83.33分。

测试的最后结果出来了

第1名：智能体： 11/12= 91.67分
第2名：文心一言： 9/12 = 75
第3名：通义千问： 7.5/12 =62.5
第4名：讯飞星火： 7/12= 58.3（那两题没给出答案，算它错，so 排在前面）
第5名：智谱清言： 7/12 = 58.3

大家有何看法或评论，欢迎留言。

本文转载自【软件质量报道】公众号

原文作者：朱少民

原文链接：https://mp.weixin.qq.com/s/M4_jmOOwn0im9r9o0OXJJQ

2024-02-22 13:28:03 路婕最后编辑

联系我们

联系人

张淑钧/高级客户经理

电话(微信)

13156280939

QQ号码

2082428410

联系邮箱

zhangshujun@chandao.com

相关帖子

禅道产品
禅道开源版禅道企业版禅道旗舰版禅道IPD版
核心功能
产品管理项目管理质量管理效能管理
使用文档
基本版手册企业版手册旗舰版手册 IPD版手册开发中心手册
帮助中心
积分问答常见问题论坛交流使用视频 Gitee GitHub
关于我们
关于我们禅道软件最新动态禅道活动
禅道社区
禅道博客积分排行积分商城禅道书院
联系方式
联系人：张淑钧电话：13156280939微信：13156280939 Q Q：2082428410
北京、上海、深圳分部

友情链接：ZTF自动化测试框架 ZenData测试数据生成器喧喧渠成软件 ZDOO全协同企业管理软件 ZenDAS数据分析工具 ZenShot跨平台截图工具飞信鼎即时通讯解决方案

我要提问提问有任何问题，您都可以在这里提问。问题反馈反馈点击这里，让我们聆听您的建议与反馈。