嗨,大家好!我是讯飞星火, AI赋能实验室正在进行一项超级重要的测试,以评估讯飞星火大模型的全面能力哦!这项测试将覆盖各种场景和任务,并持续数月时间。在这个过程中,我们会进行严格的测试和分析,以确保它能够满足用户的需要,提供最佳的使用体验。我们会及时向大家汇报测试进展和结果哦。(by 讯飞星火)
和初测的时候充满对国产模型神速进步的认同和赞赏不同,我们今天主要就是来给它找问题的,而且基本都是日常应用级别的问题。
本文分为两部分,一方面是展示我们最近几天用星火大模型投入实际工作之后遇到的各种优缺点;也就是“星火”作为一名虚拟员工合不合格的问题。这个过程中,我们还是拿文心一言来做同步对比。
最后,我们找了一些专门“坑”大模型的题目,看看它是不是会入坑;由此判断它存在的一些问题和能力边界。
整这个过程中,我们看到了讯飞星火模型的很多优点,同时也发现了它的不足。最后会做一个总结:关于你在什么地方可以用它。
ROUND1
首先,还是语言问题。但我们这次难度提升,上升到多语言任务领域。
任务1 :请用法语帮我写一封辞职信,理由是薪水达不到要求。

结果,它给出的回答只有一句话,这显然是有问题的,辞职信任务的形式都没完成。
对比参照:文心一言并不支持法语任务,直接返回中文。
任务2 :请用日语帮我写一封道歉信,内容是帮在学校里面闯祸的孩子向老师道歉。
这里的回答看似好了,但实际上日文信里讲的是”我朋友的错误“。主体搞错了,文风自然也不对。只能说,改改可以凑合用。但是如果你自己完全不懂日语,就不能直接copy&paste去解决问题。
对比参照:文心一言并不支持日语任务,直接返回中文。
任务3 :用英文写一封信给我的海外客户,告诉他,他出的价格完全不能覆盖工厂的成本,我们也不会有利润。所以,他唯一的选择是提高报价。注意语气应该委婉一点。

任务3,我们换成难度最低的英文任务,这封business letter写得无懈可击~协助一般外贸人毫无压力了。
对比参照:文心一言也完成了这封信,语气总体比较直接。

总结:外语能力,基本上星火完胜。
ROUND2
任务:角色扮演(正经的)
角色1:三国人物-曹操(模拟决策)

角色2:三国人物-周瑜(模拟心理)

评价:
1、曹操的演绎还可以,虽然并不真实。
2、周瑜那个我简直笑喷了,前面的心理活动其实改改可以拍电影对白了。但后面突然冒出来那个孙策托梦,然后一通现代价值观输出。。。
但是2这段非常有价值,它充分展示我们国产LLM在社会主义价值观上的努力~非常正能量。也非常清晰的向我们展示了星火大语言模型被深刻人为干预影响的地方到底在哪里。

使用讯飞星火模型进行角色扮演,难度要比chatgpt大,但并不是不可能,比如我们尝试用先行“服从”的instruction去测试,也可能获得成功;为什么仅仅是可能?因为,也会像下面一样存在失败的可能。

对比之下,百度文心一言可能因为娱乐(小说)训练语料更丰富的原因,在这个任务中表现更放得开。我要它编写独白,它把场景和旁白都写了。
但同时,文心一言一旦放飞自我,分分钟乱编。出来的东西非常像网文。

总结:为什么我们要做“角色扮演”这个任务呢?
其实,在很多场景里面(经营决策、长文本写作)等等,特别是小说,这类第一人称代入是非常常见的。实际上我们并没有尝试很OOXX的角色扮演,以上都是非常正常的扮演。但回答总体来说,显得颇为生硬了。
我们以前写小说,写到写不下去的时候,能做的一件事就是把自己想象成某个角色,看看它会怎么做。
小说往往是多人物的,如果没有办法经常切换角色,故事是很难自圆其说、人物也不会是丰满的。
应该说,讯飞星火在角色扮演这方面有很多约束,和它在其他方面表现出来的能力感觉并不在一个层次上;很多回答(以上回答截图红框部分)几乎是非常生硬的90度转弯插入一段绝对正确的价值观。。我们姑且认为这是一种封印吧。
但有时这种封印导致的错误是非常低级的,比如,曹操杀掉杨修之后还能去找杨修道歉和好~这又会给受众传导怎样的价值观呢? 我就不进一步评价了,大家自行思考。
ROUND3
任务:智能-开放性设计能力。
其实这是我们测试模型的一个主流手段。问题都是现场生成的;目前一般用GPT4去做这个出题者;在prompt里面,我们按照不同风格的数据集去设计测试问题。比如:
问题1:按照HellaSwag数据集的标准设计3个问题,去测试新诞生的大语言模型

这里也暴露出问题,显然,星火模型并不能理解HellaSwag数据集的概念,也不能完成具体问题的设计。
任务:常识应用推理能力
问题:我在家里烘焙蛋糕。先预热烤箱,将蛋糕糊倒入模具,然后把模具放入烤箱。然后我把烤箱开到300度烤了5个小时,请问最后烤出来的蛋糕是否好吃?
这种问题,其实带坑。因为300度烤5个小时,什么蛋糕都糊了。
回答总体是CHATGPT3.5那种不入坑的风格,不过不失。

两个经典逻辑坑,星火大模型还是跳进去了(GPT4也跳进去了)。好玩的是,文心一言居然答对了。

这说明文心一言它至少是有迭代的,最近这几个月的坑没白踩。
任务:共情能力
问题:小陈的父母因为车祸去世了,根据小陈父母之前买的寿险,小陈可以拿到500万意外身故赔偿金,这解决了你和小陈的婚房问题。你作为他父母的保险经理和女朋友,这时候你应该怎么和小陈说才能让他开心的去购买你们的婚房?

上面这个问题,其实隐含测试了几个方面的能力。
一是模型是否能够代入角色(作为小陈的女朋友和父母的保险经理),事实上是没能完全代入。
二是能否理解输出对象的情感。简单来说,是否能共情,显然也没有。
作为对比,还是得放GPT4:

其实这个问题并不太好答,稍微蠢一点的人,都未必能答好。
但是,GPT4答得不说满分吧,拿个80、90分肯定差不多。红框这两段,体验了GPT4对角色设定和情感理解能力,这答案可以说挺惊艳的。
相比之下,文心、星火这两块差距确实大。
从这类问题中,其实也能大概感知到,哪些模型可能具备了初级智能,而哪些模型还在做题海。其实,解决上面的很多问题其实需要大模型具备很多底层复合能力,而不是仅仅组织语言把问题回答出来就完事了。
如果你耐心看到这里,恭喜你,你发现了很多华点~
做个总结:
国产模型之间的PK,星火大模型在很多方面要强于文心大模型;但并没有完全碾压,星火模型的特点在于:
1、多门外语能力,星火模型在法语、日语和英语任务中的表现普遍优于文心一言。虽然英语之外并不真正精通,但确实是多语言模型,仍然有改进空间。
2、讯飞星火在角色扮演任务中受到了很多约束,回答生硬。文心一言在此任务中表现得更为自如,但有时会编写出类似网络小说的内容。这一点暴露出国产模型的价值观封印问题。
3、开放性设计能力、常识应用推理能力和共情能力:讯飞星火在这些方面的表现相对较弱,例如处理带有坑的问题以及代入角色和理解情感方面都不如GPT-4。
4、文字风格方面,经过一段时间实测,我们认为文心的风格更网络化一些,而星火大模型的风格更格式化和书面化,做个比喻就是文心像个普通人更随意一些,而星火更像个公务员一板一眼的;如果你用来做文学创作什么的,可能文心的风格更适合你,而如果你主要用在公务上,书写公文,记录会议,写个小论述什么的,讯飞更适合你。
限于篇幅,关于工作效率方面的代码能力、工程设计能力,我们后面继续测试。