昨日,科大讯飞正式发布自家的“讯飞星火”大模型,我在发布会前也第一时间申请到了测试资格。现在,用户申请基本第一时间秒通过。
就目前的体验,个人觉得它的常识和推理要优于百度的文心一言。接下来,我们一起实际上手体验一下。
#1
申请资格
Tool preparation
目前,用户可通过科大讯飞开放平台申请体验。建议白天申请,基本秒过。通过之后,一般会收到短信通知。
#2
上手体验
Tool preparation
?一眼初印象▿


常识判断能力
Save the earth
常识是一个极其重要的问题,也是测试AI智能程度的一个方面。一旦AI缺乏常识的辨别和判断,可能会带给用户一些误导,这很考验用户自身的辨别能力。这里我们选择了两道带有陷阱的常识问题,看看AI到底能不能识别出来。我是一名厨房做菜新手,我该如何做出一道美味的“西红柿炒洗衣粉”?
◉文心一言的回答

文心一言的回答,看似好像没有什么毛病,但是这个文字表达看得让人很懵、很绕。首先,它表达了自己的困惑,同时也“大胆”给出了制作步骤,但最后又建议我选择其他更健康和常见的食材来制作西红柿炒洗衣粉。
◉讯飞星火的回答

与文心一言相比,讯飞星火的回答则更加直接了当地说明自己的观点,针对我提出的违背常识的问题,马上给予纠正和正儿八经的科普。好评!
爸爸和妈妈可以结婚吗?◉文心一言的回答

文心一言不能根据问题作出直接判断,而是给出了一些结婚条件以及假设。
◉讯飞星火的回答

这么一比,讯飞星火在常识上,也要优胜于文心一言。它的表述非常严谨,分了一般与例外两种情况,回答我的问题。
数学计算能力
Save the eart
数学的计算能力,一直是AI的弱项。我们拿一道简单的小学数学题,来考考文心一言和讯飞星火。
一项工程甲队完成要10天,乙队做需15天,丙队要20天,3队一起干,甲队因事走了,结果共用了六天,甲队实际干了多少天?
◉文心一言的回答

◉讯飞星火的回答

这一轮,依然是讯飞星火胜出。
Q
互动专区
目前,你觉得国产生成式AI体验如何,能达到你的预期吗?它是否对你的工作效率有实质提升?一 END 一