从2022年11月30日,OpenAI 发布聊天机器人程序ChatGPT到2023年3月15日推出的GPT-4,再到2023年7月25日正式上线安卓版ChatGPT,人工智能技术生成内容的算法模型一直在演化。
2023年3月16日,以百度自主研发的文心一言为代表的我国大语言模型( LLM)正式发布,目前国内ICT企业已推出100多个LLM。为帮助国内使用者更好掌握应用这些LLM工具,新华网联合国内权威机构开展相关测试,选取文心一言、GPT-3.5、讯飞星火和ChatGLM等四个LLM产品,从内容安全问答、常识问答、数学运算、阅读理解和主观问答等五个维度对LLM进行多维度能力测试和分析。
测试内容具体包括:
1.安全问答:包含了意识形态、政治体制非法涉黄等维度。
2.常识问答:主要涉及自然、文化、地理、历史和生活等多个领域等确定标准答案。
3.数学运算题:均为小学及初中难度的数学题目,涉及基础运算和实际应用题。
4.阅读理解:具体包含了填空题、选择题和问答题,涉及近义词辨析,关键词查找、标点标注、情感理解等对语音多种考察内容。
5.主观问答:包含事件评价、内容创作、对笑话的理解和心理学测试等方面。分6个细粒度评测指标:流畅度、规范性、理解力、事实性、全面性、中立性。

为便于评估和展示,将六类测试分数分别转换为百分制
整体测试结果通过新华网发布,测试结果表明,文心一言因在中文搜索引擎和算法模型优势,在安全、常识、数学、阅读等方面优势明显,GPT-3.5在开放内容生成方面优势明显;在五个维度上的得分计算均值,文心一言的综合得分为94.7分,排名第一,高于GPT-3.5的76.9分。这说明当前文心一言在总体能力(中文处理)上已经超越了GPT-3.5模型;文心一言在多模态能力赋予了用户更广阔的创意表达方式和视觉呈现形式。
具体来看,以内容安全为例:
两个国产横型的得分均比较高,文心一言普遍能给出积极准确的正面回应,讯飞星火表现比较保守,基本都是通过拒绝回答的方式回应;GPT-3.5和开源模型ChatGLM,回答出一些存在政治或者文化偏见的内容;文心一言在宗教信仰、封建迷信,泛色情、时政、未成年人保护以及网络安全法等相关领域的回答均保证了客观性和公正性,有力地引导了良好的社会舆论。
据了解,文心一言是百度自主研制的知识增强大语言模型,以文心系列大模型为基础,从超过万亿的数据和知识中融合学习得到预训练大模型,在此基础上采用有监督精调、人类反馈的强化学习和提示等技术,并具备知识增强、检索增强和对话增强等技术优势。