深度评测：谷歌PaLM 2 VS GPT-4，谁是最强大模型？马斯克为何选中她，揭秘推特新CEO；瑞士暴雷后，资金疯狂涌入这里

5 月 11 日，谷歌在今年的 I/O 开发者大会上一口气发布新版 PaLM 2、升级版办公全家桶以及更加智能的 Bard 聊天机器人等多款 AI 产品。相比在 2 月的 Bard 翻车发布，这回似乎给自己挽回了一些颜面。但是否真的 ” 一雪前耻 ” 了呢？ChatGPT-4 和 PaLM 2，谁更强？《每日经济新闻》深度评测并采访西班牙游戏工程师、技术博客 Orange ’ s AI 主理人，给出你答案。

马斯克曾表示，” 一旦我找到一个足够愚蠢的人来接手这份工作，我就会辞去推特 CEO 一职！”5 月 12 日，马斯克发布推文官宣 NBCUniversal 原全球业务主管 Linda Yaccarino 将出任推特 CEO。她有什么来头？” 一周人物 ” 为你揭秘号称界 ” 天鹅绒之锤 ” 的 Linda Yaccarino。

瑞信危机中，瑞士监管局将瑞信 160 亿瑞郎 AT1 债券全额减计后，原本作为全球财富管理中心的瑞士信誉大幅受损，从而驱动避险资金从瑞士撤出，疯狂涌入新加坡。

更多内容，尽在《一周国际财经》。

对决 GPT-4，谷歌推出 PaLM 2，谁更强？

深度评测给你答案

图片来源：谷歌 I/O 大会官方视频截图

当地时间 5 月 10 日，在一年一度的开发者大会上，谷歌连续放大招：推出最新大模型 PaLM 2；官宣用生成式人工智能（AI）技术改造办公软件全家桶 WorkSpace；升级后的聊天机器人 Bard 向所有人开放。此外，多模态大模型 Gemini 正在紧锣密鼓地训练中，整合对话功能的谷歌搜索也将开启测试……

在生成式 AI 浪潮中慢了微软和 OpenAI 一步的谷歌，显然把这一次大会变成了 ” 秀 AI 肌肉 ” 的舞台。据美国媒体统计，两个小时里，谷歌演讲者提到了 143 次 AI。

发布会上，谷歌 DeepMind 副总裁 ZoubinGhahramani 表示：”PaLM 2 不只是功能更强大，它比以前的模型都更快速、高效。”

言语之间，GPT-4 似乎是谷歌暗中较劲的对象。究竟 PaLM 2 和 GPT-4（ChatGPT Plus 试用版）相比表现如何？我们从文本生成、逻辑推理、数学能力、文本总结和编程能力五个方面做了深度测评。（注：由于 Bard 目前只支持英、韩、日三种语言，所以我们使用英文进行测试。）

资本市场的反响也很热烈，谷歌股价连续两天分别涨超 4%。这一次，谷歌能否扳回一城？

编程、推理、造句…… PaLM 2 仍有差距

谷歌这次发布会，外界最关注的是其最新大模型 PaLM 2，以及由该大模型驱动的升级版 Bard。深耕 AI 多年的谷歌此前被 OpenAI 抢了风头，有大模型加持的微软也对谷歌的搜索霸主地位构成严峻威胁，因而本次发布会被视为谷歌的反击战。据谷歌介绍，PaLM 2 的主要提升在于：

1. 多语言能力：由 100 多种语言材料训练而成，理解、生成和翻译细微文本的能力大幅提高。

2. 推理能力：PaLM 2 的广泛数据集包括包含了数学表达式的科学论文和网页，其逻辑、常识推理和数学方面的能力提升。

3. 编程：PaLM 2 在大量公开可用的源代码数据集上进行了预训练，擅长主流的编程语言，如 Python 和 JavaScript，也可以用 Prolog，Fortran 和 Verilog 等语言生成专门的代码。

仅从文字描述来看，PaLM 2 的性能似乎仅是在追赶和对齐 GPT-4。不过，据谷歌官方发布的技术报告，在针对公开数学题数据集 MATH、GSM8K 和 MGSM 的训练上，PaLM 2 的部分结果已经做到了超越 GPT-4。

真实表现如何？以下是我们进行的深度评测。

1. 文本生成

我们这里采用了 AI 工程师 Daniel Monge 发明的 ” 苹果测试 “，即用英文单词 “apple” 结尾造十个句子。据 Monge，这个问题看起来简单，但对于 GPT 和 PaLM 这样的自回归模型而言并不容易。

测试结果显示，GPT-4 完成了 5 个句子，而 Bard 一个句子也没有完成。

2. 逻辑推理

” 一磅的羽毛和一磅的铅哪个更重？” 是一个典型的脑筋急转弯问题，因为人们容易把物体的密度和重量搞混。我们把测试稍作改变，改为 ” 一磅的羽毛和两磅的铅哪个更重 “，来增加迷惑性。

GPT-4 正确回答了问题，而 Bard 完全忽视了问题中两磅铅的设定，仍然回答两者一样重，并且煞有介事地解释为什么人们会认为一磅羽毛比一磅铅更重的原因，因为一磅羽毛的体积更大，似乎相当得意于自己避开了 ” 坑 “。

3. 数学能力

我们从美国教育部门的数学题集中选择了一道九年级难度的题目：求坐标轴中 P（-2,7）和 Q（8, 21）两点的中间点坐标。

Bard 给出的答案（3,14）是正确的，且给出了三种不太一样的回答（虽然解法是一样的）。

GPT-4 支持的 ChatGPT Plus 同样给出了正确答案。不过《每日经济新闻》记者注意到，ChatGPT Plus 的答案生成速度要慢于 Bard。

4. 文本总结

长文本总结是生成式 AI 最能帮助我们日常工作的功能。我们把《华尔街日报》一篇关于一名美联储官员支持继续加息的文章（673 个单词）发给两个模型，让他们以少于 100 个单词的长度总结大意。

两个 AI 都总结出了新闻的大意，但 GPT-4 的内容纳入了很多过于细节的信息，更像是原文的删减拼接，而且单词数超过了 100，而 Bard 的答案更加精炼，有 ” 总结感 “。

5. 编程能力

再来看编程能力。科技博主 David Gewirtz 在四月测试过 Bard 和 ChatGPT 的编程能力，并在谷歌 I/O 大会后测试了最新版的 Bard。他的测试一共有四个题目：用 PHP 语言为博客网站写一个插件；修改代码中的数字表达形式；修复编程错误（bug）；用不同编程语言完成 Hello World 示例程序。

ChatGPT 在四个任务上都成功了，而 Bard 在三个任务上都出了问题。以最后一个任务为例。David Gewirtz 表示，ChatGPT 通过了多种主流编程语言的测试，Bard 只测试 Python 一个语言，其生成的代码未能在循环（loop）里的数字后加上一个空格，但总体而言勉强可以运行。

” 现在，我们某种程度上可以说 Bard 能写代码，但它的水平像是大学一年级的编程学生，成绩可能是 C，”David Gewirtz 总结道。

西班牙游戏工程师 Marko Bilal 对《每日经济新闻》记者表示，他还需要几天时间的测试，才能对 Bard 和 ChatGPT 的编程能力做出充分对比。他目前唯一注意到的区别是，Bard 能够接受的输入内容长度要短很多，而且答案只给出代码中需要修改的地方，但 ChatGPT 每次都给出完整代码。

小结

Bard 在编程、文本生成、逻辑推理上明显弱于 GPT-4，在数学计算上不相上下，而在文本总结上更胜一筹。从上述简单测试而言，可以说 Bard 距离 GPT-4 还有一定差距。

AI 产品经理、技术博客 Orange ’ s AI 主理人 Leo 对《每日经济新闻》记者表示，PaLM 2 的代码能力只在最小参数的模型上做了优化，效果不尽如人意，和开源模型打平，但和 GPT-4 差距巨大。但他同时强调，这样对比也不算公平，需要等 PaLM 2 的大号模型训练好编程能力之后再做比较。

不过，和 GPT-4 相比，PaLM 2 也有独到的优势。谷歌为 PaLM 2 提供了四种参数的模型，从小到大分别为 ” 壁虎 ” （Gecko），” 水獭 “（Otter）、” 野牛 “（Bison）、” 独角兽 “（Unicorn）。Leo 认为，这种模式非常灵活，最小模型的速度非常快，可以在手机本地运行，而 GPT-4 则是单一大模型，速度较慢。

” 其实大部分任务小模型就已经足够。PaLM 2 最大参数的模型也比上一代小很多，这说明（谷歌）已经过了暴力增加参数的探索阶段，进行了更科学的训练，”Leo 表示。

AI 竞争有一定优势，但谷歌仍需奋力追赶

2023 年 2 月，谷歌在 ChatGPT 的压力之下匆忙上演 Bard 首秀，由于现场演示回答问题时 ” 翻车 “，当日股价大跌近 8%。

本周，谷歌一口气推出 AI 升级全家桶之后，股价连续两日涨超 4%，回升至 2022 年 8 月以来的高位，看来资本市场对谷歌的努力还是很认可，CEO 皮查伊的焦虑应该稍微缓解一下了。

” 随着各个行业对 AI 应用的需求加速，我们认为谷歌在整个产品组合中提升和整合生成式 AI 是一个积极的信号，因为随着今年新产品的不断推出，AI 大战的关键就是看谁能争夺更大的市场份额，” 美国 WedBush 证券 TMT 组对《每日经济新闻》记者表示。

WedBush 认为，本周的谷歌开发者大会可以说是谷歌和微软 AI 大战的决定性时刻之一，两家公司在云原生应用、硬件和对话式 AI 上开启全面争夺。然而，由于微软在投资 ChatGPT 上夺得关键先机，谷歌仍然在扮演奋力追赶的角色。

虽然谷歌慢了微软一步，不过相对于其他硅谷巨头的优势较为明显。在谷歌 I/O 开发者大会的同一日，摩根士丹利发布研究报告，看好谷歌在 AI 助手市场的前景。该报告认为，AI 将创造一个 6 万亿美元的机会，要在 AI 助手领域的竞争中获胜，需要硬件、自有数据和 AI 能力的三方面要素。

摩根士丹利认为，谷歌母公司 Alphabet 在这三个方面条件最好，比如 Android 设备在全球有 26 亿台，谷歌地图、Gmail 等生产力工具领先，未来可以和 AI 大模型进行深度整合。相比之下，亚马逊和 Meta 的在硬件设备上存在不足，而苹果的 AI 模型能力成疑。

揭秘推特新 CEO：界的 ” 天鹅绒之锤 “

图片来源：推特截图

去年 12 月，马斯克曾表示，” 一旦我找到一个足够愚蠢的人来接手这份工作，我就会辞去推特 CEO 一职！”

5 个月后，他终于找到了。当地时间 5 月 12 日，马斯克发布推文官宣 NBCUniversal 原全球业务主管 Linda Yaccarino 将出任推特首席执行官。她将主要专注业务运营，而马斯克更关注产品设计和新技术。

据悉，《华尔街日报》援引知情人士消息称，NBC 环球的全球和合作伙伴主席琳达 · 雅卡里诺（Linda Yaccarino）正在洽谈成为推特新任 CEO 的事宜。

雅卡里诺毕业于宾州州立大学，据 NBC 环球官网，她目前管理着一个约 2000 名员工的团队，2011 年至今（也就是雅卡里诺入职 NBC 环球以来），这个团队创造的销售额累计已突破 1000 亿美元。

在 NBC 环球，雅卡里诺作为关键人物推出了由收入支持运营的流媒体服务 Peacock，主导了美国超级碗和奥运会等现场的直播活动，并在数据和技术能力方面进行了大量投资。此外，雅卡里诺还与包括 Snapchat、Apple News、YouTube 和推特在内的多家科技公司建立了合作关系。

目前在 NBC 环球，雅卡里诺负责管理大约 130 亿美元的年度收入，她与营销人员和公司关系密切也是众所周知。雅卡理诺以强硬的谈判策略著称，媒体公司将她形容为 ” 天鹅绒之锤 “。在 NBC 环球任职的同时，雅卡里诺还在今年 2 月被任命为人才管理公司 YMU 的董事会主席，后者的客户包括美国女演员艾米丽 · 拉塔科斯基在内的众多名人。

为什么是她？

雅卡里诺在界的丰富经验和出色成绩，或许正是马斯克想要的。目前，推特正面临着业务下滑的问题，而业务一直是推特的主要收入来源。2021 年，也就是马斯克收购推特的前一年，收入占推特总收入的近 90%。

然而，马斯克收购后，推特迎来了全面的预算削减、转型变革以及反复无常和不可预测的决策，让大量主纷纷逃离，其管理之道也面临批评之声。在今年 3 月份的一次投资者会议上，马斯克表示，推特的收入已经下滑 50%，在收购完成后几个月内就站到了破产边缘。

Sensor Tower 的数据显示，推特 2021 年的前 100 名客户中，有 37 家今年一季度没有在该社交平台上投放任何，另外还有 24 家将推特上的平均月度支出减少了 80% 以上。

不难看出，雅卡里诺成为替任者后，是选择将推特恢复成马斯克收购前的状态，还是把推特转变成全新的一家科技公司，将成为她上任以后的关键看点。

上个月，雅卡里诺在迈阿密的一个大型会议上采访了马斯克，主题为 ” 推特 2.0：从对话到合作 “，并在节目现场称马斯克为 ” 朋友 ” 和 ” 伙伴 “。此外，雅卡里诺还与推特负责全球销售和营销的副总裁克里斯 · 雷迪建立了联系。

最看多 AI 的孙正义，踏空了 AI

图片来源：视觉中国

5 月 11 日，软银集团发布截至 3 月 31 日的 2022 财年第四季度及全年财报。受科技股的拖累，软银连续第二财年亏损，旗下愿景基金 2022 财年巨亏逾 4.3 万亿日元（约合 320 亿美元），同比扩大 68.8%。

多年以来，软银创始人孙正义一直宣扬 AI 是改变人类使用技术的革命性力量，甚至将 AI 视为软银的未来，但他却完美避开了时下最火爆的 OpenAI。

不少人将孙正义踏空 AI 归因于其” 防御战略 “。在该战略的指引下，软银愿景基金 2022 财年投资支出总额只有 31 亿美元，其中第四财季（2023 年第一季度）仅投资了 4 亿美元。而相比之下，2021 财年软银巅峰时期的投资支出达到了 440 亿美元。

但在全世界都在追逐的 AI 浪潮中，孙正义并不想掉队。在公布年度业绩的前一天，软银宣布将开发日本版 ChatGPT，目前已经组织了大约 1000 人的团队。

美财长耶伦拒绝承诺美国将维持偿债义务

将在两周内向国会更新债务违约的 “X 日期 “

图片来源：视觉中国

据美联社报道，美国白宫和国会助手表示，美国总统拜登原定于当地时间 12 日与国会领导人就债务上限问题进行谈判，目前，该会谈已被推迟至下周。

当地时间 11 日，七国集团财长和央行行长会议在日本新潟召开。美国财政部长耶伦在会前再次警告说，美国如果发生债务违约将引发严重后果，将令美国和世界经济都遭受重创。

国际货币基金组织发言人科扎克在同日表示，该组织暂时无法具体量化美国债务违约对全球经济的影响，但由此造成的利率上升或将导致美国银行业进一步动荡。国际货币基金组织敦促美国各方紧急解决当前的债务上限问题，避免出现债务违约。

瑞士 ” 爆雷 ” 后，避险资金盯上这里

瑞信危机中，瑞士监管局将瑞信 160 亿瑞郎 AT1 债券全额减计后，原本作为全球财富管理中心的瑞士信誉大幅受损，从而驱动资金从瑞士撤出。

据路透社，从近日新加坡主要银行发布的 2023 财年首季度业绩报告来看，新加坡成为了这笔资金的重要承接地。新加坡星展银行 2023 年第一季度收入增长 34% 至 49.4 亿新元 ( 约合 37 亿美元 ) ，净利润同比增长 43% 至创纪录的 25.7 亿新元 ( 约合 19 亿美元 ) ，净息差上升 66 个基点。

财报披露，3 月星展银行的新资金流入几乎翻了一番，达到 36 亿新元，一季度新资金的净流入总额为 62 亿新元，相比之下，2022 年的平均月资金流入约 20 亿新元。业绩会上，星展银行 CEO 在回答有关银行危机和瑞信减计 AT1 债券的问题时表示，很难估计由瑞信引发的新资金流入量，过去一年该银行一直是新资金流入的受益者，资金流入来自北亚以及其他银行，包括美国出现困境的银行以及瑞信。

英国将向乌克兰军队提供 ” 风暴之影 ” 巡航导弹

图片来源：央视新闻

5 月 11 日，英国国防大臣华莱士向英国议会证实，英国正向乌克兰提供 ” 风暴之影 ” 巡航导弹 ，这将令乌克兰军队有能力打击位于战线后方的俄军部队、弹药库和燃料库。此外，华莱士称，英方提供的 ” 挑战者 -2″ 主战坦克已全部移交给乌克兰。

” 风暴之影 ” 导弹由欧洲导弹集团制造，该型导弹由战机发射，其射程超过 250 公里。

对于英国向乌克兰提供巡航导弹，俄罗斯总统新闻秘书佩斯科夫 11 日表示，俄罗斯持极其否定的态度，俄方将会采取必要的回应措施。

微软下注核聚变，与 Helion 签订购电协议

当地时间周三（5 月 10 日），核聚变初创公司 Helion 能源在官网宣布，科技巨头微软已同意从公司首座核聚变发电站购买电力。

作为电力购买协议的一部分，Helion 预计将在 2028 年之前将其聚变发电装置上线，并在商定的一年内达到 50 兆瓦或更高目标的发电量。当聚变装置完全能达到产生 50 兆瓦能量的速度时，它将能够为华盛顿州约 40000 户家庭供电。

据 CNBC，Helion 成立于 2013 年，总部位于华盛顿州埃弗雷特，拥有约 150 名员工。到目前为止，Helion 已经筹集了超过 5.7 亿美元的私人资本。值得注意的是，OpenAI 的创始人 Sam Altman 也是 Helion 早期和最重要的投资者之一，他向 Helion 投资了 3.75 亿美元，外媒称这是其 ” 有史以来 ” 最大的投资。Altman 认为，Helion 和 OpenAI 同样重要，并且都是人类未来的相关组成部分。

记者：李孟林蔡鼎谭玉涵

编辑：高涵谭玉涵

视觉：刘青彦

排版：谭玉涵

每日经济新闻

查看原文

深度评测：谷歌PaLM 2 VS GPT-4，谁是最强大模型？马斯克为何选中她，揭秘推特新CEO；瑞士暴雷后，资金疯狂涌入这里

作者UU

作者 UU

相关文章

智能眼镜不是一张榜单：Meta之外，中国玩家的四条路线

这届世界杯花钱最狠的人，不懂球 2026世界杯消费报告

2026亚马逊侵权预判机构大盘点：深圳合规知识产权服务商优点解析，挑选正规机构避坑指南全收录

猜你喜欢

智能眼镜不是一张榜单：Meta之外，中国玩家的四条路线

这届世界杯花钱最狠的人，不懂球 2026世界杯消费报告

2026亚马逊侵权预判机构大盘点：深圳合规知识产权服务商优点解析，挑选正规机构避坑指南全收录

2026适配亚马逊卖家的跨境电商上架防侵权服务商大盘点深圳合规标杆机构实力解析+签约避坑全指南