AI 多模态浪潮来了！ChatGPT 迎重磅升级算力需求喷发可期存量房贷利率今日下调！利率究竟如何调、月供能少还多少？有人一年下来利息支出可节省2万多！白羽肉鸡双节行情”失效“ 价格逼近年内低点多家头部品牌8月电商渠道销售下滑体育用品港股齐挫李宁创近三年新低北京链家拟下调中介费率由买卖双方共同承担金融部门组织金融机构集中开展“五进入”活动：下沉重心、贴近消费者鲜花电商“花加”宣布停业整顿：正遭受前所未有的压力，银行账户已经被封36氪彭孝秋：你好，专精特新美国最成功的家族企业之一，科勒如何穿越150年周期？发生了什么？西证国际证券8个交易日股价几乎腰斩不变！人民汇率中间价较前一交易日持平弘景光电引客户德赛西威入股，入股前后产品毛利率相差15.66个百分点中科创星启动25亿元基金，一份硬科技投资时代的答卷中国光大银行北京分行奋力谱写金融助力绿色生态高质量发展新篇章10年期美债收益率续创16年高位长债ETF已接近从峰值“腰斩”！俄罗斯悄然放宽燃油出口禁令高利率继续挤压原油需求

《科创板日报》（编辑郑远方） 当地时间 25 日，OpenAI 宣布 ChatGPT 迎来重磅更新：这个聊天机器人如今 ” 会看、会说、会听 ” ——换言之，ChatGPT 加入了语音与图像功能。未来两周内，Plus 用户与企业用户便能体验新功能，开发人员等其他用户群体也有望在不久的将来体验。

其中，最受外界关注的是 ChatGPT 的图像理解能力。据介绍，用户可以向 ChatGPT 展示一张或多张图片，排查为何烧烤炉无法启动，检查冰箱里的菜能做什么美食，或分析复杂图表得出数据。若想让 ChatGPT 关注图片中的特定部分，还可以使用 APP 中的绘图工具高亮标注。

在 OpenAI 给出的示例视频中可以看到，当用户向 ChatGPT 发送一张自行车照片、询问如何调低车垫时，ChatGPT 不仅会自发观察自行车型号、辨认零部件、给出详细步骤，还会看说明书，并分辨用户现有工具能否完成这项工作。

值得注意的是，同日发布的一篇论文中，OpenAI 将这一能看图的模型称作 GPT-4V ( ision ) 。该模型在 2022 年已完成训练，之后在 2023 年早些时候开始早期测试访问。

借助 GPT-4V，今年 3 月 OpenAI 与 Be My Eyes 组织合作开发 Be My AI，可为盲人与视力障碍人士描述外界世界。测试表明，Be My AI 可为 50 万盲人和视力障碍用户提供工具，满足他们在信息、文化和就业方面的需求。

另外，OpenAI 还测试了 GPT-4V 的验证码破解及地理定位能力，前者表明模型具备解决谜题与执行复杂视觉推理任务的能力，后者则展现出了模型在搜索物品 / 地点的用处。但这两项功能将涉及网络安全及隐私问题。

至于本次更新的另一语音识别与生成功能，OpenAI 表示，用户可以用这一功能为孩子讲述睡前故事，还可以在吵架时作为帮手。

OpenAI 与专业配音演员合作，提供了 5 种不同的声音。另外，公司还与 Spotify 展开合作，通过这一功能将播客翻译为其他语言，同时保留播客主持人的声音。

值得一提的是，数据显示，近期 ChatGPT 流量回升。SimilarWeb 数据显示，9 月 11 日那一周，ChatGPT 流量较前一周增长约 12%。另一家分析公司 Sensor Tower 报告称，8 月最后两周全球 ChatGPT 应用程序用户每周增长超过 10%。据悉，流量增长的主要原因为学生开始返校，且印度及巴西市场迎来增长。

▌多模态大模型成兵家必争之地算力需求显著攀升

如今，多模态功能已成为各家 AI 大模型的必争之地。Meta 最近推出 AudioCraft，通过 AI 生成音乐；谷歌 Bard 及必应机器人均已部署多模式功能；苹果也在试验 AI 生成语音 Personal Voice。

随着 AI 感知、交互与生成能力快速发展，应用场景与生态也有望进一步丰富。而语音与图像数据大小显著高于文本，券商指出，多模态大模型的训练推理算力需求将大幅攀升。

例如被谷歌寄予厚望的多模态大模型 Gemini，据 SemiAnalysi 分析师 Dylan Patel 和 Daniel Nishball 透露，其已开始在 TPUv5 Pod 上进行训练，算力高达 ~1e26 FLOPS，是训练 GPT-4 所需算力的 5 倍。

华为副董事长、轮值董事长、CFO 孟晚舟日前也表示，” 人工智能的发展，算力是核心驱动力。大模型需要大算力，算力大小决定着 AI 迭代与创新的速度，也影响着经济发展的速度。算力的稀缺和昂贵，已经成为制约 AI 发展的核心因素。”

国信证券指出，AI 三元素（大模型、算力、应用）呈螺旋式促进关系。AI 三元素以 ” 模型更新 – 算力芯片迭代、单位 tokens 成本降低 – 应用增加 ” 循环往复，当三者中有一个要素喷发，就是强刺激期；三者同时没有更新，就会进入停滞期，等待下次爆发。

多模态大模型是未来发展趋势。通过将不同数据类型相互关联结合，可以大幅提高模型准确性和鲁棒性，应用场景进一步拓展。

同时，3 月谷歌发布多模态具身视觉语言模型（VLM）PaLM-E，其可用于机器人领域；7 月谷歌发布新一代视觉 – 语言 – 动作（VLA）模型 Robotics Transformer 2（RT-2），专用于机器人领域，看好大模型赋能机器人趋势，分析师看好大模型赋能机器人。

作者UU 13723417500 241 人

作者 UU 13723417500

相关文章

广州站西手表一件代发，部分有价格表。有网站供国外客户浏览，发货前都有检测视频！

#卖家精灵插件上线了【批量下载图片】功能，可以帮忙推广下哦~

发表回复取消回复

猜你喜欢

2026年亚马逊链接申诉交付时效深度解析：从响应速度到结果落地的服务商选型指南

2026年TRO和解代理公司深度测评：从案件响应到结果落地的选型指南

新手报道！对亚马逊跨境电商不了解？海外站点怎么选？