周三. 9 月 17th, 2025

2023 年,超级大模型 GPT3、GPT4 热浪席卷全球,它的出现,为数字化建设领域带来了一次 ” 重生 ” 的契机。当 ” 类人思考 ” 出现后,哪些可以被 ” 加速 “、被 ” 绕过 “、被 ” 替代 ” 呢?本文作者围绕数据场景下的 GPT 应用,做了详细的拆解,一起来看一下吧。

1995 年,尼古拉斯 · 尼葛洛庞帝宣布 ” 数字化时代已经到来 “,随之而来的是,数字化成为各行业大力投入建设的基础设施。其中,以互联网为代表的天生具有数字化属性的行业,一直是引领技术创新的风向标,这就包括应用人工智能技术(AI)——超级工具为各行各业提高生产效率和效能。数据与 AI 之间,是互为促进,相辅相成,有机融合的关系。

当时间来到 2023 年,超级大模型 GPT3、GPT4 热浪席卷全球(Generative Pre-Trained Transformer,即生成式预训练 Transfomer 模型,是一种基于互联网的、可用数据来训练的、文本生成的深度学习模型,可以在海量通用数据上进行预先训练,能大幅提升 AI 的泛化性、通用性、实用性)。

它的出现,为数字化建设领域,带来了一次 ” 重生 ” 的契机,作为从业者的我们尝试应用 GPT4 等 AGI 能力,为企业内部的数字化建设做一次 ” 刷新 “,当 ” 类人思考 ” 出现后,哪些可以被 ” 加速 “、被 ” 绕过 “、被 ” 替代 “。截止目前,已有 GPT 的 49 种应用,其中两项是跟数据场景有关。下面,我们将围绕数据场景下的 GPT 应用,做更细粒度的拆解。

一、数据的生命周期

1. 用数据时,遇到的问题

业务高速发展带动数据需求高涨,这与数据部门的应接能力之间存在博弈,这是摆在非天生数字化属性的行业的一道难题。理想中,业务需要的数据都有,都能找到,可以支持各种维度的解析和创新。而现实是,能用的数据有限(A),很多已经建设出来的数据,大家不认识,不敢用(B),多个雷同数据存在使得校对该用哪一个耗时耗力。很多沉睡数据,已经过时,占用着存储空间(D),使得数据存储成本连年上涨。缺失重要数据,需要排期开发(C)。

2. 数据生命周期

数据产生于业务各环节中,部分在 online 的业务系统中,另一部分散落在 offline(比如,工厂),要将散落在各处的数据做好采集(人工录入、扫码、RFID),确保必要数据进入业务数据库中。之后,针对想做分析的数据,可以放入大数据平台的数仓中,通过数据集成工具,将结构化、非结构化多源异构数据汇聚到 ODS 层。根据数据建模方法,数据开发工程师做 DWD 和 DWS 层的加工建设,供业务的数据分析师使用(ADS 层),做报表、配看板、提数等。

为进一步提高数据消费效率,通过复用数据 API 的模式打通最后一公里,降低各系统分别对接的成本。针对一次性,或者长期不用的冷僵数据,做归档和删除处理,腾出宝贵的存储空间和计算资源。这套大数据平台,涉及平台管理能力,以及资产管理模块。而数据治理则横跨业务系统到数据平台的全生命周期中。

3. 人、货(数据)、场

大数据环境下的人货场,跟电商场景中的人货场有两点相似,其一,都需要一个存储货物的地方—— ” 仓库 “。大数据环境下叫数据仓库。其二,都需要传输,大数据环境下叫 ” 加工 “。与实体的货物相比,数据具有两个特殊的属性,使得,它的存储和运输,要比电商场景更为复杂。这两个属性是,” 权限等级 “、” 体积变化 “。

数据有等级之分,高敏感的数据,需要做更严格的权限管控,以确保消费安全。体积变化,是指经过一系列的加工(删除 delete、drop、修改 alter、增加 insert、创建 create 等),数据的整体体积会发生变化(变大 or 变小)。这使得存储 or 加工计算都需要具备弹性的能力,能包容、承托住数据的这些变化。

货物的流通 VS 数据的流通,使得我们还要考虑继承的问题,跨系统的继承、权限继承、表 / 字段血缘继承。这些因素,使得虚拟场景下的 ” 人、数、场 ” 比实体中的 ” 人、货、场 ” 更为复杂。

基于上章节提及的数据生命周期,我们拆解了每个环节中,人是谁,在做什么事儿,继而数据会发生怎样的变化(体积变大变小,定义更迭)。为了更为清晰的展示这些环节中人的角色,我们将他们逐一做了定义,共 9 个角色,1 数据生产方、2 数据拥有者(将数据采集到业务数据库中)、3 数据消费方(想用数据作分析,接入数仓)、4 数据开发工程师、5 数据分析师、6 终端的小白用户。过程中,在数仓范围内,有 7 资产管理者,有 8 大数据平台的开发者和管理员。在整个数据生命周期范围内,有 9 数据治理专家。每个角色,都有其要执行的动作,均简要绘制在图上,具体不再赘述。

数据方面,图中标注了离线和实时两种数仓结构,具体的数仓介绍,网络上各种专家分享,内容翔实且精彩,不再赘述。

二、GPT 介入后数据生命周期发生的变化

【前提】GPT 打通大数据平台的数仓(即要添加企业专有知识 ,才能提升准确度,让 GPT 在企业内部用起来,提醒,这些信息数据的交换要在安全允许的范围内进行),以获取准确的元数据信息,这样在用户输入自然语言时,GPT 能懂,并返回符合企业数据结构特征的结果。其次,GPT 还具有 coding 的能力,所以当它跟企业内部各个系统打通后,还可以扩展能力,代替人,执行某些既定操作。下面,我们以大数据环境中,6 个常见环节,GPT 是如何辅助人类的逐一做拆解。

1. 数据集成(聚)

GPT 协助提效 ETL:

Extract-Transform-Load:抽取(extract)转换(transform)加载(load)

目前的 ETL 工具较成熟(如:Kettle、Datastage、Informatica),数据开发人员可以通过输入和点击关键信息,自动生成调度任务,对于没有 ETL 工具的公司不需要使用 GPT

2. 数据开发 & 建模(养)

1)GPT 代写 SQL 做数据建模和开发

【前提】将表的元数据信息导给 ElasticSearch,结合 GPT 与 ElasticSearch 服务,提高 SQL 生成结果的准确性。

2)GPT 代为配置数据质量监控告警

【前提】GPT 跟数据质量模块、调度模块、email、飞书等系统打通。

第一步: 输入文字,让 GPT 找到目标表(支持一次访问多张表);

第二步:页面呈现目标表(表头、部分数据),确认准确;

第三步:输入文字,针对这些表,计算,比过往 12 个月自身波动绝对值最大值还高的指标,高亮标识出来,并给出字段名称;

第四步:输入文字,针对这些指标,做日常监控,计算超过比例,针对波动率大于等于 5% 的指标(基于经验,大于历史 1 年波动绝对值最大值超过 5% 的,判定为数据异常),email 通知该表开发负责人、下游任务创建者、消费方,某些指标可能出现异常,请关注;

【结论】GPT 介入后,可以不做前端质量规则配置平台,并节约配置质量规则的人力投入。

3. 资产管理(治)

GPT 代做冷僵数据归档和删除:

【前提】GPT 跟调度模块、资产管理模块、email、飞书等系统打通。

第一步:输入文字,找到半年以上冷僵数据(未有动销,读、写、查询过的表);

第二步:输入文字,确认这些表,是否有配置跑批任务;

第三步:输入文字,让 GPT 给这些表的创建者发送 email 邮件 or 飞书提醒,一周后,将自动删除这些冷僵数据,若需要保留,请尽快跟资产治理管理员取得联系(此为举例,实际工作中,细节落实时,会更复杂些);

第四步:输入文字,让 GPT 执行删除冷僵数据的操作;

【结论】GPT 介入后,可以不做前端冷僵数据归档和删除平台,可以节约配置冷僵数据定时删除规则的人力投入。

4. 平台管理(管)

GPT 代建权限申请流程:

【前提】GPT 跟低代码流程中心、大数据权限管理模块打通。

第一步:当人们通过输入文字,问 GPT,寻找某张表时,看过元数据信息,确保是目标表,此时,若用户没有权限,可以请 GPT 帮忙做权限申请;

第二步:GPT 根据该表的敏感等级,及审批要求。向申请人的直属老板、表的开发负责人、业务负责人、安全管理员逐层发起申请,过程中,某个环节可随时增加审批节点;

第三步:审批结束后,是通过还是驳回,GPT 都会通过飞书 oremail,or 站内,GPT 与人的交互端口,即时向申请者反馈信息;

【结论】GPT 介入后,可以不做繁杂的定制化的权限审批流程,可以由安全与业务同学达成一致后,给 GPT 输入自然语言,形成审批流,以此节约研发人力投入。

5. 数据分析(用)

GPT 代做 ” 自助提数 “:

【前提】1、与权限(行列权限和加解密),安全审计能力打通。2、打通元数据,确保 GPT 生成 SQL 时,对表、字段的描述跟数仓保持一致,可以直接使用。

第一步:输入文字,找目标表(支持一次访问多张表)。” 例如我想查询 A 表,在 P 条件下的 x、y、z 字段,可以直接输出 SQL 语句。当然,经过预训练,或者在数据源仅有一张表的情况下,描述话语甚至可以更加简略。在训练输入了多张表结构后,也可以支持关联分析。”

第二步:尝试在原有 SQL 的基础上修改一些条件 ” 保留 23 年第一季度的结果 “。第三步:尝试增删改查表或者对表中数据进行更新 ” 帮我把价格表中的用户单价上调 10%”。第四步:尝试,将 SQL 翻译为自然语言,以助于帮助了解 SQL。备注:以上是以 EverSQL 产品举例。

虽然 GPT 能快速撰写高质量的 SQL,但是对于不能接受任何误差的数据场景,准确理解业务需求,并关联到所需的表和字段,需要一定的预训练以提高准确度。快速训练 GPT 提升特定场景匹配能力,会成为分析师核心竞争力之一。

【结论】GPT 介入后,可以不做自助提数的前端平台,特别是拖拉拽的平台,直接用 SQL 取数能力即可,可以降低写 SQL 的门槛,可以节约用 SQL 配置模版的人力投入。针对复用场景,直接将 “prompt” 保存下来,只要有权限访问,即可复用。

6. BI 看板(用)

GPT 生成 ” 图表 “:

【前提】GTP 跟图表生成工具打通。

第一步:同 2.1 第一步

第二步:同 2.1 第二步

第三步:输入文字,告知要哪些行、哪些列,生成柱状、饼状、折线图等

【结论】GPT 介入后,快速支撑业务的临时性看板需求(自助),可以节约数据分析师配置看板人力投入(只做长期高频 BI 看板,针对临时性的业务需求,特别是紧急的,无需排队等待,业务小白可以让 GPT 制作)。

7. 业务应用(用)

GPT 支持搜索

元数据查询

数据查找

找图、找表

【结论】GPT 介入后,后续甚至是语音输入,即可,无需码字,在移动端调取数据会更加方便,很适合销售门店等 offline 无 PC 电脑的场景。

基于以上建设,大数据场景下向数字孪生方向的发展加快了步伐。美国国防部、微软在工业化等数字孪生场景中(模型建设、场景设计),均引入生成式 AI。智能问答、语音交互获取数据将会实现。

受作者领域认知深度所限,及技术无时无刻不在更新迭代,业界对 GPT、AutoGPT、AGI、即时 AI ……的衍生应用必定是珠零锦粲。无法在一篇中尽现全貌,未来可能会彻底推翻当下的种种尝试而不得知。能为大家带去一点点新的启发,以深感欣慰。文中难免有纰漏或不准确的地方,欢迎大家批评指正。撰写中参考网络上各位同仁的最新观点,拿来主义为打招呼,还望见谅。若有任何建议或意见,欢迎联系作者探讨。

关键词:Chat GPT、生成式 AI、AIGC、LLM、AGI、SQL、大数据、数据开发、数据建模、自主取数。

参考资料:

https://baike.baidu.com/item/GPT/62908731?fromModule=lemma_search-box

https://baijiahao.baidu.com/s?id=1761984800865030846&wfr=spider&for=pc

作者:shucay,佳琪,童,alan,伯敖

本文由 @shucay 授权发布于人人都是产品经理,未经许可,禁止转载。

题图来自 Unsplash,基于 CC0 协议

Avatar photo

作者 UU 13723417500

友情提示:现在网络诈骗很多,做跨境电商小心被骗。此号发布内容皆为转载自其它媒体或企业宣传文章,相关信息仅为传递更多信息之目的,不代表本网观点,亦不代表本网站赞同其观点或证实其内容的真实性。---无意冒犯,如有侵权请联系13723417500删除!

声明本文由该作者发布,如有侵权请联系删除。内容不代表本平台立场!

发表回复

服务平台
跨境人脉通
选品平台
U选Market
展会&沙龙
群通天下