近日,由msup和微上信息技术研究院主办的第十二届TOP100全球软件案例研究峰会(简称:TOP100Summit)在北京举办,网易数帆为本次峰会送上了“AIGC与数据分析融合,打造数据消费新模式”的前沿分享,以及“中间件云原生-同城高可用平台建设”实践。
TOP100Summit是科技界一年一度的案例研究峰会,旨在发现有案例教学意义的项目或方法论,每年甄选有学习价值的100+技术创新/研发管理实践,分享年度最值得总结、盘点的实践启示,促进所有软件研发团队成长。
上述两个实践案例,展示了网易数帆在数智软件生产领域的完整布局,既能通过智能大模型的落地应用助推企业寻觅良机加速开疆拓土,也可通过技术架构的持续进化护航企业把握创新机会,并实现新老业务全面统一治理。
对话即有数,用“可信”ChatBI
“有数ChatBI的选择,是以场景优先,找可以落地的技术。一些看似很酷很有用(但偏离取数场景)的功能,我们一个都没做。”
——网易数帆有数BI产品研发负责人杨兵
作为技术领域顶流的大模型和AIGC,目前在企业场景仍然罕有完整而详细的落地案例。在此背景下,网易数帆有数BI产品研发负责人杨兵对于“AIGC+数据分析”的分享,不仅聚焦于企业级场景的核心价值,更注重解决定量分析场景下大模型如何“可信”的关键问题,为同行实践提供了可靠的参考价值。
网易研发有数ChatBI产品的动力源自于业务对自助取数分析类产品的强烈渴望。作为一家数字原生企业,网易业务具有大量的数据分析需求,而其中80%左右是一次性、临时、紧急且繁琐的灵活分析需求,这让专业支持团队难以及时响应。因此,早在2020年,网易数帆就开始探索采用自然语言取数来解决这一问题,只是因为当时的AI技术成本高而上限低,未能规模化推广。
大模型技术的爆发,带来了自然语言取数的新希望。然而杨兵指出了一个致命的挑战:
问
以当前的大模型技术,在可预见的未来最多只能做到90%的正确率,但是很多生产应用不能接受出错,怎么办?
答
答案是“可信”,即确保大模型出的错能被用户识别,用户不会被误导。具体的解决方案是“四可”:需求可理解、过程可验证、用户可干预,产品可运营。
通过超100万不同类型问法和SQL的训练,网易数帆自研的NL2SQL领域大模型不仅能够理解业务数据和技术元数据的关系,为每一次提问提供更精准的回答,还能够将生成的复杂SQL以自然语言“翻译”给普通用户,使得用户可以验证取数过程是否正确。剩下的10%的出错率,则通过可干预、可运营来解决,使得产品越用越聪明。
例如,有数ChatBI允许管理员配置正确的Q&A对,使之可以作为prompt的一部分输入给大模型,将Zero-shot调整Few-shot利用大模型的自我学习和进化能力,进一步提高回答的正确率。
有数ChatBI也允许管理员通过配置为大模型持续注入具体业务知识,如同义词、指定指标的计算方式、算子的指定操作(如DAU不能汇总计算,可以使用平均)等,大模型的优势是具备强大的In-Context Learning能力,以上方式都是充分利用大模型的这一能力。
在“AIGC+数据分析”日益火爆的今天,满足非专业人员取数分析需求仍是网易数帆的坚持。杨兵表示,有数ChatBI会把取数分析场景做到极致之后再考虑扩展其他功能。这意味着,有数ChatBI每一次版本迭代都要更贴合取数分析场景的需求。
例如,针对用户喜欢选择多张表,网易数帆研发了选表小模型和字段压缩算法,通过一步一步地缩小范围,解决了大模型token限制的问题;针对运营人员只关注某几个页面或者某批歌曲的数据情况,支持上传一批页面ID或者歌曲ID,来获取页面浏览人数或者听歌人数。
这些专注与坚持获得了用户的认可。以网易云音乐为例,
而在网易更多的非专业团队,有数ChatBI也已经是员工用数的不二神器,例如成为了HR团队开展员工管理和人才盘点、销售团队负责人及时跟踪商机和调整销售策略、财务部门实现高效数据审核校验的智能数据大管家,各部门数据需求的时效以及用数的满意度,都因此得到了大幅的提升。
杨兵相信,“对话即有数”这种数据消费新模式的诞生,将使得企业数据使用范围不再局限于少数的管理者,而是普及到企业中每一位参与运营的一线员工。由此,前沿技术才能真正转化成为企业独特的数智竞争力,这也是网易推行“人人用数据,时时用数据”的数据文化的深层意义。
云原生联邦架构,再造中间件高可用
“要做云原生的技术平台能力创新,除了要对云原生相关技术有深度、广度积累,还要在对传统技术平台充分理解上做深度结合。”
——网易数帆资深云原生架构师孟祥勇
随着数智化的不断深入,企业业务负载,包括各大数据系统,都已经逐步迁移到云原生底座之上。而对于业务的长时间稳定运行所依赖的中间件高可用,具备分布式一致性的数据复制仍然是首选。此次大会上,网易数帆资深云原生架构师孟祥勇分享了一种更简洁高效的中间件同城跨机房高可用方案——通过云原生领域集群联邦组件,将一个中间件集群实例部署在多个计算集群,从而实现机房级别的容灾。
目前,网易数帆已经借助云原生集群联邦能力实现中间件集群跨机房的高可用调度、生命周期管理(如滚动创建、更新),以及快速故障恢复与迁移。孟祥勇表示:
云原生集群联邦能力的引入,减少了中间件集群故障率、故障恢复时间以及跨集群运维复杂度,从而更好地避免了由于机房硬件故障后导致的业务不可用。
在联邦组件选型上,网易数帆云原生中间件联邦引入了开源的Karmada,并基于Karmada的架构模型设计了两层组合调度的架构。Karmada主要将原生的Kubernetes资源及自定义资源(CR)通过覆盖策略差异化同步到分发策略指定的计算集群,然后计算集群的中间件控制器会进行分布式逻辑调谐,Karmada则会将子状态聚合到管控层,再由联邦管控器进行资源渐进式调谐并达到最终声明状态。
这样设计的一个优势是可以定制丰富调度算法,以弥补原生调度器在中间件高可用场景下的不足;同时需要同步资源更少——只需要同步单集群CR,从而管理Karmada资源数量可以有限收敛。此外,这一架构对现有的稳定性管控、监控、日志系统侵入小。
跨集群调度的定制,网易数帆合理应用Karmada调度能力、Kubernetes原生调度能力、以及基于中间件高可用拓扑自研的跨集群调度器,实现了中间件跨集群拓扑调度,以及单集群故障自动恢复,并结合云原生流量治理、域名解析等能力,保障了云原生业务的稳定运行。
目前,网易数帆云原生中间件联邦架构方案已在银行、证劵、保险等金融行业落地,支撑的核心应用也越来越多。而此前,业界还没有完整的云原生中间件联邦产品,网易数帆的实践,为云原生前沿技术与行业场景的深度融合,带来了新的标杆。