开云体育中国官方网站

开云体育官方网站营销自动化数据入手 - 多源数据 OLAP 架构演进

发布日期：2026-03-29 05:12 点击次数：101

开云体育官方网站营销自动化数据入手 - 多源数据 OLAP 架构演进

本文基于营销自动化数据入手场景，分析先容了Presto+大宽表决策、Bitmap决策、StarRocks决策的架构演进。

1分钟看图掌持中枢不雅点

一、业务配景从增量市集干预存量市集，纰漏型的运营依然无法为企业带来更多的市集份额和营收增长。这一近况也入手企业想考细腻化运营，通过细腻化运营挖掘出用户最大价值，从而擢升用户 LTV。细腻化运营落地的紧迫举措即是数据入手。通过门店数字化运营，不错已毕买通品牌与导购与消耗者的全程触点，千里淀、留存场景化交互数据，深度挖掘客户需求，为用户提供个性化做事。举例：线下的门店开业大略作念一些促销行动，通过短信、富媒体短信、企业微信、导购一又友圈等触点将行动信息传递给门店相近有需要的用 #架构 #每天一个学问点户，吸援用户到店。

二、基础架构vivo 通过智高东谈主机以及智高东谈主机售卖渠谈的运营，积贮了全渠谈，全场景的门店关联数据。标签数据：用户画像的关键点在于通过索要标签的格式将用户特征突显出来，现存存量用户数据量级 5亿+ 。事件数据：无为画像标签的产出需要数据团队清洗加工，算法介入，上架等一系列操作，坐蓐资本较大，且生动性和及时性王人有不及。事件数据基于其浩大的场景化发达智商，加工粗浅，上架速率快的脾气，成为标签以外的另一个紧迫数据开首。门店LBS数据：线下营销重心无为是吸援用户到店，体验门店产物，从而促成交游。而门店有其特有的组织架构，因此门店关联的LBS亦然紧迫的数据源之一，数据团队基于存量用户数据预测算门店LBS筹划数据蔓延至 90亿+ 。概述了标签、事件、门店 LBS 数据的受众筛选，成为细腻化营销的一浩劫点。

源流 MySQL 的性能不及以撑持亿级数据多表且或非逻辑及时计较，通过调研以及公司海量计较组团队的场所，咱们汲取了 OLAP（用于分析和查询大范围数据集的计较处理技巧）引擎 Presto，应用 Presto 的 SQL on Everything 脾气，已毕了无数据源概述的受众圈选。

图中为营销自动化平台数据入手举座架构，分为业务层、计较层、数仓层。数仓层：主要为Hive数据仓库，数据由大数据团队整合标签、门店、事件，以及用户自界说上传的东谈主群包数据。计较层：由OLAP引擎-Presto组成，扩充SQL、取得Hive数仓数据进行及时计较。业务层：提供东谈主群受众筛选、受世东谈主群固化、渠谈东谈主群下发逻辑业务处明智商；对外主要提供受众筛选-标签+事件+东谈主群的预估智商。基于这套架构的痛点：标签数据开首DMP系统，大数据团队需先上架DMP系统，再上架自有CMS系统中，时效T+2起步。标签宽表跟着标署名段增长，一个宽表300+字段，爱戴资本高。标签+门店LBS大表，查询性能分钟级别反馈，用户体验欠安。三、架构迭代为处罚以上问题点，通过与大数据、DMP 团队互助优化底层标签数据结构，米兰体彩汲取 Bitmap 数据结构打算标签优化底层数据源。

3.1 Bitmap决策3.1.1 打算与已毕数据结构打算如下：

基于用户维度预测算自增 id，动作 Bitmap 下标，将标签列值退换为行值，每行王人存储通盘效户压缩成 Bitmap 的数据。

由于引入 DMP 标签做事，需对现存 OLAP 引擎进行改造。底层数据源：由于 Presto SQL On Everything 的脾气，支柱多样存储在不同数据库中的数据，通过开荒 Presto Connector Plugin 取得 DMP 平台标签做事，大部分数据如故在 Hive 数仓表中。如：事件数据/门店数据等。 Presto 计较层：在 Presto 做事，主要开荒了 Presto Bitmap 关联的 UDF Plugin，Presto Connector 取得 DMP 平台标签，通过 Presto 源码改造已毕 Select In Bitmap 智商。进行上述改造后，计较层就不错通过斡旋的 SQL 已毕多样做事。

使用示例：

select count(user_id) from user_id_mapping where day='${day}'and user_rn in(select bitmap from dmp.virtual_table where rule='#标签划定')

通过造谣化 DMP 表，在 Presto 中贯通后查询 DMP 标签 Bitmap 用户数据复返下标数组与 id_mapping 表进行计较。

3.1.2 已毕恶果营销自动化中枢经由中移除了对大宽表依赖，新标签上架可由原本1.5东谈主天擢升到0.5东谈主天。

查询耗时由现时的分钟级别优化到秒级别（P90=38s），其中纯标签场景不错低至毫秒级别。

3.1.3 Presto + Bitmap的局限这次迭代处罚了查询性能和标签上架遵守问题，但跟着业务复杂度增多，现存架构面对新的技巧挑战：复杂查询性能瓶颈：面对多表关联（Join）和复杂团员的查询场景，特别是在门店LBS数据表的基础上进行多表Join时，性能与内存不绝面对压力。技巧窒碍业务安全： Presto无法写入加密Hive表，径直不容了数据安全合规的落地，开云成为一项待处罚的技巧债务。C 3.2 引入StarRocks决策为处罚上述局限，并为下一代及时数据分析业务场景作念好准备，咱们评估并引入 StarRocks，其存算一体架构、向量化扩充引擎，有望在及时期析场景带来冲突性擢升。

3.2.1 与Presto现存架构对比为体现切换 StarRocks 的升级价值，从高性能、高可用、高安全维度进行对比。

3.2.2 近况场景分析通过3.2.1的调研对比，彰着细则了 StarRocks 的上风，因此对现存业务系统场景分析，提前将 StarRocks 需要兼容的点改造完成。

3.2.3 落田意见将切换 StarRocks 需要改造的点王人准备完成后，咱们将降服“由简到繁、由读到写、分阶段鼓动”的原则，分为四个阶段改造业务系统，限度切换风险及平滑过渡：

经过以上迭代后架构如下：

计较和数仓层变为存算层：计较和数仓一体化，举座由 StarRocks 限度。

3.2.4 已毕恶果资源降本：原有Presto集群53台，现时StarRocks搭建的集群为3台，用度资本镌汰约 93% 。性能擢升：查询P95耗时从 65s 镌汰至 6s 。数据安全：底层无HDFS文献，现时可使用StarRocks函数对数据进行加解密，后期由海量计较组共事开荒自动加解密功能。3.2.5 切换后的问题问题一：营销短信任务下发场景中，仅部分数据下发（如总量下发一千万条，内容仅允许下发一百万条）分析考证：通过日记分析发现，当查询任务波及上千万数据时，内容仅复返一百万条驱散，超出数据丢失。关联查询SQL示举例下：select channel_id from table where crowd_id=100。由于该SQL在迁徙至StarRocks过程中未作念语法改造，初步判断为StarRocks驱散所致。查阅StarRocks官方文档，证据存在系统变量 sql_select_limit，用于驱散查询驱散的数据量。关联评释详见： StarRocks系统变量文档。为考证该判断，在测试集群平折柳将该参数诞生为100万、200万，并土产货环境进行考证，驱散合适预期：查询驱散数目受限于所设参数值。处罚决策：谐和集群运维共事，休养线上 StarRocks 集群的系统变量 sql_select_limit，撤消100万条驱散纠合果，并在重启集群后问题得以处罚。问题二：做事无为 Full GC，且 GC 耗时1s 以上，导致做事央求超时期析考证：超时央求在做事端的吸收期间至处理复返期间均在1s内，但客服端记载的央求期间早于做事吸收期间，且差值跳动1s，经与运维交流证据，扬弃集结问题。在斡旋可不雅测平台中稽查该做事应用监控，发现超常常间点存在Full GC表象，且GC耗时跳动1s，随后建立JVM参数生成GC日记便于进一步分析。使用Memory Analyzer Tool分析生成的堆转储文献，发现主如若大对象为RowDataStatic，该对象在取得数据库数据时是将通盘驱散集加载至内存中。由于此前已撤消100万数据查询驱散，当数据量达到老年代空间临界值时，触发Full GC。定为到查询明细数据的代码逻辑存在问题。Presto是流式查询，而StarRocks基于MySQL契约邻接，需建立相应参数才略启用流式查询机制。在土产货环境中，通过休养PreparedStatement的fetchSize参数进行对比测试，复现了线上做事GC暂停表象：当未启用流式查询时，GC暂停期间长达10s。处罚决策：通过改造代码中 MySQL JDBC 的建立参数，启用流式查询功能。四、结语本文主要先容了营销自动化数据入手-OLAP 架构演进史，领先为处罚业务诉求，撑持业务快速上线，基础架构汲取 Presto+大宽表决策。

跟着数据量及标签维度的激增，为擢升标签上架遵守开云体育官方网站，引入 Bitmap 决策已毕预团员计较，通过标签上架斡旋至 DMP，显赫镌汰反馈蔓延；在沸腾业务诉求的同期，针对数据安全场所进行潜入探索 OLAP 引擎智商，从 Presto 切换为 StarRocks 引擎，不仅在数据安全方面有保险，同期也擢升了查询性能以及完成机器资源的降本。

NBA下注app官网下载

上一篇：开云体育用公众号推文调换股价? 好意思诺华6天5个涨停，会重蹈双良的1300万罚金之路吗？

下一篇：开云小米MIUI期间赶走: HyperOS生态全面接棒

开云体育官方网站 营销自动化数据入手 - 多源数据 OLAP 架构演进

开云体育官方网站营销自动化数据入手 - 多源数据 OLAP 架构演进