案例分享 | 泽拓昆仑Klustron助力星图数据精准决策

北京星图数网科技有限公司,是一家消费领域专业的大数据产品、服务和解决方案提供商。依靠尖端的大数据分析和云计算技术,对海量网购数据进行高效的监控采集和挖掘分析,积累了 50 多家主流电商平台,超2.4亿商品的相关数据,并结合行业需求研发出多款大数据应用产品,一站式解决企业生产、经营、营销及管理等多种问题,助力品牌精准决策。其秉承了“数据让生意更好”的理念,致力于以数据的科学决策推动产业互联网化的转型升级。

Description

01 业务挑战驱动数据库系统升级

1.1 业务痛点

随着企业的高速发展,星图数据面临着海量数据存储与计算、高性能查询以及业务弹性灵活扩容等调整。为了应对这些调整,其构建了以 HDFS、MongoDB、MySQL、SQL Server、ES 等多产品组合方案。但随着一段时间发展,企业也发现上述方案存在维护复杂、性能不足、研发效率低下等问题。企业急需一种更加简洁、轻量化、高性能、易维护的数据处理与计算平台。经多轮测试最终选择了 Klustron 数据库作为其数据库核心载体。

Description

上述是星图原有架构简图,从图中可见,这是数据分析类场景。前端手机的数据汇聚到大数据平台后,通过T+1批量处理加工后,形成模型层(事实+维度)、汇聚层(宽表)、展示层等。由于业务要求,还有数据订正需求,即需要支持高频更新。根据数据结构特征、业务访问特点、计算方式与能力等,星图采用了不同数据技术栈来构建,混合使用了MongoDB、MySQL、ES、SQL Server等。随着企业数据规模及算力的增长,这一架构面临了几个问题:

  • 海量数据存储
    随着爬取数据的增大,所需存储数据量巨大,原有架构中单体式数据库在扩展性上存在很大局限。

  • 实时性要求高
    随着规模增大,对数据计算的算力要求也随着提高,原有架构的处理时长不断增大,已开始影响业务的正常开展。

  • 并发规模增大
    随着提供服务的受众及数据分析师的增加,对高并发访问的要求也随之而来,原有架构已难以提供更高并发规模支持能力。

  • 运维管理复杂
    随着管理的数据库种类增多,对运维管理提出了很高的要求,在人员规模相对有限情况下,很难做好支持服务。

  • 开发效率低下
    各种数据库平台有着各自独有的访问方言、使用约束等,对于业务研发及数据分析人员也提出了更高的要求。

1.2 选型要求

针对上述痛点,星图很早就前瞻性启动了技术预研,希望打造新一代的数据支撑平台。在规划设计之初,就提出了几个要求。

  • 稳定性、一致性
    作为数据库“底线”功能,目标方案应能满足最基本的对数据一致性、系统稳定性的要求,满足星图业务平稳运行。

  • 灵活性、扩展性
    为应对未来可能得数据规模的增长、算力需求的增加,目标方案应能提供良好的扩展能力,可根据需要进行算力与存储灵活扩展,满足未来对增长性的要求。

  • 多模存储与计算
    因需要支持 JSON 等半结构化类型数据存储,目标方案应能提供对结构化、半结构化数据的存储与计算能力,并预留可能数据类型扩展能力。

  • 高并发与高性能
    为满足未来对更高并发和性能的要求,目标方案还需提供高并发支持及对海量数据的复杂分析条件下的性能需求,同时可根据未来需求进行扩展。

  • 友好的生态交互
    目标系统应提供友好的交互形式,包括但不限于标准SQL支持、主流数据库开发、分析、管理工具的支持等,降低研发和运维人员的开发、使用、管理成本。

  • 简化架构、统一技术栈
    为解决原有架构的管理复杂问题,目标方案应提供统一、整体产品来实现,提供良好的架构扩展性和标准化能力。

02 为什么选择泽拓昆仑Klustron?

星图在多轮技术预研及POC后,选择了深圳泽拓科技提供的 Klustron 分布式数据库为最终的解决方案。选择 Klustron 的理由主要有:

  • 分布式架构
    Klustron 作为一款分布式数据库产品,其天生分布式架构能够高效地处理海量数据,很好地满足了星图对数据存储的需求。同时针对业务要求的高并发处理能力,Klustron 的分布式设计可以通过水平扩展来提升系统的并发处理能力,从而保证在高负载情况下的稳定性和响应速度。

  • HTAP 能力
    星图业务特点,既带有一定事务性数据处理,还需要对数据进行实时分析。Klustron 支持的 HTAP 能力,正好能应对这一需求。它在标准OLTP场景的基础上,通过其独创的节点并行处理技术能大幅提升查询分析能力。

  • 弹性灵活扩展
    作为典型的存算分离架构,Klustron 支持对计算、存储资源进行独立扩展。可根据业务发展要求,有针对性的进行快速扩缩容。在扩缩容过程中,无需担心服务中断或性能下降等问题。

  • 兼容性与生态友好
    Klustron 提供了非常友好的兼容能力,其支持 MySQL、PostgreSQL 这两款最为主流开源数据库的协议和语法,这意味着大量原有开发的的软件资产可以无缝迁移过来,降低了迁移成本和改造复杂性。同时,也对上下游数据生态工具提供了非常好的支持。

  • 多模存储与计算
    Klustron 支持 JSON 类型数据存储与计算,可非常方便地将原有 MongoDB 的数据迁移上来。此外,Klustron 还支持如 GIS、向量等多种扩展数据类型。为星图未来可能得数据存储需求,提供了很好的保障。其具备的插件化扩展能力,更可以灵活扩展计算方式,为星图构建统一的、可扩展的基础数据平台打下基础。

03 投产及收益

经过多轮技术讨论与验证,星图最终选择 Klstron 作为最终方案。当前其整体架构如下图,通过 Klstron 替换了原有的 MongoDB、MySQL和部分 SQL Server。根据后续推进计划,将对 Klustron 的分词检索和压缩能力做进一步测试验证后,将之后取代 ES 和归档 SQL Server,最终形成星图的新一代数据支撑底座。

Description

根据星图的业务要求和推进计划,目前 Klustron 已经上线两套集群,十余个节点的规模,总数据库规模超过20TB。未来将结合业务发展及产品良好的扩展能力,上线更多或对现有集群进行扩展。经过近三个月的稳定运行,Klustron 很好地支持了星图业务,部分场景性能提升超百倍。同时 Klustron 具备的分布式架构、多副本机制增加了数据可靠性、减低故障风险。在整体迁移过程中,凭借其良好的协议语法兼容,研发侧无缝地迁移现有业务,无需做较大改动。

随着 Klustron 数据库在星图的陆续上线,有效地解决了之前面临的业务痛点,让研发可将更多精力投入业务创新、运维可以简化管理提升人效、相信未来随着更大规模的使用 Klustron 数据必将能在星图发挥更大作用,助力企业快速发展。

04 未来展望

星图的实践表明,Klustron 作为一款分布式数据库,不仅能够满足现代企业对数据库系统的高标准要求,而且在处理海量数据、高并发、HTAP、多模异构等方面展现出了显著的优势。随着技术的不断进步和产品的迭代更新,我们有理由相信,Klustron 将继续在分布式数据库领域发挥重要作用,助力更多企业实现数字化转型。