巨杉湖仓一体技术解读|流式计算实现秒级数据入湖
SequoiaDB从「多模数据湖」、「实时数据湖」发展到「湖仓一体」架构,为客户提供「数据核心」所需的全量数据存储,实时对客服务,及基于统一数据源的分析能力,充分激活客户的离线数据。当中,数据入湖的时效性直接影响整体数据应用效果,巨杉数据库通过对接业界主流的Flink,Spark和Storm等主流的流式框架,实现实时生产数据的高速入湖,原汁原味的将数据保留在巨杉数据库中。SequoiaDB是巨杉数据库通过10年的不断迭代,从多模数据湖架构演进出来的“湖仓一体”架构产品。SequoiaDB的“湖仓一体”结合了数据湖与数据仓库,是一个融合的基础设施环境,支持从原始数据到精炼数据的整个过程,并最终提供优化后的数据以供消费。
秒级数据入湖
从客户的结构化数据需求出发,巨杉众多的金融客户着眼于盘活海量的历史存量数据,并同时卸载发生在传统Oracle/DB2上的业务。因此,巨杉依托自研的SequoiaDB分布式数据库,形成了历史数据平台的方案。从业务的角度出发,SequoiaDB通过高性能的连接器,对接包括Flink,Spark和Storm等主流的流式框架,实现实时生产数据的高速入湖,原汁原味的将数据保留在巨杉数据库中。这里起到的作用有点像数仓模型中的ODS层,但巨杉又利用其分布式数据库高并发访问的能力,可以直接对外提供实时数据访问服务。
鉴于SequoiaDB多副本高可用的特性,很多用户实际上把巨杉数据库作为全系统数据的全量最终存储。在部署实践里,前端操作型数据库产生的数据变更在通过ogg/CDC等工具抽取后,通过批量的方式load到巨杉数据库中;或是加载到以kafka为代表的各类消息队列,再通过流式引擎写入巨杉数据库中。流式和批量数据汇总加工整合即可对外提供服务,根据业务需要,实时入湖的数据从业务实际发生到在巨杉中提供访问服务时延在秒级。
上图有两个核心技术点需要关注。一是数据入库链路,从架构中可以很清晰的看到通过流和批两条数据链路,这是当前比较成熟的一个典型的Lambda架构。为了尽可能的高效接收来自不同数据源的数据,SequoiaDB开发了Spark connector和Flink connector等多种通用数据格式的解析器,打通实现了高可靠的数据链路,支持增删改各类操作,并在客户场景中解决exactly once数据入库问题。
其次是随着巨杉数据库在业务系统的深入,很多用户发现把数据从取出,做ETL,加载到DW层再做完各类统计分析汇总时,会存在以下问题:
1.时延较高,无法满足实时分析的需求
2.搬迁复制数据成本高,数据要在不同条件下保存多份,还要开发大量的工具
3.传统数仓模型不能很好的适应业务变更,需要的专业技能门槛也很高
所以部分客户开始跟巨杉一起探讨直接在海量数据湖上做数据转换和分析的可能,也就形成了现在巨杉数据库的“湖仓一体”架构。
流式数据加工
针对客户提出的流式数据加工处理,以及未来越来越多的实时分析场景,SequoiaDB在结合Spark Streaming和对接Flink后,提供简单易用的数据加载工具和列存的数据加载功能。SequoiaDB还开发了行存数据到列存数据的自动化转换工具,客户只需要基于需求简单配置需要转换分析的表,就可以实现实时增量数据同步转换,极大的方便简化数据加工师和分析师的工作。总的来说,客户可以在一个SequoiaDB平台实现低延时的数据入库,高并发的即时数据查询,几乎透明的行列数据转换,以及高性能的数据加工分析能力。
结语
SequoiaDB通过对接业界主流的流式框架,实现了多源数据的快速入湖。未来,巨杉数据库将继续不断创新,打造更加安全、稳定、可靠的数据库系统,持续助力金融行业客户信息化创新,释放全量数据价值。
声明:本网转发此文章,旨在为读者提供更多信息资讯,所涉内容不构成投资、消费建议。文章事实如有疑问,请与有关方核实,文章观点非本网观点,仅供读者参考。
精彩阅读
-
科普海洋 文化先行 【蔚蓝中国】深圳大学海洋文化科普活动圆满举行...
2023年9月1日-11月30日,深圳市南山区科学技术协会主办的【蔚... -
中国恒大发布澄清公告:机构指公司从未盈利的报告并无实际依据...
:12月4日早间,中国恒大集团发布澄清公告指出,公司注意到一家机构发表了一篇关于... -
优质楼宇推介月|上报传悦坊...
新机遇·新未来 “优质楼宇推介月”专题推介活动 上报传悦坊 上报传悦坊是由... -
2023年度中国直播电商行业合规工作座谈会在京召开...
2023年11月28日,在中国商业联合会的指导下,中国商业联合会直播电商工作委员... -
南航近期将新开、复航和加密多条国际及地区航线...
为进一步丰富旅客出行选择,中国南方航空公司(以下简称“南航”)宣布,将于今年12... -
首届链博会数字科技专题论坛:以数字化赋能供应链现代化...
以数字化赋能供应链现代化 “全球产业体系和产业链供应链呈现多元化布局、区域... -
日元涨或跌,韩国人怎么做到“两头通吃”?...
Park是众多韩国散户投资者中的一员,他们押注日元的跌势必须结束。根据韩国央行的... -
河南省直机关“红旗渠杯”书画展在郑州开幕...
11月30日,由河南省委直属机关工委联合省委办公厅、省委宣传部、省直书协、省文联... -
融合智能、协同、全程数字化能力泛微全新低代码平台e-builder在...
低代码作为一种降低开发成本、提高开发效率的工具,其在行业的全面应用,不仅能满足各... -
论文查重系统的原理是什么,万方检测在线解读...
对于高校大学生、学术工作者以及科研工作者来说,查重一定不陌生。论文是衡量学生学习... -
华联康生物:多元化经营模式,撬动私护市场可持续发展...
中研网的数据显示,2022年中国女性私护品市场消费达到617亿,跃升为世界第三大... -
官宣!瑞士国宝级抗衰品牌NIANCE妮瑞斯进军中国...
2023年11月27日,杭州NIANCE妮瑞斯的足迹已遍布全球30多个国家和地区... -
德定安航空在上海设立新工厂法国驻沪总领事:相信法国企业能为中国市场提...
“德定安的业务增长规模足以证明,像德定安航空这样的法国公司能够为中国的市场提供高... -
中国科学院博士团队领衔研发的干眼症药物研发有了新进展...
(央视记者白爱军)由中国科学院博士团队领衔研发的治疗干眼症等眼部用药系列配方,历... -
福达数科建立上海运营中心,提升香料服务效率和市场影响力...
2023年11月28日上午8:18分,广西福达数字科技有限公司正式在上海建立运营...