欢迎来到梦飞服务器

大数据资讯

数仓架构持续演进与发展:云原生、湖仓一体、离线实时一体、SaaS

谈到数据仓库,我们往往容易忽略“数据”两个字,阿里云有着很多业务场景和业务体系,在这些数据应用之下我们如何管理数据的呢?数据仓库是如何帮到我们以及它自身是如何演进的?

数据仓库概念从1990年提出,经过了四个主要阶段。从最初的数据库演进到数据仓库,到MPP架构,到大数据时代的数据仓库,再到今天的云原生的数据仓库。在不断的演进过程中,数据仓库面临着不同的挑战。

第一 启动成本高、建设周期长,价值难以快速验证

对于数仓的建设人员,面临的挑战是业务人员希望数仓建设周期能更短。而传统数据仓库往往要面临从采购服务器,建立物理仓库到逻辑仓库等一个较长的周期,所以数据仓库面临的第一个挑战就是怎样去降低建设周期。

第二 如何处理多样数据,拥抱新技术,充分挖掘数据价值

随着大数据的到来,传统数据仓库管理的大多是结构化数据。如何对半结构化的数据进行统一全面的管理就成为传统数据仓库面临的第二个挑战。

第三 难以共享企业数据资产、数据创新成本高

数据仓库更加强调管理和安全,在强调安全的情况下如何在组织里以及整个生态上下游中更好的共享和交换数据,成为了新的挑战。例如在企业的部门间或业务间依然存在为数不少的数据孤岛,数据共享成本高,缺乏企业级别的统一的数据获取出口,由此导致数据消费方获取数据困难,难于自助分析,严重依赖IT部门支持来满足企业更广泛的数据需求。

第四 平台架构复杂、运营成本高

随着数据处理种类的多样化和数据量的不断变大,不同的技术被叠加在一起从而使得数据仓库架构变得越发复杂。同一企业里往往会同时存在各种技术类型的数据仓库。所以如何简化数据仓库的架构也是面临的一个重要挑战。一般需要投入专业团队负责管理复杂的数据平台,同时对资源利用率不高的情况进行管理和治理。

第五 满足业务需要的扩展性、弹性、灵活性

业务快速发展的企业,经常会有大促活动,补数据,处理非常规事件的需求,如何快速扩展数仓性能,提高业务峰谷的响应时效,也带来很多挑战。

对于传统数据仓库面临的这些挑战,在技术和业务的驱动下新型数据仓库如何应对呢?这里可以看到六个主要的驱动力。

第一 我们希望有一个统一的数据平台,能去连接,去存储和处理多种数据。

第二 实时化,企业基于数据驱动能实时对业务作出支撑和决策的信息,这里有更高时效性的要求。

第三 数据量变得非常庞大,在海量数据中如何找到想要的数据,就需要有一张地图,要对数据进行管理和治理。

第四 传统数据仓库中,数据的存储采用集中的方式,一定要把数据集中在同一个存储中。而在新的业务驱动下,需要去连接数据而不是统一存储在一起。

第五 数据仓库之上如何支持更多智能化的应用,信息化的业务以及业务的信息化等关系。这就是数仓智能化和智能化数仓的需求驱动力。

第六 数据领域的不同角色对数据平台有着不同需求。例如数据工程师,数据分析人员,数据科学家等,他们对数据平台的响应时间,处理速度,数据量,开发语言等有着不同的需求。所以更多的做好分析服务,成为数据管理平台第六个驱动力。

据仓库在不断地演进过程中,从30年前的概念来看已经注入了更多新的内涵。对于新的内涵,我们可以从数据仓库的基础架构,directadmin授权,数据架构,数据分析以及服务模型四个角度来明显看到云原生,湖仓一体,离线实时一体化、服务模型的SAAS化的演进趋势。

云原生 — 数仓基础架构的演进方向

云原生是数仓基础架构的一个基本的演进方向。传统数据仓库是基于物理服务器或云上托管服务器的模式。而云原生的情况下可以更多去应用云的基础服务,包括存储服务,网络服务以及更多的监控服务。这就意味着在云上用原生服务可以获得云的自服务、弹性等能力,云数仓就可以更好的去集成更多的云上服务,包括如何把日志数据从各种数据源抽取到数据仓库中,也包括如何进行全链路的数据管理和机器学习等。所以云原生往往包含了如何构建和如何与云上服务原生的集成。

腾讯云代理

梦飞科技 - 最新促销活动优惠获取

Copyright © 2003-2021 MFISP.COM. 国外vps服务器租用 香港梦飞 版权所有 粤ICP备11019662号