大数据技术

数据湖是一个集中式安全存储库,可让您以任何规模存储,管理,发现和共享所有结构化和非结构化数据。数据湖不

分析:亚马逊如何通过数据湖解决大数据挑战?

来源:服务器租用 作者:主机租用 浏览量:68 更新:2020-02-24

杰夫·贝佐斯(Jeff Bezos)往车库里下订单并亲自开车去邮局时,处理成本数字,跟踪库存和预测未来需求相对简单。快进25年了,亚马逊的零售业务在全球拥有175 多个配送中心,超过25万名全职员工每天运送数百万件商品。

亚马逊全球财务运营团队的任务非常艰巨,即跟踪所有数据(以PB为单位)。 在亚马逊的规模上,错误计算的指标(例如单位成本或数据延迟)可能会产生巨大影响(请考虑数百万美元)。团队一直在寻找更快地获取更准确数据的方法。

这就是为什么他们在2019年有一个主意:建立一个可以支撑地球上最大的物流网络之一的数据湖。后来它在内部被称为Galaxy数据湖。Galaxy数据湖建于2019年,现在所有各个团队都在努力将数据移入其中。

数据湖是一个集中式安全存储库,可让您以任何规模存储,管理,发现和共享所有结构化和非结构化数据数据湖不需要预定义的架构,因此您可以处理原始数据,而不必知道将来可能要探索的洞察力。下图显示了数据湖的关键组件:

数据湖的关键组件

数据挑战

亚马逊面对大数据挑战与许多其他公司面临的挑战相似:数据孤岛,分析各种数据集的难度,数据控制器能力,数据安全性以及整合机器学习。让我们仔细研究这些挑战,看看数据如何帮助解决它们。

打破数据孤岛

公司选择创建数据湖的主要原因是要打破数据孤岛。在不同地方拥有由不同组控制的数据包,本质上会掩盖数据。当公司快速发展和/或收购新业务时,通常会发生这种情况。就亚马逊而言,两者都是。

为了在国际上扩张并迅速创建新的运输计划(例如,免费当日交付或Amazon Fresh),大多数运营计划团队一直在控制自己的数据和技术。结果,数据以不同的方式存储在不同的位置。这种方法使每个团队都能解决问题,响应客户需求并更快地进行创新。

但是,很难在组织和公司范围内理解数据。它需要从许多不同来源手动收集数据。如此众多的团队独立运作,我们失去了可以通过共同解决问题而获得的效率。

从数据中获取详细细节也是困难的,因为不是每个人都可以访问各种数据存储库。对于较小的查询,您可以在电子表格中共享一部分数据。但是,当数据超出电子表格的容量时,挑战就出现了,这通常发生在大型公司中。在某些情况下,您可以共享较高级别的数据摘要,站群服务器,但实际上并没有获得完整的图像。

数据湖通过将所有数据合并到一个中央位置来解决此问题。团队可以继续充当敏捷单位,但是所有道路都通向数据湖进行分析。没有更多的筒仓。

分析各种数据集

使用不同的系统和方法进行数据管理的另一个挑战是数据结构和信息各不相同。例如,Amazon Prime拥有配送中心和包装商品的数据,而Amazon Fresh则有杂货店和食品的数据。

甚至国际运输计划也有所不同。例如,不同的国家有时会有不同的盒子尺寸和形状。来自“物联网”设备(例如,配送中心机器上的传感器)的非结构化数据也越来越多。

而且,不同的系统可能也具有相同类型的信息,但是其标签不同。 例如,在欧洲,使用的术语是“每单位成本”,而在北美,使用的术语是“每包装成本”。这两个术语的日期格式不同。在这种情况下,需要在两个标签之间建立链接,以便分析数据的人知道它指的是同一件事。

如果要在没有数据湖的传统数据仓库中合并所有这些数据,则需要大量数据准备以及导出,转换和加载或ETL操作。您将不得不权衡要保留的内容和丢失的内容,并不断更改刚性系统的结构。

数据湖可让您以任何格式导入任何数量的数据,因为没有预定义的架构。您甚至可以实时摄取数据。您可以从多个来源收集数据,并将其以原始格式移入数据湖。您还可以在信息之间建立链接,这些信息可能被标记为不同但代表同一件事。

将所有数据移至数据湖还可以改善传统数据仓库的功能。您可以灵活地将高度结构化,经常访问的数据存储在数据仓库中,同时还可以在数据湖存储中保留多达EB的结构化,半结构化和非结构化数据。

管理数据访问

由于数据存储在这么多位置,因此很难访问所有数据并链接到外部工具进行分析亚马逊的运营财务数据分布在25多个数据库中,区域团队创建了自己的本地数据集版本。对于某些人来说,这意味着超过25个访问管理凭据。许多数据库都需要访问管理支持来执行诸如更改配置文件或重置密码之类的操作。此外,必须对每个数据库进行审核和控制,以确保没有人有不当访问权限。

部分文章来源与网络,若有侵权请联系站长删除!