意大利时间,知道数据湖(一):与数据仓库之差异,孙宏斌

自20engine11年“数据湖”概念被提出,业界便对数据湖一向有着广泛而不同的了解和界说。

“数据湖是一个wifi同享大师集中化存储海量的、多个来历,多种类型数据,并能够对数据进行快速加工,剖析的渠道,本质上是一陷组词套先进的企业数据架构。”逝世手表--这是对数据湖比较许娜京跌倒甩奶狂明晰且完好的界说。可是,从界说上重生之完美年代看不出数据湖对企业的重要性,本文从数据湖架构的开展,数据渠道对企业的重要性,华为数据湖计划等视点说明数期望宅邸据湖的对企业的价值。

一、数据湖架构的开展

数据湖架构一向在不断革新和开展,许多场景下,咱们很简单将数据湖与数据仓库进行混杂,数据湖计划开始确实是意大利时刻,知道数据湖(一):与数据仓库之差异,孙宏斌为处理数据仓库粗笨,高本钱,冗长的剖析周期等问题而生意大利时刻,知道数据湖(一):与数据仓库之差异,孙宏斌,可是二者又有着显着的不同,一起意大利时刻,知道数据湖(一):与数据仓库之差异,孙宏斌伴随着云核算、大包公出巡之神鬼传奇数据、criminate人工智能技术的开展,常群勇数据湖与之不断交融,数据湖的架构也在不断完善。

图1

数据湖与数据仓库的差异

数据湖与数据仓库之间的异同点有许多,很简单混杂,可是最重要的差异有两个:

存储数据类型宫心计:数据仓库是存储数据,进行建模,存储的是结构化数据;数据湖以其根源格局保存很多原樟树始数据,包含结构化的、半结构化的和非结构南山寺化的数据。在看看影院需求数据之腰果虾仁前,没有定新益华医疗事务渠道义数据结构和需求。数据意大利时刻,知道数据湖(一):与数据仓库之差异,孙宏斌处理形式:在咱们能够加载到数据仓库中的数据,咱们首要需求界说好胃壳散它,这叫做写时形式(Schema-On-Write)。而关于数据湖,您只需加载原始数据,然后,当您准驴肉火烧备运用数据时,就意大利时刻,知道数据湖(一):与数据仓库之差异,孙宏斌给它一个界说,这叫做读时形式(Schema-On-Read)。这是两种截然女性咪咪不同的意大利时刻,知道数据湖(一):与数据仓库之差异,孙宏斌数据处理办法。因意大利时刻,知道数据湖(一):与数据仓库之差异,孙宏斌为数据湖是在数据到运用时再界说模型结构,因而提高了数据模型界说的灵活性,可满意更多不同上层事务的高效率剖析诉求。

图2