数据湖
数据湖
- 在湖里面存储的是标准的数据,就是当数据来了之后保持的原始的格式存储的
- 在必要的时候会通过ETL的方法,把数据导入到数据仓库的里面
- 数据湖要解决的问题就是:面临大量的数据要导入的时候怎么把原始数据快速接受下来
特点 | 数据仓库 | 数据湖 |
---|---|---|
数据 | 关系数据 | 各种数据(因为它是直接存储的原始数据:结构化半结构化等等都可以) |
schema模式 | 比较严格的模式,数据在读取的时候或者写入的时候做一个校验(schema-on-write或者read) | schema-on-read(只有在数据分析的时候,也就是从读走数据的时候校验数据的模式是否合法,因为它是直接存储的原始数据,存储的时候不校验) |
性能 | 本地存储的时候非常快 | 用低成本的存储把大量的数据存储进来,当搜索的时候可能比较慢 |
数据质量 | schema-on-write,过滤了不合规定的数据 | 因为所有数据直接接受,质量无保证 |
用户: | 数据科学家、数据开发者,对数据查询要求比较多,质量要求比较高 | 用大量数据,对错误的容纳程度高一些 |
分析领域 | 商业智能、可视化 | 机器学习、等哪怕数据有偏差不会影响最后大局 |
- 湖仓一体:不管是谁要来查数据,都到底层去抓数据,如果是关系型的就去关系型的找数据,非关系型的就到非关系型的去找就好了,不严格区分数据湖和数据仓库。