Skip to main content

数据湖

数据湖

  • 在湖里面存储的是标准的数据,就是当数据来了之后保持的原始的格式存储的
  • 在必要的时候会通过ETL的方法,把数据导入到数据仓库的里面
  • 数据湖要解决的问题就是:面临大量的数据要导入的时候怎么把原始数据快速接受下来
特点数据仓库数据湖
数据关系数据各种数据(因为它是直接存储的原始数据:结构化半结构化等等都可以)
schema模式比较严格的模式,数据在读取的时候或者写入的时候做一个校验(schema-on-write或者read)schema-on-read(只有在数据分析的时候,也就是从读走数据的时候校验数据的模式是否合法,因为它是直接存储的原始数据,存储的时候不校验)
性能本地存储的时候非常快用低成本的存储把大量的数据存储进来,当搜索的时候可能比较慢
数据质量schema-on-write,过滤了不合规定的数据因为所有数据直接接受,质量无保证
用户:数据科学家、数据开发者,对数据查询要求比较多,质量要求比较高用大量数据,对错误的容纳程度高一些
分析领域商业智能、可视化机器学习、等哪怕数据有偏差不会影响最后大局
  • 湖仓一体:不管是谁要来查数据,都到底层去抓数据,如果是关系型的就去关系型的找数据,非关系型的就到非关系型的去找就好了,不严格区分数据湖和数据仓库。