Other articles


  1. 数据仓库快速入门教程5-ETL与ELT的差异

    什么是ETL?

    ETL是Extract,Transform和Load的缩写。 在此过程中,ETL工具从不同的RDBMS源系统中提取数据,然后转换数据,如应用计算,连接等,然后将数据加载到数据仓库系统中。

    在ETL中,数据是从源流向目标。 在ETL过程中,转换引擎负责数据更改。

    图片.png

    什么是ELT?

    ELT是用于查看数据移动。 ELT不在数据写入之前转换数据,而是让目标系统进行转换。 数据首先复制到目标,然后转换。

    ELT通常与无Sql数据库(如Hadoop集群,数据设备或云)一起使用。

    image

    ETL与ELT之间的区别

    参数 ETL ELT
    处理 数据在staging服务器上转换,然后传输到Datawarehouse DB。 数据保留在Datawarehouse的DB中。
    代码 计算密集型转换;少量数据 用于大量数据
    转型 转换在ETL服务器/staging区域中完成。 转换在目标系统中执行
    时间负载 数据首先加载到暂存中,然后加载到目标系统中。 时间密集。 数据仅一次加载到目标系统。 更快。
    时间转换 ETL过程需要等待转换完成 …
    read more
  2. 数据仓库快速入门教程4-ETL

    什么是ETL?

    ETL是Extract,Transform和Load的缩写。 在此过程中,ETL工具从不同的RDBMS源系统中提取数据,然后转换数据,如应用计算,连接等,然后将数据加载到数据仓库系统中。

    ETL流程需要来自各种利益相关方(包括开发人员,分析师,测试人员,高级管理人员)的积极参与.为了保持其作为决策者工具的价值,数据仓库系统需要随业务变化而变化。 ETL是数据仓库系统的重复活动(每日,每周,每月),需要灵活,自动化且有良好的文档。

    你为什么需要ETL?

    在组织中采用ETL的原因有很多:

    • 它可以帮助公司分析业务数据,从而做出关键业务决策。
    • 事务数据库无法回答ETL可以回答的复杂业务问题。
    • 数据仓库提供公共数据存储库
    • ETL提供了将数据从各种源移动到数据仓库的方法。
    • 随着数据源的变化,数据仓库将自动更新。
    • 精心设计和记录的ETL系统对于数据仓库项目的成功几乎是必不可少的。
    • 允许验证数据转换,聚合和计算规则。
    • ETL过程允许源和目标系统之间的样本数据比较。
    • ETL过程可以执行复杂的转换,并需要额外的区域来存储数据。
    • ETL有助于将数据迁移到数据仓库中。 转换为各种格式和类型。
    • ETL是用于访问和操作源数据到目标数据库的预定义过程。
    • ETL为业务提供深刻的历史背景。
    • 它有助于提高生产力。

    数据仓库中的ETL过程

    ETL分为3个步骤

    图片.png

    提取

    在此步骤中,将数据从源系统提取到暂存区域 …

    read more
  3. 数据仓库快速入门教程3架构

    数据仓库的特点

    数据仓库具有以下特征:

    • 面向主题
    • 集成
    • 时变
    • 非易失性

    面向主题

    数据仓库以主题为导向,因为它提供有关主题的信息,而不是公司正在进行的操作。 这些主题可以是销售,营销,分发等。

    数据仓库从不关注正在进行的操作。 相反,它强调建模和分析数据以供决策 。 它还通过排除无助于支持决策过程的数据,提供围绕特定主题的简单而简洁的视图。

    集成

    在数据仓库中,集成意味着为来自不同数据库的所有类似数据建立公共测量单位。 数据还需要以通用和普遍接受的方式存储在Datawarehouse中。

    数据仓库是通过集成来自各种来源的数据(如大型机,关系数据库,平面文件等)而开发的。此外,它必须保持一致的命名约定,格式和编码。

    集成有助于有效分析数据。 必须确保命名约定,属性度量,编码结构等的一致性。 请考虑以下示例:

    图片.png

    在上面的示例中,有三个不同的应用程序标记为A,B和C.存储在这些应用程序中的信息是Gender,Date和Balance。 但是,每个应用程序的数据都以不同的方式存储。

    • 在应用程序A中,性别字段存储逻辑值,如M或F.
    • 在应用B中,性别字段是数值 …
    read more
  4. 数据仓库快速入门教程2数据库与数据仓库的差异

    什么是数据库?

    数据库是相关数据的集合,代表现实世界的一些元素。 它旨在构建和填充特定任务的数据。 它也是数据解决方案的构建块。

    什么是数据仓库?

    数据仓库是一种信息系统,用于存储来自单个或多个来源的历史和可交换数据。 它旨在分析​​,报告,整合来自不同来源的交易数据。

    数据仓库简化了组织的分析和报告流程。 它也是组织决策和预测过程的单一版本。

    为什么要使用数据库?

    这里是使用数据库系统的主要原因:

    • 它提供数据及其访问的安全性
    • 数据库提供了各种存储和检索数据的技术。
    • 数据库充当有效的处理程序,以使用相同的数据平衡多个应用程序的需求
    • DBMS提供完整性约束以获得高级别的保护,以防止访问禁止的数据。
    • 数据库允许您以这样的方式访问并发数据,即一次只有一个用户可以访问相同的数据。

    为何使用数据仓库?

    这里是使用数据仓库的重要原因:

    • 数据仓库可帮助业务用户在一个位置访问来自某些来源的关键数据。
    • 它提供有关各种跨职能活动的一致信息
    • 帮助您集成许多数据源,以减轻生产系统的压力。
    • 数据仓库可帮助您减少分析和报告的TAT(总周转时间)。
    • 数据仓库可以帮助用户在一个地方访问来自不同来源的关键数据,从而节省用户从多个来源检索数据信息的时间。 您还可以轻松地从云访问数据。
    • 数据仓库允许您存储大量历史数据,以分析不同的时段和趋势,以便进行未来预测。
    • 增强运营业务应用程序和客户关系管理系统的价值
    • 将分析处理与事务数据库分开,从而提高两个系统的性能
    • 利益相关者和用户可能过高估计源系统中的数据质量。 数据仓库提供更准确的报告。

    数据库的特征

    • 提供安全性并消除冗余
    • 允许多个数据视图
    • 数据库系统遵循ACID合规性(原子性,一致性 …
    read more
  5. 数据仓库快速入门教程1简介

    数据仓库是从各种渠道收集和管理数据的技术,可提供有意义的业务洞察,战略性地使用数据。 它用于查询和分析而不是事务处理,是将数据转换为信息并及时向用户提供的过程。

    决策支持数据库(数据仓库)与组织的运营数据库分开维护。 但是数据仓库不是产品,而是环境。 它是属于信息系统,向用户传统运营数据存储难以访问或展示的当前和历史决策支持信息。

    数据仓库是BI系统的核心,BI是为数据分析和报告而构建的。

    你们很多人都知道,3NF设计的库存系统数据库很多都有相互关联的表。 例如,有关当前库存信息的报告可包含超过12个连接条件,查询慢。 数据仓库提供了一种新设计,可以缩短响应时间,提高报表和分析查询的性能。

    数据仓库系统的其他名称:

    • 决策支持系统(DSS Decision Support System)
    • 执行信息系统(Executive Information System)
    • 管理信息系统(Management Information System)
    • 商业智能解决方案(Management Information System)
    • 分析应用(Analytic Application)
    • 数据仓库(Data Warehouse)

    图片.png

    数据仓库的历史

    数据仓库使用户能够理解并提高其组织的绩效 …

    read more

links