天天看点

数据仓库技术(Data Warehouse Technologien) 第一章节 总览(2)

10. 在企业经济学/企业管理学中的应用

  • 提供信息
  1. 数据与信息作为决策的基础(比如:Kennzahlen 可作参数,特性数值,代码);
  2. 对未来的经营业绩以及业务流程的影响;
  3. 使用者:经理,部门领导,专业人员;
  4. 提供信息的形式:
    1. )查询方法 - 自定义查询以及报告(独立的解决策略);
    2. )报告:预定义报告的访问(固定的解决方案);
    3. )编辑整理个性化信息;
    4. )特定域的数据视图;
    5. )预计算参数/特征值(比如,通过数据挖掘算法)。
  • 分析
  1. 对数据进行详细(细节)分析以用于对偏差或者异常的研究(/审查)
  2. 场景技术(What-If-分析)
  3. 使用者:专家(比如:审计方面的,销售方面的)
  • 计划
  1. 通过探索性,发掘性的数据分析来支持计划;
  2. 单个计划的聚合;
  3. 预测方法(比如:季节性统计模型);
  • 市场活动管理
  1. 支持策略性市场活动;
  2. 客户分析,投资和风险分析;

11. 在科学和技术中的应用

  • 科学应用
  1. 科学统计数据库 → 数据仓库的技术根源;
  2. 比如:地球观测系统项目(气候和环境研究)
    1. 每天差不多1.9TB的气候学数据;
    2. 调整准备与分析(统计,数据挖掘);
  • 技术应用
  1. 开放领域:带环境或者地理数据的数据仓库(比如:水分析);

12. 使用示例

  • 沃尔玛(www.wal-mart.com)
  • 美国零售商的市场领导者
  • 企业级数据仓库:
  1. 大小:大概300 TB(2003),480 TB(2004),如今:估计12 PB;
  2. 每日差不多25.000 数据仓库查询(DW - Anfragen);
  3. 较高细化度(商品销售额,库存,用户行为的日常评定);
  4. 购物篮分析,客户分类...的基础;

13. 提出的问题和任务(示例)

  • 审查商品种类用于识别滞销品或者畅销品;
  • 位置分析用以评估分店盈利;
  • 研究和预测市场行为;
  • 对用户调查,某些产品的退货...等的评定;
  • 库存分析;
  • 借助收款台对购物篮分析(经济金融交易);

14. 查询示例

A州和B州 的 啤酒与红酒 的产品在 2009和2010年 的 销售额 是多少?

15. 结果(立方体)

数据仓库技术(Data Warehouse Technologien) 第一章节 总览(2)

数据仓库立方体(特征值含义:2009年在A州啤酒的销售额)

16. 结果(二维立方体表达)

销售额 啤酒 红酒 总和
2009 A 45 32 77
B 52 21 73
总和 97 53 150
2010 A 60 37 97
B 58 20 78
总和 118 57 17

17. 数据仓库方面

  • 集成
  1. 统一来自不同,且大部分异构的来源的数据;
  2. 克服不同层次的异构性(系统,模式,数据);
  • 分析
  1. 以一个用户希望的格式提供数据(参照决策领域);
  2. 要求预选,时间相关,聚合;

18. 短事务(OLTP)

Kunde(客户)
ID Name Firstname PLZ Ort Straße
4711 Saake Gunter 01234 Anywhere Am Berg 3
42 Sattler K. 12234 Here Zufahrt 18
0800 Köppen Veit 60701 Dort Weg 9A
SELECT Firstname, name
FROM Kunde
WHERE id = 0800
           

 结果:

Veit Köppen

19. 长事务(OLAP)

SELECT DISTINCT ROW Zeit.Dimension AS Jahr,
                    Produkt.Dimension AS Artikel,
                    AVG(Fact.Umsatz) AS Umsatzdurchschnitt,
                    Ort.Dimension AS Verkaufsgebiet

FROM (Produktgruppe INNER JOIN Produkt ON Produktgruppe.
      [Gruppen-Nr] = Produkt.[Gruppen-ID]) INNER JOIN
      ((((Produkt INNER JOIN [Fact.Umsatz] ON Produkt.[Artikel-Nr]
      = [Fact.Umsatz].[Artikel-Nr]) INNER JOIN Order ON
      [Fact.Umsatz].[Bestell-Nr]= Order.[Order-ID]) INNER JOIN
      Zeit.Dimension ON Orders.[Order-ID] =
      Zeit.Dimension.[Order-ID]) INNER JOIN Ort.Dimension ON
      Order.[Order-ID] = Ort.Dimension.[Order-ID]) ON
      Produktgruppe.[Gruppen-Nr] = Produkt.[Gruppen-ID]

GROUP BY Produkt.Dimension.Gruppenname, Ort.Dimension.Bundesland,
      Zeit.Dimension.Jahr;
           

20. 与OLTP的区别

  • 传统的操作型信息系统 → 在线事务处理(OLTP)
  1. 搜集和管理数据;
  2. 每个部门负责自己相关的处理部分;
  3. 事务处理:对少量数据记录的读、写访问;
  • 数据仓库 → 在线分析处理(OLAP)
  1. 重点在于分析;
  2. 对大量数据记录的长时间读事务;
  3. 集成,合并和聚合数据。

继续阅读