ETL第二課

2023-08-05 20:57:00

資料清洗的背景、定義、原理、基本流程、政策和方法

海量資料的來源是廣泛的，資料類型也是多而繁雜的，是以資料中會夾雜着不完整、重複及錯誤的資料。

如果直接使用這些原始資料，會嚴重影響資料決策的準确性和效率。

資料清洗：可靠，準确的資料。錯誤的資料---》錯誤的決策

“資料品質”

“資料品質管理是對資料從計劃、擷取、存儲、共享、維護、應用、消亡生命周期的每個階段裡可能引發的資料品質問題，進行識别、度量、監控、預警等一系列管理活動，并通過改善和提高組織的管理水準使得資料品質獲得進一步提高。資料品質管理的終極目标是通過可靠的資料提升資料在使用中的價值，并最終為企業赢得經濟效益。”——以上内容摘自百度百科。

參考：https://blog.csdn.net/kuangfeng88588/article/details/99085074

資料源：MySQL、hadoop、Elasticsearch、redis、mongodb、HBase

mysql模式：

模式層是指資料庫的結構，就是關系結構，執行個體層是指關系中具體存儲的資料記錄或元組。

create table t_student
(
stu_id integer not null,
stu_name varchar(20) not null,
stu_sex bit default 1,
stu_birth datetime not null,
stu_tel char(11),
stu_addr varchar(255),
stu_photo longblob,
primary key (stuid)
);

mysql完整性限制：

　　為了防止不符合規範的資料進入資料庫，在使用者對資料進行插入、修改、删除等操作時，DBMS自動按照一定的限制條件對資料進行監測，使不符合規範的資料不能進入資料庫，以確定資料庫中存儲的資料正确、有效、相容。

　　限制條件與資料類型的寬度一樣，都是可選參數，主要分為以下幾種：

# NOT NULL ：非空限制，指定某列不能為空；

# UNIQUE : 唯一限制，指定某列或者幾列組合不能重複

# PRIMARY KEY ：主鍵，指定該列的值可以唯一地辨別該列記錄

# FOREIGN KEY ：外鍵，指定該行記錄從屬于主表中的一條記錄，主要用于參照完整性

# DEFAULT：為該字段設定預設值

# AUTO_INCREMENT：辨別該字段的值自動增長（整數類型，而且為主鍵）

ETL第二課

繼續閱讀

Windows下Cygwin環境的Hadoop安裝（3）- 運作hadoop中的wordcount執行個體遇到的問題和解決方法

MapReduce運作Wordcount時一直卡在INFO mapreduce.Job: Running job，web檢視一直處于accepted階段

ubuntu hadoop2.6.1，terminal下運作wordcount

MapReduce(一)：入門級程式wordcount及其分析

hadoop操作遇到的問題問題一：輸出檔案已存在

Hadoop之運作wordcount

jdk1.7+Eclipse+Maven3.5+Hadoop2.7.3建構hadoop項目

Eclipse運作WordCount（詳細版）相關連接配接Eclipse運作WordCount

hadoop 用MR實作join操作

Centos7 下 Hadoop 2.6.4 分布式叢集環境搭建摘要叢集準備安裝JDK 安裝 Hadoop 2.6.4 部署 slaver1-slaver4 啟動 hadoop 叢集成功了

尚矽谷—韓順平—圖解 Java設計模式（結構型）（55～）

MapReduce的幾個企業級經典面試案例MapReduce的幾個企業級經典面試案例

2021-2025年中國運動療法（KT）帶行業市場供需與戰略研究報告

ubuntu14.04下安裝hbse1.0.1.1

User Defined Hadoop DataType

Ambari介紹和架構原理