資料清洗的背景、定義、原理、基本流程、政策和方法
海量資料的來源是廣泛的,資料類型也是多而繁雜的,是以資料中會夾雜着不完整、重複及錯誤的資料。
如果直接使用這些原始資料,會嚴重影響資料決策的準确性和效率。
資料清洗:可靠,準确的資料。錯誤的資料---》錯誤的決策
“資料品質”
“資料品質管理是對資料從計劃、擷取、存儲、共享、維護、應用、消亡生命周期的每個階段裡可能引發的資料品質問題,進行識别、度量、監控、預警等一系列管理活動,并通過改善和提高組織的管理水準使得資料品質獲得進一步提高。資料品質管理的終極目标是通過可靠的資料提升資料在使用中的價值,并最終為企業赢得經濟效益。”——以上内容摘自百度百科。
參考:https://blog.csdn.net/kuangfeng88588/article/details/99085074
資料源:MySQL、hadoop、Elasticsearch、redis、mongodb、HBase
mysql模式:
模式層是指資料庫的結構,就是關系結構,執行個體層是指關系中具體存儲的資料記錄或元組。
create table t_student
(
stu_id integer not null,
stu_name varchar(20) not null,
stu_sex bit default 1,
stu_birth datetime not null,
stu_tel char(11),
stu_addr varchar(255),
stu_photo longblob,
primary key (stuid)
);
mysql完整性限制:
為了防止不符合規範的資料進入資料庫,在使用者對資料進行插入、修改、删除等操作時,DBMS自動按照一定的限制條件對資料進行監測,使不符合規範的資料不能進入資料庫,以確定資料庫中存儲的資料正确、有效、相容。
限制條件與資料類型的寬度一樣,都是可選參數,主要分為以下幾種:
# NOT NULL :非空限制,指定某列不能為空;
# UNIQUE : 唯一限制,指定某列或者幾列組合不能重複
# PRIMARY KEY :主鍵,指定該列的值可以唯一地辨別該列記錄
# FOREIGN KEY :外鍵,指定該行記錄從屬于主表中的一條記錄,主要用于參照完整性
# DEFAULT:為該字段設定預設值
# AUTO_INCREMENT:辨別該字段的值自動增長(整數類型,而且為主鍵)