hive内部表和外部表的区别_Hive外部表 | 每日五分钟学大数据

2023-08-06 12:55:51

别的先不说，开门见山说说内部表的特点：

Hive 创建内部表时，会将数据移动到数据仓库指向的路径；
Hive 创建外部表，仅记录数据所在的路径，不对数据的位置做任何改变；
在删除表的时候，内部表的元数据和数据会被一起删除，而外部表只删除元数据，不删除数据。这样外部表相对来说更加安全些，数据组织也更加灵活，方便共享源数据。

传统数据库对表数据验证是schema on write(写时模式)，而 Hive 在load时是不检查数据是否符合schema的，hive 遵循的是schema on read(读时模式)，只有在读的时候hive才检查、解析具体的数据字段、schema；所以在这样的设计下，Hive支持创建外部表也变得理所应当，我们来看下如何创建一个外部表。

CREATE EXTERNAL TABLE table_name(id STRING,  name STRING)  ROW FORMAT DELIMITEDLOCATION '/data/my_data.txt';

关键字EXTENAL告诉Hive这个表是外部的，而后面的LOCATION...子句则用于告诉Hive数据位于哪个路径下。

然而，我们需要清楚的重要的一点是管理表和外部表之间的差异要比刚开始所看到的小得多。即使对于管理表，用户也是可以知道数据是位于哪个路径下的，因此用户也是可以使用其他工具(例如hadoop的hdfs dfs命令等)来修改甚至删除管理表所在的路径目录下的数据的。

可能从严格意义上来说，Hive是管理着这些目录和文件，但是其并非具有对它们的完全控制权限。Hive实际上对于所存储的文件的完整性以及数据内容是否和表模式相一致并没有支配能力，甚至管理表都没有给用户提供这些管理能力。

尽管如此，好的软件设计的一般原则是表达意图。如果数据会被多个工具共享，那么可以创建一个外部表，来明确对数据的所有权。

用户可以在DESCRIBE EXTENDED tablename 语句的输出中查看到表是否是管理表或外部表。在末尾的详细表信息输出中，对于管理表，用户可以看到如下信息：

... tableType:MANAGED_TABLE)

对于外部表，用户可以查看到如下信息：

... tableType:EXTERNAL_TABLE)

对于管理表，用户还可以对一张存在的表进行表结构复制(而不会复制数据)：

CREATE EXTERNAL TABLE IF NOT EXISTS ods.ods_table_nameLIKE mydb.employeesLOCATION '/path/to/data';

这里，如果语句中省略掉EXTERNAL关键字而且源表是外部表的话，那么生成的新表也将是外部表。如果语句中省略掉EXTERNAL关键字而且源表是内部表的话，那么生成的新表也将是内部表。

但是，如果语句中包含有EXTERNAL关键字而且源表是内部表的话，那么生成的新表将是外部表。即使在这种场景下，LOCATION子句同样是可选的。

参考资料：

1.《Hive编程指南》

2. Hive官方wiki：

https://cwiki.apache.org/confluence/display/HIVE

>> 想学大数据？点击找老蒙！<< 智能人工推荐：选方向？大数据的职位你了解多少戏说数据中台 — 大佬玩概念，小弟写接口 >> 点击查看更多觉得有价值请关注 ▼

hive内部表和外部表的区别_Hive外部表 | 每日五分钟学大数据

hive内部表和外部表的区别_Hive外部表 | 每日五分钟学大数据

继续阅读

《Hive编程指南》一导读

第5周堆表优点缺点小结

hive建表的标准格式及其建表属性详解1

Hive中的表操作Hive中的表操作

根据JSON创建对应的HIVE表

hive分桶表

Hive的表的创建（转载）

Hive创建索引

hive的创建表语句

hive内部表和外部表的区别_走近大数据之Hive进阶（四、Hive的表连接）

hive创建表异常解决

hive 分区_Hive分区表和桶表的使用

hive内部表和外部表的区别_Hive 拉链表实践

hive 创建表_2min快速了解，Hive内部表和外部表

[一起学Hive]之三–Hive中的数据库(Database)和表(Table)二、Hive的数据库和表

hive内部表和外部表的区别_Spark SQL - Hive表