Databricks：有用的代碼集錦

2021-12-31 16:42:00

本文總結了在工作中用過的腳本

1，列出folder中的所有檔案

%python
display(dbutils.fs.ls("dbfs:/mnt/folder/"))

2，改變表的列

由于Azure Databricks不支援修改列，是以可以通過把資料表重命名，然後建立一個同名的表來實作列的改變

%sql

alter table capsbi.table_data
rename to capsbi.table_data_old;

create table capsbi.table_data
using delta
as 
select column_1, ...
from capsbi.table__data_old;

3，檢查表的schema

%python

sql_query="select * from CAPSBI.vw_table_data limit 1"
df = spark.sql(sql_query)
print(df.dtypes)

4，徹底删除表

有時表已經被删除了，但是無法建立同名的表，這可能是因為中繼資料沒有徹底删除，需要用到以下指令來徹底删除。

dbutils.fs.rm("dbfs:/user/hive/warehouse/db_name/table_name", True)

參考文檔：

作者

：悅光陰

出處

：http://www.cnblogs.com/ljhdo/

本文版權歸作者和部落格園所有，歡迎轉載，但未經作者同意，必須保留此段聲明，且在文章頁面醒目位置顯示原文連接配接，否則保留追究法律責任的權利。

Databricks：有用的代碼集錦

1，列出folder中的所有檔案

2，改變表的列

3，檢查表的schema

4，徹底删除表

繼續閱讀

Databricks 第6篇：Spark SQL 維護資料庫和表

Databricks 第9篇：Spark SQL 基礎（辨別符、資料類型、NULL語義）

Databricks 第8篇：把Azure Data Lake Storage Gen2 (ADLS Gen 2)挂載到DBFS

Azure App object和Service Principal

Azure Key Vault 簡介

Databricks 企業版 Spark&Delta Lake 引擎助力 Lakehouse 高效通路

「SaaS播客」nextS6E06. 對話Databricks聯合創始人Reynold Xin

Flink被阿裡收購4年，最開心的卻是Spark背後的Databricks

41 First Missing Positive

超級獨角獸 Databricks 的崛起之路

如何使用 Databricks 在 Azure 中建構資料湖庫

大模型讓資料庫行業先撕起來了，Databricks和Snowflake：開發者們你們現在必須選邊站了

估值380億！“AI巨獸”Databricks：是時候進入下一個時代了！

類ChatGPT開源平台MosaicML，以13億美元被Databricks收購！

縱觀今年DatabricksData+AI峰會，盡管宣傳的重心在AI上面，但實際釋出的AI産品并不多，“英文SDK”算是

Databricks推Delta Lake 3.0，開放表格式Iceberg依然最大赢家？