Google Cloud Storage 至 Presto 傳輸運算子

Google 有一項服務 Google Cloud Storage。這項服務用於儲存來自各種應用程式的大型資料。

Presto 是一個開放原始碼分散式 SQL 查詢引擎,用於對各種大小的資料來源執行互動式分析查詢,範圍從 GB 到 PB。Presto 允許查詢資料在其所在位置的資料,包括 Hive、Cassandra、關聯式資料庫,甚至是專有資料儲存區。單一 Presto 查詢可以結合來自多個來源的資料,以便在整個組織中進行分析。

從 GCS 將 CSV 載入 Presto 表格

若要從 Google Cloud Storage 將 CSV 檔案載入 Presto 表格,您可以使用 GCSToPrestoOperator

此運算子假設 CSV 沒有標頭,且資料對應於預先存在的 Presto 表格中的欄位。您可以選擇性地將結構描述提供為字串的 tuple/list,或作為與 CSV 檔案位於相同 bucket 中的 JSON 檔案路徑。

tests/system/presto/example_gcs_to_presto.py[原始碼]

gcs_csv_to_presto_table = GCSToPrestoOperator(
    task_id="gcs_csv_to_presto_table",
    source_bucket=BUCKET,
    source_object=PATH_TO_FILE,
    presto_table=PRESTO_TABLE,
)

此條目是否有幫助?