Google Cloud Storage 至 Trino 傳輸運算子

Google 有一項服務 Google Cloud Storage。此服務用於儲存來自各種應用程式的大量資料。

Trino 是一個開放原始碼、快速、分散式 SQL 查詢引擎,用於對從 GB 到 PB 的各種大小資料來源執行互動式分析查詢。Trino 允許查詢資料的原始位置,包括 Hive、Cassandra、關聯式資料庫,甚至是專有資料儲存區。單一 Trino 查詢可以整合來自多個來源的資料,以在您的整個組織中進行分析。

從 GCS 載入 CSV 到 Trino 表格

若要將 CSV 檔案從 Google Cloud Storage 載入到 Trino 表格,您可以使用 GCSToTrinoOperator

此運算子假設 CSV 沒有標頭,且資料對應於預先存在的 Presto 表格中的欄位。您可以選擇性地提供綱要作為字串的元組/列表,或作為與 CSV 檔案位於相同儲存桶中的 JSON 檔案路徑。

tests/system/trino/example_gcs_to_trino.py[原始碼]

gcs_csv_to_trino_table = GCSToTrinoOperator(
    task_id="gcs_csv_to_trino_table",
    source_bucket=BUCKET,
    source_object=PATH_TO_FILE,
    trino_table=TRINO_TABLE,
)

此條目是否有幫助?