Google Cloud Storage 至 Trino 傳輸運算子¶
Google 有一項服務 Google Cloud Storage。此服務用於儲存來自各種應用程式的大量資料。
Trino 是一個開放原始碼、快速、分散式 SQL 查詢引擎,用於對從 GB 到 PB 的各種大小資料來源執行互動式分析查詢。Trino 允許查詢資料的原始位置,包括 Hive、Cassandra、關聯式資料庫,甚至是專有資料儲存區。單一 Trino 查詢可以整合來自多個來源的資料,以在您的整個組織中進行分析。
從 GCS 載入 CSV 到 Trino 表格¶
若要將 CSV 檔案從 Google Cloud Storage 載入到 Trino 表格,您可以使用 GCSToTrinoOperator
。
此運算子假設 CSV 沒有標頭,且資料對應於預先存在的 Presto 表格中的欄位。您可以選擇性地提供綱要作為字串的元組/列表,或作為與 CSV 檔案位於相同儲存桶中的 JSON 檔案路徑。
gcs_csv_to_trino_table = GCSToTrinoOperator(
task_id="gcs_csv_to_trino_table",
source_bucket=BUCKET,
source_object=PATH_TO_FILE,
trino_table=TRINO_TABLE,
)