airflow.providers.trino.transfers.gcs_to_trino

這個模組包含 Google Cloud Storage 到 Trino 的運算子。

模組內容

類別

GCSToTrinoOperator

將 csv 檔案從 Google Cloud Storage 載入到 Trino 表格中。

class airflow.providers.trino.transfers.gcs_to_trino.GCSToTrinoOperator(*, source_bucket, source_object, trino_table, trino_conn_id='trino_default', gcp_conn_id='google_cloud_default', schema_fields=None, schema_object=None, impersonation_chain=None, **kwargs)[原始碼]

基底類別: airflow.models.BaseOperator

將 csv 檔案從 Google Cloud Storage 載入到 Trino 表格中。

假設: 1. CSV 檔案不應包含標頭 2. 具備所需欄位的 Trino 表格已建立 3. (可選)可以提供包含標頭的獨立 JSON 檔案

參數
  • source_bucket (str) – 包含 csv 檔案的來源 GCS 儲存桶

  • source_object (str) – csv 檔案,包含路徑

  • trino_table (str) – 要上傳資料的 trino 表格

  • trino_conn_id (str) – 目的地 trino 連線

  • gcp_conn_id (str) – (可選) 用於連線到 Google Cloud 並與 Google Cloud Storage 服務互動的連線 ID。

  • schema_fields (collections.abc.Iterable[str] | None) – 表格中要填入的欄位名稱。如果提供了 schema_fields,則 schema object 中提供的任何路徑將會被

  • schema_object (str | None) – 包含 schema 欄位的 JSON 檔案

  • impersonation_chain (str | collections.abc.Sequence[str] | None) – 可選的服務帳戶,用於模擬使用短期憑證,或是取得清單中最後一個帳戶的 access_token 所需的鏈結帳戶清單,這將在請求中被模擬。如果設定為字串,則該帳戶必須授予原始帳戶「服務帳戶權杖建立者」IAM 角色。如果設定為序列,則清單中的身分必須將「服務帳戶權杖建立者」IAM 角色授予緊接在前的身分,清單中的第一個帳戶將此角色授予原始帳戶。

template_fields: collections.abc.Sequence[str] = ('source_bucket', 'source_object', 'trino_table')[原始碼]
execute(context)[原始碼]

在建立運算子時衍生。

Context 是與呈現 jinja 模板時使用的字典相同。

請參閱 get_template_context 以取得更多上下文。

這個條目有幫助嗎?