airflow.providers.google.cloud.transfers.bigquery_to_gcs

此模組包含 Google BigQuery 到 Google Cloud Storage 操作器。

模組內容

類別

BigQueryToGCSOperator

將 BigQuery 表格傳輸到 Google Cloud Storage 儲存桶。

class airflow.providers.google.cloud.transfers.bigquery_to_gcs.BigQueryToGCSOperator(*, source_project_dataset_table, destination_cloud_storage_uris, project_id=PROVIDE_PROJECT_ID, compression='NONE', export_format='CSV', field_delimiter=',', print_header=True, gcp_conn_id='google_cloud_default', labels=None, location=None, impersonation_chain=None, result_retry=DEFAULT_RETRY, result_timeout=None, job_id=None, force_rerun=False, reattach_states=None, deferrable=conf.getboolean('operators', 'default_deferrable', fallback=False), **kwargs)[原始碼]

基底類別: airflow.models.BaseOperator

將 BigQuery 表格傳輸到 Google Cloud Storage 儲存桶。

參閱

如需更多關於如何使用此操作器的資訊,請查看指南: 操作器

參閱

關於這些參數的更多詳細資訊: https://cloud.google.com/bigquery/docs/reference/v2/jobs

參數
  • source_project_dataset_table (str) – 點狀 (<project>.|<project>:)<dataset>.<table> BigQuery 表格,用作來源資料。如果未包含 <project>,專案將會是連線 json 中定義的專案。(已套用範本)

  • destination_cloud_storage_uris (list[str]) – 目的地 Google Cloud Storage URI (例如:gs://some-bucket/some-file.txt)。(已套用範本) 遵循此處定義的慣例:https://cloud.google.com/bigquery/exporting-data-from-bigquery#exportingmultiple

  • project_id (str) – 執行任務的 Google Cloud 專案

  • compression (str) – 要使用的壓縮類型。

  • export_format (str) – 要匯出的檔案格式。

  • field_delimiter (str) – 匯出為 CSV 時要使用的分隔符。

  • print_header (bool) – 是否為 CSV 檔案匯出列印標頭。

  • gcp_conn_id (str) – (選用)用於連線到 Google Cloud 的連線 ID。

  • labels (dict | None) – 包含任務/查詢標籤的字典,傳遞至 BigQuery

  • location (str | None) – 用於操作的位置。

  • impersonation_chain (str | collections.abc.Sequence[str] | None) – 選用的服務帳戶,用於使用短期憑證模擬身分,或是取得清單中最後一個帳戶的 access_token 所需的鏈結帳戶清單,該帳戶將在請求中被模擬身分。 如果設定為字串,則帳戶必須授予原始帳戶「服務帳戶權杖建立者」IAM 角色。 如果設定為序列,則清單中的身分必須授予緊接在前的身分「服務帳戶權杖建立者」IAM 角色,清單中的第一個帳戶將此角色授予原始帳戶(已套用範本)。

  • result_retry (google.api_core.retry.Retry) – 如何重試檢索列的 result 呼叫

  • result_timeout (float | None) – 在使用 result_retry 之前,等待 result 方法的秒數

  • job_id (str | None) – 任務的 ID。 除非 force_rerun 為 True,否則它將附加任務配置的雜湊值。 ID 必須僅包含字母 (a-z、A-Z)、數字 (0-9)、底線 (_) 或破折號 (-)。 最大長度為 1,024 個字元。 如果未提供,則將產生 uuid。

  • force_rerun (bool) – 如果為 True,則操作器將使用 uuid 的雜湊值作為任務 ID 後綴

  • reattach_states (set[str] | None) – 在應重新附加到任務的情況下,BigQuery 任務狀態的集合。 應為最終狀態以外的狀態。

  • deferrable (bool) – 在可延遲模式下執行操作器

template_fields: collections.abc.Sequence[str] = ('source_project_dataset_table', 'destination_cloud_storage_uris', 'export_format', 'labels',...[原始碼]
template_ext: collections.abc.Sequence[str] = ()[原始碼]
ui_color = '#e4e6f0'[原始碼]
execute(context)[原始碼]

在建立操作器時衍生。

Context 是與呈現 jinja 範本時使用的相同字典。

請參閱 get_template_context 以取得更多上下文。

execute_complete(context, event)[原始碼]

立即返回並依賴觸發器拋出成功事件。 觸發器的回呼。

依賴觸發器拋出例外,否則它會假定執行成功。

get_openlineage_facets_on_complete(task_instance)[原始碼]

實作 on_complete,因為我們將包含最終的 BQ 任務 ID。

此條目是否有幫助?