airflow.providers.google.cloud.hooks.dataproc_metastore

此模組包含 Google Cloud Dataproc Metastore Hook。

模組內容

類別

DataprocMetastoreHook

Google Cloud Dataproc Metastore API 的 Hook。

class airflow.providers.google.cloud.hooks.dataproc_metastore.DataprocMetastoreHook(gcp_conn_id='google_cloud_default', impersonation_chain=None, **kwargs)[原始碼]

基底類別: airflow.providers.google.common.hooks.base_google.GoogleBaseHook

Google Cloud Dataproc Metastore API 的 Hook。

get_dataproc_metastore_client()[原始碼]

傳回 DataprocMetastoreClient。

get_dataproc_metastore_client_v1beta()[原始碼]

傳回 DataprocMetastoreClient (來自 v1 beta)。

wait_for_operation(timeout, operation)[原始碼]

等待長時間運行的操作完成。

create_backup(project_id, region, service_id, backup, backup_id, request_id=None, retry=DEFAULT, timeout=None, metadata=())[原始碼]

在給定的專案和位置建立新的備份。

參數
  • project_id (str) – 必要。服務所屬的 Google Cloud 專案 ID。

  • region (str) – 必要。服務所屬的 Google Cloud 區域 ID。

  • service_id (str) –

    必要。Metastore 服務的 ID,用作 metastore 服務名稱的最後一個元件。此值長度必須介於 2 到 63 個字元之間(含首尾),開頭為字母,結尾為字母或數字,且由英數字元 ASCII 字元或連字號組成。

    這對應於 request 執行個體上的 service_id 欄位;如果提供 request,則不應設定此欄位。

  • backup (dict[Any, Any] | google.cloud.metastore_v1.types.Backup) –

    必要。要建立的備份。name 欄位會被忽略。建立的備份 ID 必須在請求的 backup_id 欄位中提供。

    這對應於 request 執行個體上的 backup 欄位;如果提供 request,則不應設定此欄位。

  • backup_id (str) –

    必要。備份的 ID,用作備份名稱的最後一個元件。此值長度必須介於 1 到 64 個字元之間,開頭為字母,結尾為字母或數字,且由英數字元 ASCII 字元或連字號組成。

    這對應於 request 執行個體上的 backup_id 欄位;如果提供 request,則不應設定此欄位。

  • request_id (str | None) – 選擇性。用於識別請求的唯一 ID。

  • retry (google.api_core.retry.Retry | google.api_core.gapic_v1.method._MethodDefault) – 指定應重試哪些錯誤(如果有的話)。

  • timeout (float | None) – 此請求的逾時時間。

  • metadata (collections.abc.Sequence[tuple[str, str]]) – 應與請求一起以中繼資料形式傳送的字串。

create_metadata_import(project_id, region, service_id, metadata_import, metadata_import_id, request_id=None, retry=DEFAULT, timeout=None, metadata=())[原始碼]

在給定的專案和位置建立新的 MetadataImport。

參數
  • project_id (str) – 必要。服務所屬的 Google Cloud 專案 ID。

  • region (str) – 必要。服務所屬的 Google Cloud 區域 ID。

  • service_id (str) –

    必要。Metastore 服務的 ID,用作 metastore 服務名稱的最後一個元件。此值長度必須介於 2 到 63 個字元之間(含首尾),開頭為字母,結尾為字母或數字,且由英數字元 ASCII 字元或連字號組成。

    這對應於 request 執行個體上的 service_id 欄位;如果提供 request,則不應設定此欄位。

  • metadata_import (dict | google.cloud.metastore_v1.types.MetadataImport) –

    必要。要建立的中繼資料匯入。name 欄位會被忽略。建立的中繼資料匯入 ID 必須在請求的 metadata_import_id 欄位中提供。

    這對應於 request 執行個體上的 metadata_import 欄位;如果提供 request,則不應設定此欄位。

  • metadata_import_id (str) –

    必要。中繼資料匯入的 ID,用作中繼資料匯入名稱的最後一個元件。此值長度必須介於 1 到 64 個字元之間,開頭為字母,結尾為字母或數字,且由英數字元 ASCII 字元或連字號組成。

    這對應於 request 執行個體上的 metadata_import_id 欄位;如果提供 request,則不應設定此欄位。

  • request_id (str | None) – 選擇性。用於識別請求的唯一 ID。

  • retry (google.api_core.retry.Retry | google.api_core.gapic_v1.method._MethodDefault) – 指定應重試哪些錯誤(如果有的話)。

  • timeout (float | None) – 此請求的逾時時間。

  • metadata (collections.abc.Sequence[tuple[str, str]]) – 應與請求一起以中繼資料形式傳送的字串。

create_service(region, project_id, service, service_id, request_id=None, retry=DEFAULT, timeout=None, metadata=())[原始碼]

在專案和位置中建立 metastore 服務。

參數
  • region (str) – 必要。服務所屬的 Google Cloud 區域 ID。

  • project_id (str) – 必要。服務所屬的 Google Cloud 專案 ID。

  • service (dict | google.cloud.metastore_v1.types.Service) –

    必要。要建立的 Metastore 服務。name 欄位會被忽略。建立的 metastore 服務 ID 必須在請求的 service_id 欄位中提供。

    這對應於 request 執行個體上的 service 欄位;如果提供 request,則不應設定此欄位。

  • service_id (str) –

    必要。Metastore 服務的 ID,用作 metastore 服務名稱的最後一個元件。此值長度必須介於 2 到 63 個字元之間(含首尾),開頭為字母,結尾為字母或數字,且由英數字元 ASCII 字元或連字號組成。

    這對應於 request 執行個體上的 service_id 欄位;如果提供 request,則不應設定此欄位。

  • request_id (str | None) – 選擇性。用於識別請求的唯一 ID。

  • retry (google.api_core.retry.Retry | google.api_core.gapic_v1.method._MethodDefault) – 指定應重試哪些錯誤(如果有的話)。

  • timeout (float | None) – 此請求的逾時時間。

  • metadata (collections.abc.Sequence[tuple[str, str]]) – 應與請求一起以中繼資料形式傳送的字串。

delete_backup(project_id, region, service_id, backup_id, request_id=None, retry=DEFAULT, timeout=None, metadata=())[原始碼]

刪除單一備份。

參數
  • project_id (str) – 必要。服務所屬的 Google Cloud 專案 ID。

  • region (str) – 必要。服務所屬的 Google Cloud 區域 ID。

  • service_id (str) –

    必要。Metastore 服務的 ID,用作 metastore 服務名稱的最後一個元件。此值長度必須介於 2 到 63 個字元之間(含首尾),開頭為字母,結尾為字母或數字,且由英數字元 ASCII 字元或連字號組成。

    這對應於 request 執行個體上的 service_id 欄位;如果提供 request,則不應設定此欄位。

  • backup_id (str) –

    必要。備份的 ID,用作備份名稱的最後一個元件。此值長度必須介於 1 到 64 個字元之間,開頭為字母,結尾為字母或數字,且由英數字元 ASCII 字元或連字號組成。

    這對應於 request 執行個體上的 backup_id 欄位;如果提供 request,則不應設定此欄位。

  • request_id (str | None) – 選擇性。用於識別請求的唯一 ID。

  • retry (google.api_core.retry.Retry | google.api_core.gapic_v1.method._MethodDefault) – 指定應重試哪些錯誤(如果有的話)。

  • timeout (float | None) – 此請求的逾時時間。

  • metadata (collections.abc.Sequence[tuple[str, str]]) – 應與請求一起以中繼資料形式傳送的字串。

delete_service(project_id, region, service_id, request_id=None, retry=DEFAULT, timeout=None, metadata=())[原始碼]

刪除單一服務。

參數
  • project_id (str) – 必要。服務所屬的 Google Cloud 專案 ID。

  • region (str) – 必要。服務所屬的 Google Cloud 區域 ID。

  • service_id (str) –

    必要。Metastore 服務的 ID,用作 metastore 服務名稱的最後一個元件。此值長度必須介於 2 到 63 個字元之間(含首尾),開頭為字母,結尾為字母或數字,且由英數字元 ASCII 字元或連字號組成。

    這對應於 request 執行個體上的 service_id 欄位;如果提供 request,則不應設定此欄位。

  • request_id (str | None) – 選擇性。用於識別請求的唯一 ID。

  • retry (google.api_core.retry.Retry | google.api_core.gapic_v1.method._MethodDefault) – 指定應重試哪些錯誤(如果有的話)。

  • timeout (float | None) – 此請求的逾時時間。

  • metadata (collections.abc.Sequence[tuple[str, str]]) – 應與請求一起以中繼資料形式傳送的字串。

export_metadata(destination_gcs_folder, project_id, region, service_id, request_id=None, database_dump_type=None, retry=DEFAULT, timeout=None, metadata=())[原始碼]

從服務匯出中繼資料。

參數
  • destination_gcs_folder (str) – 資料夾的 Cloud Storage URI,格式為 gs://<bucket_name>/<path_inside_bucket>。將在其下方建立包含匯出檔案的子資料夾 <export_folder>

  • project_id (str) – 必要。服務所屬的 Google Cloud 專案 ID。

  • region (str) – 必要。服務所屬的 Google Cloud 區域 ID。

  • service_id (str) –

    必要。Metastore 服務的 ID,用作 metastore 服務名稱的最後一個元件。此值長度必須介於 2 到 63 個字元之間(含首尾),開頭為字母,結尾為字母或數字,且由英數字元 ASCII 字元或連字號組成。

    這對應於 request 執行個體上的 service_id 欄位;如果提供 request,則不應設定此欄位。

  • request_id (str | None) – 選擇性。用於識別請求的唯一 ID。

  • database_dump_type (google.cloud.metastore_v1.types.metastore.DatabaseDumpSpec | None) – 選擇性。資料庫傾印的類型。如果未指定,預設為 MYSQL

  • retry (google.api_core.retry.Retry | google.api_core.gapic_v1.method._MethodDefault) – 指定應重試哪些錯誤(如果有的話)。

  • timeout (float | None) – 此請求的逾時時間。

  • metadata (collections.abc.Sequence[tuple[str, str]]) – 應與請求一起以中繼資料形式傳送的字串。

get_service(project_id, region, service_id, retry=DEFAULT, timeout=None, metadata=())[原始碼]

取得單一服務的詳細資訊。

參數
  • project_id (str) – 必要。服務所屬的 Google Cloud 專案 ID。

  • region (str) – 必要。服務所屬的 Google Cloud 區域 ID。

  • service_id (str) –

    必要。Metastore 服務的 ID,用作 metastore 服務名稱的最後一個元件。此值長度必須介於 2 到 63 個字元之間(含首尾),開頭為字母,結尾為字母或數字,且由英數字元 ASCII 字元或連字號組成。

    這對應於 request 執行個體上的 service_id 欄位;如果提供 request,則不應設定此欄位。

  • retry (google.api_core.retry.Retry | google.api_core.gapic_v1.method._MethodDefault) – 指定應重試哪些錯誤(如果有的話)。

  • timeout (float | None) – 此請求的逾時時間。

  • metadata (collections.abc.Sequence[tuple[str, str]]) – 應與請求一起以中繼資料形式傳送的字串。

get_backup(project_id, region, service_id, backup_id, retry=DEFAULT, timeout=None, metadata=())[原始碼]

從服務取得備份。

參數
  • project_id (str) – 必要。服務所屬的 Google Cloud 專案 ID。

  • region (str) – 必要。服務所屬的 Google Cloud 區域 ID。

  • service_id (str) –

    必要。Metastore 服務的 ID,用作 metastore 服務名稱的最後一個元件。此值長度必須介於 2 到 63 個字元之間(含首尾),開頭為字母,結尾為字母或數字,且由英數字元 ASCII 字元或連字號組成。

    這對應於 request 執行個體上的 service_id 欄位;如果提供 request,則不應設定此欄位。

  • backup_id (str) – 必要。要從中還原的 metastore 服務備份 ID

  • retry (google.api_core.retry.Retry | google.api_core.gapic_v1.method._MethodDefault) – 指定應重試哪些錯誤(如果有的話)。

  • timeout (float | None) – 此請求的逾時時間。

  • metadata (collections.abc.Sequence[tuple[str, str]]) – 應與請求一起以中繼資料形式傳送的字串。

list_backups(project_id, region, service_id, page_size=None, page_token=None, filter=None, order_by=None, retry=DEFAULT, timeout=None, metadata=())[原始碼]

列出服務中的備份。

參數
  • project_id (str) – 必要。服務所屬的 Google Cloud 專案 ID。

  • region (str) – 必要。服務所屬的 Google Cloud 區域 ID。

  • service_id (str) –

    必要。Metastore 服務的 ID,用作 metastore 服務名稱的最後一個元件。此值長度必須介於 2 到 63 個字元之間(含首尾),開頭為字母,結尾為字母或數字,且由英數字元 ASCII 字元或連字號組成。

    這對應於 request 執行個體上的 service_id 欄位;如果提供 request,則不應設定此欄位。

  • page_size (int | None) – 選擇性。要傳回的備份最大數量。回應可能包含少於最大數量的備份。如果未指定,則最多傳回 500 個備份。最大值為 1000;超過 1000 的值會變更為 1000。

  • page_token (str | None) – 選擇性。從先前的 [DataprocMetastore.ListBackups][google.cloud.metastore.v1.DataprocMetastore.ListBackups] 呼叫收到的分頁符記。提供此符記以擷取後續頁面。若要擷取第一頁,請提供空白分頁符記。在分頁時,提供給 [DataprocMetastore.ListBackups][google.cloud.metastore.v1.DataprocMetastore.ListBackups] 的其他參數必須與提供分頁符記的呼叫相符。

  • filter (str | None) – 選擇性。要套用至清單結果的篩選器。

  • order_by (str | None) – 選擇性。指定結果的排序方式,如排序順序中所述。如果未指定,結果將依預設順序排序。

  • retry (google.api_core.retry.Retry | google.api_core.gapic_v1.method._MethodDefault) – 指定應重試哪些錯誤(如果有的話)。

  • timeout (float | None) – 此請求的逾時時間。

  • metadata (collections.abc.Sequence[tuple[str, str]]) – 應與請求一起以中繼資料形式傳送的字串。

restore_service(project_id, region, service_id, backup_project_id, backup_region, backup_service_id, backup_id, restore_type=None, request_id=None, retry=DEFAULT, timeout=None, metadata=())[原始碼]

從備份還原服務。

參數
  • project_id (str) – 必要。服務所屬的 Google Cloud 專案 ID。

  • region (str) – 必要。服務所屬的 Google Cloud 區域 ID。

  • service_id (str) –

    必要。Metastore 服務的 ID,用作 metastore 服務名稱的最後一個元件。此值長度必須介於 2 到 63 個字元之間(含首尾),開頭為字母,結尾為字母或數字,且由英數字元 ASCII 字元或連字號組成。

    這對應於 request 執行個體上的 service_id 欄位;如果提供 request,則不應設定此欄位。

  • backup_project_id (str) – 必要。要從中還原的 metastore 服務備份的 Google Cloud 專案 ID。

  • backup_region (str) – 必要。要從中還原的 metastore 服務備份的 Google Cloud 區域 ID。

  • backup_service_id (str) – 必要。要從中還原的 metastore 服務備份 ID,用作 metastore 服務名稱的最後一個元件。此值長度必須介於 2 到 63 個字元之間(含首尾),開頭為字母,結尾為字母或數字,且由英數字元 ASCII 字元或連字號組成。

  • backup_id (str) – 必要。要從中還原的 metastore 服務備份 ID

  • restore_type (google.cloud.metastore_v1.types.metastore.Restore | None) – 選擇性。還原的類型。如果未指定,預設為 METADATA_ONLY

  • request_id (str | None) – 選擇性。用於識別請求的唯一 ID。

  • retry (google.api_core.retry.Retry | google.api_core.gapic_v1.method._MethodDefault) – 指定應重試哪些錯誤(如果有的話)。

  • timeout (float | None) – 此請求的逾時時間。

  • metadata (collections.abc.Sequence[tuple[str, str]]) – 應與請求一起以中繼資料形式傳送的字串。

update_service(project_id, region, service_id, service, update_mask, request_id=None, retry=DEFAULT, timeout=None, metadata=())[原始碼]

更新單一服務的參數。

參數
  • project_id (str) – 必要。服務所屬的 Google Cloud 專案 ID。

  • region (str) – 必要。服務所屬的 Google Cloud 區域 ID。

  • service_id (str) –

    必要。Metastore 服務的 ID,用作 metastore 服務名稱的最後一個元件。此值長度必須介於 2 到 63 個字元之間(含首尾),開頭為字母,結尾為字母或數字,且由英數字元 ASCII 字元或連字號組成。

    這對應於 request 執行個體上的 service_id 欄位;如果提供 request,則不應設定此欄位。

  • service (dict | google.cloud.metastore_v1.types.Service) –

    必要。要更新的 metastore 服務。伺服器只會在服務的欄位於 update_mask 中指定時合併這些欄位。

    metastore 服務的 name 欄位用於識別要更新的 metastore 服務。

    這對應於 request 執行個體上的 service 欄位;如果提供 request,則不應設定此欄位。

  • update_mask (google.protobuf.field_mask_pb2.FieldMask) –

    必要。用於指定要由更新覆寫 metastore 服務資源中的欄位的欄位遮罩。在 update_mask 中指定的欄位相對於資源(而非完整請求)。如果欄位在遮罩中,則會被覆寫。

    這對應於 request 執行個體上的 update_mask 欄位;如果提供 request,則不應設定此欄位。

  • request_id (str | None) – 選擇性。用於識別請求的唯一 ID。

  • retry (google.api_core.retry.Retry | google.api_core.gapic_v1.method._MethodDefault) – 指定應重試哪些錯誤(如果有的話)。

  • timeout (float | None) – 此請求的逾時時間。

  • metadata (collections.abc.Sequence[tuple[str, str]]) – 應與請求一起以中繼資料形式傳送的字串。

list_hive_partitions(project_id, service_id, region, table, partition_names=None)[原始碼]

列出 Hive 分割區。

參數
  • project_id (str) – 選擇性。dbt Cloud 專案的 ID。

  • service_id (str) – 必要。Dataproc Metastore 服務 ID。

  • region (str) – 必要。服務所屬的 Google Cloud 區域 ID。

  • table (str) – 必要。分割表格的名稱

  • partition_names (list[str] | None) – 選擇性。要等待的表格分割區清單。分割區的名稱應類似於 “ds=1”,或多個分割區的情況下為 “a=1/b=2”。請注意,您不能像在 HivePartitionSensor 中那樣使用邏輯或比較運算子。如果未指定,則感測器將等待至少一個分割區,無論其名稱為何。

此條目是否有幫助?