airflow.providers.google.cloud.operators.dataplex
¶
此模組包含 Google Dataplex 運算子。
模組內容¶
類別¶
在 Lake 內建立任務資源。 |
|
刪除任務資源。 |
|
列出指定 Lake 下的任務。 |
|
取得任務資源。 |
|
在 Lake 內建立 Lake 資源。 |
|
刪除 Lake 資源。 |
|
建立 DataScan 資源。 |
|
取得 DataScan 資源。 |
|
刪除 DataScan 資源。 |
|
執行 DataScan 的隨需執行。 |
|
取得 Data Scan Job 資源。 |
|
建立 DataScan Data Profile 資源。 |
|
取得 DataScan DataProfile 資源。 |
|
刪除 DataScan DataProfile 資源。 |
|
執行 DataScan Data Profile Scan 的隨需執行。 |
|
取得 DataScan Data Profile Job 資源。 |
|
在 Lake 內建立 Zone 資源。 |
|
刪除 Zone 資源。在刪除 Zone 之前,必須先刪除 Zone 內的所有資產。 |
|
建立 Asset 資源。 |
|
刪除資產資源。 |
- class airflow.providers.google.cloud.operators.dataplex.DataplexCreateTaskOperator(project_id, region, lake_id, body, dataplex_task_id, validate_only=None, api_version='v1', retry=DEFAULT, timeout=None, metadata=(), gcp_conn_id='google_cloud_default', impersonation_chain=None, asynchronous=False, *args, **kwargs)[source]¶
基底類別:
airflow.providers.google.cloud.operators.cloud_base.GoogleCloudBaseOperator
在 Lake 內建立任務資源。
- 參數
project_id (str) – 必填。任務所屬的 Google Cloud 專案 ID。
region (str) – 必填。任務所屬的 Google Cloud 區域 ID。
lake_id (str) – 必填。任務所屬的 Google Cloud Lake ID。
dataplex_task_id (str) – 必填。任務識別碼。
validate_only (bool | None) – 選填。僅驗證請求,但不執行變更。預設值為 false。
api_version (str) – 將請求的 API 版本,例如 ‘v3’。
retry (google.api_core.retry.Retry | google.api_core.gapic_v1.method._MethodDefault) – 用於重試請求的重試物件。如果指定 None,則不會重試請求。
timeout (float | None) – 等待請求完成的秒數。請注意,如果指定 retry,則逾時適用於每個個別嘗試。
metadata (collections.abc.Sequence[tuple[str, str]]) – 提供給方法的其他中繼資料。
gcp_conn_id (str) – 取得連線資訊時使用的連線 ID。
impersonation_chain (str | collections.abc.Sequence[str] | None) – 選填的服務帳戶,用於使用短期憑證模擬身分,或取得清單中最後一個帳戶的 access_token 所需的鏈結帳戶清單,該帳戶將在請求中模擬身分。 如果設定為字串,則帳戶必須授予原始帳戶「服務帳戶權杖建立者」IAM 角色。 如果設定為序列,則清單中的身分必須將「服務帳戶權杖建立者」IAM 角色授予緊接在前的身分,清單中的第一個帳戶將此角色授予原始帳戶 (已範本化)。
asynchronous (bool) – 標記告知是否應非同步建立 Dataplex 任務。 這對於長時間執行的建立任務以及使用 DataplexTaskSensor 非同步等待它們非常有用
- class airflow.providers.google.cloud.operators.dataplex.DataplexDeleteTaskOperator(project_id, region, lake_id, dataplex_task_id, api_version='v1', retry=DEFAULT, timeout=None, metadata=(), gcp_conn_id='google_cloud_default', impersonation_chain=None, *args, **kwargs)[source]¶
基底類別:
airflow.providers.google.cloud.operators.cloud_base.GoogleCloudBaseOperator
刪除任務資源。
- 參數
project_id (str) – 必填。任務所屬的 Google Cloud 專案 ID。
region (str) – 必填。任務所屬的 Google Cloud 區域 ID。
lake_id (str) – 必填。任務所屬的 Google Cloud Lake ID。
dataplex_task_id (str) – 必填。任務識別碼。
api_version (str) – 將請求的 API 版本,例如 ‘v3’。
retry (google.api_core.retry.Retry | google.api_core.gapic_v1.method._MethodDefault) – 用於重試請求的重試物件。如果指定 None,則不會重試請求。
timeout (float | None) – 等待請求完成的秒數。請注意,如果指定 retry,則逾時適用於每個個別嘗試。
metadata (collections.abc.Sequence[tuple[str, str]]) – 提供給方法的其他中繼資料。
gcp_conn_id (str) – 取得連線資訊時使用的連線 ID。
impersonation_chain (str | collections.abc.Sequence[str] | None) – 選填的服務帳戶,用於使用短期憑證模擬身分,或取得清單中最後一個帳戶的 access_token 所需的鏈結帳戶清單,該帳戶將在請求中模擬身分。 如果設定為字串,則帳戶必須授予原始帳戶「服務帳戶權杖建立者」IAM 角色。 如果設定為序列,則清單中的身分必須將「服務帳戶權杖建立者」IAM 角色授予緊接在前的身分,清單中的第一個帳戶將此角色授予原始帳戶 (已範本化)。
- class airflow.providers.google.cloud.operators.dataplex.DataplexListTasksOperator(project_id, region, lake_id, page_size=None, page_token=None, filter=None, order_by=None, api_version='v1', retry=DEFAULT, timeout=None, metadata=(), gcp_conn_id='google_cloud_default', impersonation_chain=None, *args, **kwargs)[source]¶
基底類別:
airflow.providers.google.cloud.operators.cloud_base.GoogleCloudBaseOperator
列出指定 Lake 下的任務。
- 參數
project_id (str) – 必填。任務所屬的 Google Cloud 專案 ID。
region (str) – 必填。任務所屬的 Google Cloud 區域 ID。
lake_id (str) – 必填。任務所屬的 Google Cloud Lake ID。
page_size (int | None) – 選填。要傳回的任務最大數量。服務可能會傳回少於此值。如果未指定,則最多傳回 10 個任務。最大值為 1000;高於 1000 的值將強制轉換為 1000。
page_token (str | None) – 選填。從先前的 ListZones 呼叫收到的分頁符記。提供此符記以檢索後續頁面。分頁時,提供給 ListZones 的所有其他參數必須與提供分頁符記的呼叫相符。
filter (str | None) – 選填。篩選請求。
order_by (str | None) – 選填。結果的排序依據欄位。
api_version (str) – 將請求的 API 版本,例如 ‘v3’。
retry (google.api_core.retry.Retry | google.api_core.gapic_v1.method._MethodDefault) – 用於重試請求的重試物件。如果指定 None,則不會重試請求。
timeout (float | None) – 等待請求完成的秒數。請注意,如果指定 retry,則逾時適用於每個個別嘗試。
metadata (collections.abc.Sequence[tuple[str, str]]) – 提供給方法的其他中繼資料。
gcp_conn_id (str) – 取得連線資訊時使用的連線 ID。
impersonation_chain (str | collections.abc.Sequence[str] | None) – 選填的服務帳戶,用於使用短期憑證模擬身分,或取得清單中最後一個帳戶的 access_token 所需的鏈結帳戶清單,該帳戶將在請求中模擬身分。 如果設定為字串,則帳戶必須授予原始帳戶「服務帳戶權杖建立者」IAM 角色。 如果設定為序列,則清單中的身分必須將「服務帳戶權杖建立者」IAM 角色授予緊接在前的身分,清單中的第一個帳戶將此角色授予原始帳戶 (已範本化)。
- class airflow.providers.google.cloud.operators.dataplex.DataplexGetTaskOperator(project_id, region, lake_id, dataplex_task_id, api_version='v1', retry=DEFAULT, timeout=None, metadata=(), gcp_conn_id='google_cloud_default', impersonation_chain=None, *args, **kwargs)[source]¶
基底類別:
airflow.providers.google.cloud.operators.cloud_base.GoogleCloudBaseOperator
取得任務資源。
- 參數
project_id (str) – 必填。任務所屬的 Google Cloud 專案 ID。
region (str) – 必填。任務所屬的 Google Cloud 區域 ID。
lake_id (str) – 必填。任務所屬的 Google Cloud Lake ID。
dataplex_task_id (str) – 必填。任務識別碼。
api_version (str) – 將請求的 API 版本,例如 ‘v3’。
retry (google.api_core.retry.Retry | google.api_core.gapic_v1.method._MethodDefault) – 用於重試請求的重試物件。如果指定 None,則不會重試請求。
timeout (float | None) – 等待請求完成的秒數。請注意,如果指定 retry,則逾時適用於每個個別嘗試。
metadata (collections.abc.Sequence[tuple[str, str]]) – 提供給方法的其他中繼資料。
gcp_conn_id (str) – 取得連線資訊時使用的連線 ID。
impersonation_chain (str | collections.abc.Sequence[str] | None) – 選填的服務帳戶,用於使用短期憑證模擬身分,或取得清單中最後一個帳戶的 access_token 所需的鏈結帳戶清單,該帳戶將在請求中模擬身分。 如果設定為字串,則帳戶必須授予原始帳戶「服務帳戶權杖建立者」IAM 角色。 如果設定為序列,則清單中的身分必須將「服務帳戶權杖建立者」IAM 角色授予緊接在前的身分,清單中的第一個帳戶將此角色授予原始帳戶 (已範本化)。
- class airflow.providers.google.cloud.operators.dataplex.DataplexCreateLakeOperator(project_id, region, lake_id, body, validate_only=None, api_version='v1', retry=DEFAULT, timeout=None, metadata=(), gcp_conn_id='google_cloud_default', impersonation_chain=None, asynchronous=False, *args, **kwargs)[source]¶
基底類別:
airflow.providers.google.cloud.operators.cloud_base.GoogleCloudBaseOperator
在 Lake 內建立 Lake 資源。
- 參數
project_id (str) – 必填。Lake 所屬的 Google Cloud 專案 ID。
region (str) – 必填。Lake 所屬的 Google Cloud 區域 ID。
lake_id (str) – 必填。Lake 識別碼。
validate_only (bool | None) – 選填。僅驗證請求,但不執行變更。預設值為 false。
api_version (str) – 將請求的 API 版本,例如 ‘v1’。
retry (google.api_core.retry.Retry | google.api_core.gapic_v1.method._MethodDefault) – 用於重試請求的重試物件。如果指定 None,則不會重試請求。
timeout (float | None) – 等待請求完成的秒數。請注意,如果指定 retry,則逾時適用於每個個別嘗試。
metadata (collections.abc.Sequence[tuple[str, str]]) – 提供給方法的其他中繼資料。
gcp_conn_id (str) – 取得連線資訊時使用的連線 ID。
impersonation_chain (str | collections.abc.Sequence[str] | None) – 選填的服務帳戶,用於使用短期憑證模擬身分,或取得清單中最後一個帳戶的 access_token 所需的鏈結帳戶清單,該帳戶將在請求中模擬身分。 如果設定為字串,則帳戶必須授予原始帳戶「服務帳戶權杖建立者」IAM 角色。 如果設定為序列,則清單中的身分必須將「服務帳戶權杖建立者」IAM 角色授予緊接在前的身分,清單中的第一個帳戶將此角色授予原始帳戶 (已範本化)。
asynchronous (bool) – 標記告知是否應非同步建立 Dataplex Lake。 這對於長時間執行的建立 Lake 非常有用。
- class airflow.providers.google.cloud.operators.dataplex.DataplexDeleteLakeOperator(project_id, region, lake_id, api_version='v1', retry=DEFAULT, timeout=None, metadata=(), gcp_conn_id='google_cloud_default', impersonation_chain=None, *args, **kwargs)[source]¶
基底類別:
airflow.providers.google.cloud.operators.cloud_base.GoogleCloudBaseOperator
刪除 Lake 資源。
- 參數
project_id (str) – 必填。Lake 所屬的 Google Cloud 專案 ID。
region (str) – 必填。Lake 所屬的 Google Cloud 區域 ID。
lake_id (str) – 必填。Lake 識別碼。
api_version (str) – 將請求的 API 版本,例如 ‘v1’。
retry (google.api_core.retry.Retry | google.api_core.gapic_v1.method._MethodDefault) – 用於重試請求的重試物件。如果指定 None,則不會重試請求。
timeout (float | None) – 等待請求完成的秒數。請注意,如果指定 retry,則逾時適用於每個個別嘗試。
metadata (collections.abc.Sequence[tuple[str, str]]) – 提供給方法的其他中繼資料。
gcp_conn_id (str) – 取得連線資訊時使用的連線 ID。
impersonation_chain (str | collections.abc.Sequence[str] | None) – 選填的服務帳戶,用於使用短期憑證模擬身分,或取得清單中最後一個帳戶的 access_token 所需的鏈結帳戶清單,該帳戶將在請求中模擬身分。 如果設定為字串,則帳戶必須授予原始帳戶「服務帳戶權杖建立者」IAM 角色。 如果設定為序列,則清單中的身分必須將「服務帳戶權杖建立者」IAM 角色授予緊接在前的身分,清單中的第一個帳戶將此角色授予原始帳戶 (已範本化)。
- class airflow.providers.google.cloud.operators.dataplex.DataplexCreateOrUpdateDataQualityScanOperator(project_id, region, data_scan_id, body, api_version='v1', retry=DEFAULT, timeout=None, update_mask=None, metadata=(), gcp_conn_id='google_cloud_default', impersonation_chain=None, *args, **kwargs)[source]¶
基底類別:
airflow.providers.google.cloud.operators.cloud_base.GoogleCloudBaseOperator
建立 DataScan 資源。
- 參數
project_id (str) – 必填。Lake 所屬的 Google Cloud 專案 ID。
region (str) – 必填。Lake 所屬的 Google Cloud 區域 ID。
body (dict[str, Any] | google.cloud.dataplex_v1.types.DataScan) – 必填。請求 Body 包含 DataScan 的執行個體。
data_scan_id (str) – 必填。資料品質掃描識別碼。
update_mask (dict | google.protobuf.field_mask_pb2.FieldMask | None) – 要更新的欄位遮罩。
api_version (str) – 將請求的 API 版本,例如 ‘v1’。
retry (google.api_core.retry.Retry | google.api_core.gapic_v1.method._MethodDefault) – 用於重試請求的重試物件。如果指定 None,則不會重試請求。
timeout (float | None) – 等待請求完成的秒數。請注意,如果指定 retry,則逾時適用於每個個別嘗試。
metadata (collections.abc.Sequence[tuple[str, str]]) – 提供給方法的其他中繼資料。
gcp_conn_id (str) – 取得連線資訊時使用的連線 ID。
impersonation_chain (str | collections.abc.Sequence[str] | None) – 選填的服務帳戶,用於使用短期憑證模擬身分,或取得清單中最後一個帳戶的 access_token 所需的鏈結帳戶清單,該帳戶將在請求中模擬身分。 如果設定為字串,則帳戶必須授予原始帳戶「服務帳戶權杖建立者」IAM 角色。 如果設定為序列,則清單中的身分必須將「服務帳戶權杖建立者」IAM 角色授予緊接在前的身分,清單中的第一個帳戶將此角色授予原始帳戶 (已範本化)。
- 返回
Dataplex 資料掃描 ID
- class airflow.providers.google.cloud.operators.dataplex.DataplexGetDataQualityScanOperator(project_id, region, data_scan_id, api_version='v1', retry=DEFAULT, timeout=None, metadata=(), gcp_conn_id='google_cloud_default', impersonation_chain=None, *args, **kwargs)[source]¶
基底類別:
airflow.providers.google.cloud.operators.cloud_base.GoogleCloudBaseOperator
取得 DataScan 資源。
- 參數
project_id (str) – 必填。Lake 所屬的 Google Cloud 專案 ID。
region (str) – 必填。Lake 所屬的 Google Cloud 區域 ID。
data_scan_id (str) – 必填。資料品質掃描識別碼。
api_version (str) – 將請求的 API 版本,例如 ‘v1’。
retry (google.api_core.retry.Retry | google.api_core.gapic_v1.method._MethodDefault) – 用於重試請求的重試物件。如果指定 None,則不會重試請求。
timeout (float | None) – 等待請求完成的秒數。請注意,如果指定 retry,則逾時適用於每個個別嘗試。
metadata (collections.abc.Sequence[tuple[str, str]]) – 提供給方法的其他中繼資料。
gcp_conn_id (str) – 取得連線資訊時使用的連線 ID。
impersonation_chain (str | collections.abc.Sequence[str] | None) – 選填的服務帳戶,用於使用短期憑證模擬身分,或取得清單中最後一個帳戶的 access_token 所需的鏈結帳戶清單,該帳戶將在請求中模擬身分。 如果設定為字串,則帳戶必須授予原始帳戶「服務帳戶權杖建立者」IAM 角色。 如果設定為序列,則清單中的身分必須將「服務帳戶權杖建立者」IAM 角色授予緊接在前的身分,清單中的第一個帳戶將此角色授予原始帳戶 (已範本化)。
- 返回
Dataplex 資料掃描
- class airflow.providers.google.cloud.operators.dataplex.DataplexDeleteDataQualityScanOperator(project_id, region, data_scan_id, api_version='v1', retry=DEFAULT, timeout=None, metadata=(), gcp_conn_id='google_cloud_default', impersonation_chain=None, *args, **kwargs)[source]¶
基底類別:
airflow.providers.google.cloud.operators.cloud_base.GoogleCloudBaseOperator
刪除 DataScan 資源。
- 參數
project_id (str) – 必填。Lake 所屬的 Google Cloud 專案 ID。
region (str) – 必填。Lake 所屬的 Google Cloud 區域 ID。
data_scan_id (str) – 必填。資料品質掃描識別碼。
api_version (str) – 將請求的 API 版本,例如 ‘v1’。
retry (google.api_core.retry.Retry | google.api_core.gapic_v1.method._MethodDefault) – 用於重試請求的重試物件。如果指定 None,則不會重試請求。
timeout (float | None) – 等待請求完成的秒數。請注意,如果指定 retry,則逾時適用於每個個別嘗試。
metadata (collections.abc.Sequence[tuple[str, str]]) – 提供給方法的其他中繼資料。
gcp_conn_id (str) – 取得連線資訊時使用的連線 ID。
impersonation_chain (str | collections.abc.Sequence[str] | None) – 選填的服務帳戶,用於使用短期憑證模擬身分,或取得清單中最後一個帳戶的 access_token 所需的鏈結帳戶清單,該帳戶將在請求中模擬身分。 如果設定為字串,則帳戶必須授予原始帳戶「服務帳戶權杖建立者」IAM 角色。 如果設定為序列,則清單中的身分必須將「服務帳戶權杖建立者」IAM 角色授予緊接在前的身分,清單中的第一個帳戶將此角色授予原始帳戶 (已範本化)。
- 返回
無
- class airflow.providers.google.cloud.operators.dataplex.DataplexRunDataQualityScanOperator(project_id, region, data_scan_id, api_version='v1', retry=DEFAULT, timeout=None, metadata=(), gcp_conn_id='google_cloud_default', impersonation_chain=None, asynchronous=False, fail_on_dq_failure=False, result_timeout=60.0 * 10, deferrable=conf.getboolean('operators', 'default_deferrable', fallback=False), polling_interval_seconds=10, *args, **kwargs)[source]¶
基底類別:
airflow.providers.google.cloud.operators.cloud_base.GoogleCloudBaseOperator
執行 DataScan 的隨需執行。
- 參數
project_id (str) – 必填。Lake 所屬的 Google Cloud 專案 ID。
region (str) – 必填。Lake 所屬的 Google Cloud 區域 ID。
data_scan_id (str) – 必填。資料品質掃描識別碼。
api_version (str) – 將請求的 API 版本,例如 ‘v1’。
retry (google.api_core.retry.Retry | google.api_core.gapic_v1.method._MethodDefault) – 用於重試請求的重試物件。如果指定 None,則不會重試請求。
timeout (float | None) – 等待請求完成的秒數。請注意,如果指定 retry,則逾時適用於每個個別嘗試。
metadata (collections.abc.Sequence[tuple[str, str]]) – 提供給方法的其他中繼資料。
gcp_conn_id (str) – 取得連線資訊時使用的連線 ID。
impersonation_chain (str | collections.abc.Sequence[str] | None) – 選填的服務帳戶,用於使用短期憑證模擬身分,或取得清單中最後一個帳戶的 access_token 所需的鏈結帳戶清單,該帳戶將在請求中模擬身分。 如果設定為字串,則帳戶必須授予原始帳戶「服務帳戶權杖建立者」IAM 角色。 如果設定為序列,則清單中的身分必須將「服務帳戶權杖建立者」IAM 角色授予緊接在前的身分,清單中的第一個帳戶將此角色授予原始帳戶 (已範本化)。
asynchronous (bool) – 旗標,告知 Dataplex 工作應以非同步方式執行。這對於提交長時間運行的工作並使用 DataplexDataQualityJobStatusSensor 非同步等待它們非常有用
fail_on_dq_failure (bool) – 如果設定為 true 且並非所有資料品質掃描規則都已通過,則會拋出例外。 如果設定為 false 且並非所有資料品質掃描規則都已通過,則執行將成功完成。
result_timeout (float) – 運算子將等待資料品質掃描結果的值(以秒為單位),當旗標 asynchronous = False 時。 如果在指定的秒數後找不到結果,則拋出例外。
polling_interval_seconds (int) – 輪詢工作完成之間的時間(以秒為單位)。 該值僅在可延遲模式下運行時才被考慮。 必須大於 0。
deferrable (bool) – 在可延遲模式下執行運算子。
- 返回
Dataplex 資料品質掃描工作 ID。
- class airflow.providers.google.cloud.operators.dataplex.DataplexGetDataQualityScanResultOperator(project_id, region, data_scan_id, job_id=None, api_version='v1', retry=DEFAULT, timeout=None, metadata=(), gcp_conn_id='google_cloud_default', impersonation_chain=None, fail_on_dq_failure=False, wait_for_results=True, result_timeout=60.0 * 10, deferrable=conf.getboolean('operators', 'default_deferrable', fallback=False), polling_interval_seconds=10, *args, **kwargs)[source]¶
基底類別:
airflow.providers.google.cloud.operators.cloud_base.GoogleCloudBaseOperator
取得 Data Scan Job 資源。
- 參數
project_id (str) – 必填。Lake 所屬的 Google Cloud 專案 ID。
region (str) – 必填。Lake 所屬的 Google Cloud 區域 ID。
data_scan_id (str) – 必填。資料品質掃描識別碼。
job_id (str | None) – 選填。資料品質掃描工作識別碼。
api_version (str) – 將請求的 API 版本,例如 ‘v1’。
retry (google.api_core.retry.Retry | google.api_core.gapic_v1.method._MethodDefault) – 用於重試請求的重試物件。如果指定 None,則不會重試請求。
timeout (float | None) – 等待請求完成的時間量(以秒為單位)。 請注意,如果指定了
retry
,則逾時適用於每次單獨的嘗試。metadata (collections.abc.Sequence[tuple[str, str]]) – 提供給方法的其他中繼資料。
gcp_conn_id (str) – 取得連線資訊時使用的連線 ID。
impersonation_chain (str | collections.abc.Sequence[str] | None) – 選填的服務帳戶,用於使用短期憑證模擬身分,或取得清單中最後一個帳戶的 access_token 所需的鏈結帳戶清單,該帳戶將在請求中模擬身分。 如果設定為字串,則帳戶必須授予原始帳戶「服務帳戶權杖建立者」IAM 角色。 如果設定為序列,則清單中的身分必須將「服務帳戶權杖建立者」IAM 角色授予緊接在前的身分,清單中的第一個帳戶將此角色授予原始帳戶 (已範本化)。
fail_on_dq_failure (bool) – 如果設定為 true 且並非所有資料品質掃描規則都已通過,則會拋出例外。 如果設定為 false 且並非所有資料品質掃描規則都已通過,則執行將成功完成。
wait_for_results (bool) – 旗標,指示是否等待工作執行的結果或返回工作的目前狀態。
result_timeout (float) – 運算子將等待資料品質掃描結果的值(以秒為單位),當旗標 wait_for_results = True 時。 如果在指定的秒數後找不到結果,則拋出例外。
polling_interval_seconds (int) – 輪詢工作完成之間的時間(以秒為單位)。 該值僅在可延遲模式下運行時才被考慮。 必須大於 0。
deferrable (bool) – 在可延遲模式下執行運算子。
- 返回
代表 DataScanJob 的字典。 當工作以成功狀態完成時,關於資料品質結果的資訊是可用的。
- class airflow.providers.google.cloud.operators.dataplex.DataplexCreateOrUpdateDataProfileScanOperator(project_id, region, data_scan_id, body, api_version='v1', retry=DEFAULT, timeout=None, update_mask=None, metadata=(), gcp_conn_id='google_cloud_default', impersonation_chain=None, *args, **kwargs)[source]¶
基底類別:
airflow.providers.google.cloud.operators.cloud_base.GoogleCloudBaseOperator
建立 DataScan Data Profile 資源。
- 參數
project_id (str) – 必填。Lake 所屬的 Google Cloud 專案 ID。
region (str) – 必填。Lake 所屬的 Google Cloud 區域 ID。
body (dict[str, Any] | google.cloud.dataplex_v1.types.DataScan) – 必填。請求 Body 包含 DataScan 的執行個體。
data_scan_id (str) – 必要。資料剖析掃描識別碼。
update_mask (dict | google.protobuf.field_mask_pb2.FieldMask | None) – 要更新的欄位遮罩。
api_version (str) – 將請求的 API 版本,例如 ‘v1’。
retry (google.api_core.retry.Retry | google.api_core.gapic_v1.method._MethodDefault) – 用於重試請求的重試物件。如果指定 None,則不會重試請求。
timeout (float | None) – 等待請求完成的秒數。請注意,如果指定 retry,則逾時適用於每個個別嘗試。
metadata (collections.abc.Sequence[tuple[str, str]]) – 提供給方法的其他中繼資料。
gcp_conn_id (str) – 取得連線資訊時使用的連線 ID。
impersonation_chain (str | collections.abc.Sequence[str] | None) – 選填的服務帳戶,用於使用短期憑證模擬身分,或取得清單中最後一個帳戶的 access_token 所需的鏈結帳戶清單,該帳戶將在請求中模擬身分。 如果設定為字串,則帳戶必須授予原始帳戶「服務帳戶權杖建立者」IAM 角色。 如果設定為序列,則清單中的身分必須將「服務帳戶權杖建立者」IAM 角色授予緊接在前的身分,清單中的第一個帳戶將此角色授予原始帳戶 (已範本化)。
- 返回
Dataplex 資料剖析 ID
- class airflow.providers.google.cloud.operators.dataplex.DataplexGetDataProfileScanOperator(project_id, region, data_scan_id, api_version='v1', retry=DEFAULT, timeout=None, metadata=(), gcp_conn_id='google_cloud_default', impersonation_chain=None, *args, **kwargs)[source]¶
基底類別:
airflow.providers.google.cloud.operators.cloud_base.GoogleCloudBaseOperator
取得 DataScan DataProfile 資源。
- 參數
project_id (str) – 必填。Lake 所屬的 Google Cloud 專案 ID。
region (str) – 必填。Lake 所屬的 Google Cloud 區域 ID。
data_scan_id (str) – 必要。資料剖析掃描識別碼。
api_version (str) – 將請求的 API 版本,例如 ‘v1’。
retry (google.api_core.retry.Retry | google.api_core.gapic_v1.method._MethodDefault) – 用於重試請求的重試物件。如果指定 None,則不會重試請求。
timeout (float | None) – 等待請求完成的秒數。請注意,如果指定 retry,則逾時適用於每個個別嘗試。
metadata (collections.abc.Sequence[tuple[str, str]]) – 提供給方法的其他中繼資料。
gcp_conn_id (str) – 取得連線資訊時使用的連線 ID。
impersonation_chain (str | collections.abc.Sequence[str] | None) – 選填的服務帳戶,用於使用短期憑證模擬身分,或取得清單中最後一個帳戶的 access_token 所需的鏈結帳戶清單,該帳戶將在請求中模擬身分。 如果設定為字串,則帳戶必須授予原始帳戶「服務帳戶權杖建立者」IAM 角色。 如果設定為序列,則清單中的身分必須將「服務帳戶權杖建立者」IAM 角色授予緊接在前的身分,清單中的第一個帳戶將此角色授予原始帳戶 (已範本化)。
- 返回
Dataplex 資料剖析
- class airflow.providers.google.cloud.operators.dataplex.DataplexDeleteDataProfileScanOperator(project_id, region, data_scan_id, api_version='v1', retry=DEFAULT, timeout=None, metadata=(), gcp_conn_id='google_cloud_default', impersonation_chain=None, *args, **kwargs)[source]¶
基底類別:
airflow.providers.google.cloud.operators.cloud_base.GoogleCloudBaseOperator
刪除 DataScan DataProfile 資源。
- 參數
project_id (str) – 必填。Lake 所屬的 Google Cloud 專案 ID。
region (str) – 必填。Lake 所屬的 Google Cloud 區域 ID。
data_scan_id (str) – 必要。資料剖析掃描識別碼。
api_version (str) – 將請求的 API 版本,例如 ‘v1’。
retry (google.api_core.retry.Retry | google.api_core.gapic_v1.method._MethodDefault) – 用於重試請求的重試物件。如果指定 None,則不會重試請求。
timeout (float | None) – 等待請求完成的秒數。請注意,如果指定 retry,則逾時適用於每個個別嘗試。
metadata (collections.abc.Sequence[tuple[str, str]]) – 提供給方法的其他中繼資料。
gcp_conn_id (str) – 取得連線資訊時使用的連線 ID。
impersonation_chain (str | collections.abc.Sequence[str] | None) – 選填的服務帳戶,用於使用短期憑證模擬身分,或取得清單中最後一個帳戶的 access_token 所需的鏈結帳戶清單,該帳戶將在請求中模擬身分。 如果設定為字串,則帳戶必須授予原始帳戶「服務帳戶權杖建立者」IAM 角色。 如果設定為序列,則清單中的身分必須將「服務帳戶權杖建立者」IAM 角色授予緊接在前的身分,清單中的第一個帳戶將此角色授予原始帳戶 (已範本化)。
- 返回
無
- class airflow.providers.google.cloud.operators.dataplex.DataplexRunDataProfileScanOperator(project_id, region, data_scan_id, api_version='v1', retry=DEFAULT, timeout=None, metadata=(), gcp_conn_id='google_cloud_default', impersonation_chain=None, asynchronous=False, result_timeout=60.0 * 10, deferrable=conf.getboolean('operators', 'default_deferrable', fallback=False), polling_interval_seconds=10, *args, **kwargs)[source]¶
基底類別:
airflow.providers.google.cloud.operators.cloud_base.GoogleCloudBaseOperator
執行 DataScan Data Profile Scan 的隨需執行。
- 參數
project_id (str) – 必填。Lake 所屬的 Google Cloud 專案 ID。
region (str) – 必填。Lake 所屬的 Google Cloud 區域 ID。
data_scan_id (str) – 必要。資料剖析掃描識別碼。
api_version (str) – 將請求的 API 版本,例如 ‘v1’。
retry (google.api_core.retry.Retry | google.api_core.gapic_v1.method._MethodDefault) – 用於重試請求的重試物件。如果指定 None,則不會重試請求。
timeout (float | None) – 等待請求完成的秒數。請注意,如果指定 retry,則逾時適用於每個個別嘗試。
metadata (collections.abc.Sequence[tuple[str, str]]) – 提供給方法的其他中繼資料。
gcp_conn_id (str) – 取得連線資訊時使用的連線 ID。
impersonation_chain (str | collections.abc.Sequence[str] | None) – 選填的服務帳戶,用於使用短期憑證模擬身分,或取得清單中最後一個帳戶的 access_token 所需的鏈結帳戶清單,該帳戶將在請求中模擬身分。 如果設定為字串,則帳戶必須授予原始帳戶「服務帳戶權杖建立者」IAM 角色。 如果設定為序列,則清單中的身分必須將「服務帳戶權杖建立者」IAM 角色授予緊接在前的身分,清單中的第一個帳戶將此角色授予原始帳戶 (已範本化)。
asynchronous (bool) – 旗標,告知 Dataplex 工作應以非同步方式執行。這對於提交長時間運行的工作並使用 DataplexDataProfileJobStatusSensor 非同步等待它們非常有用
result_timeout (float) – 運算子將等待資料剖析掃描結果的值(以秒為單位),當旗標 asynchronous = False 時。 如果在指定的秒數後找不到結果,則拋出例外。
polling_interval_seconds (int) – 輪詢工作完成之間的時間(以秒為單位)。 該值僅在可延遲模式下運行時才被考慮。 必須大於 0。
deferrable (bool) – 在可延遲模式下執行運算子。
- 返回
Dataplex 資料剖析掃描工作 ID。
- class airflow.providers.google.cloud.operators.dataplex.DataplexGetDataProfileScanResultOperator(project_id, region, data_scan_id, job_id=None, api_version='v1', retry=DEFAULT, timeout=None, metadata=(), gcp_conn_id='google_cloud_default', impersonation_chain=None, wait_for_results=True, result_timeout=60.0 * 10, *args, **kwargs)[source]¶
基底類別:
airflow.providers.google.cloud.operators.cloud_base.GoogleCloudBaseOperator
取得 DataScan Data Profile Job 資源。
- 參數
project_id (str) – 必填。Lake 所屬的 Google Cloud 專案 ID。
region (str) – 必填。Lake 所屬的 Google Cloud 區域 ID。
data_scan_id (str) – 必要。資料剖析掃描識別碼。
job_id (str | None) – 選填。資料剖析掃描工作識別碼。
api_version (str) – 將請求的 API 版本,例如 ‘v1’。
retry (google.api_core.retry.Retry | google.api_core.gapic_v1.method._MethodDefault) – 用於重試請求的重試物件。如果指定 None,則不會重試請求。
timeout (float | None) – 等待請求完成的時間量(以秒為單位)。 請注意,如果指定了
retry
,則逾時適用於每次單獨的嘗試。metadata (collections.abc.Sequence[tuple[str, str]]) – 提供給方法的其他中繼資料。
gcp_conn_id (str) – 取得連線資訊時使用的連線 ID。
impersonation_chain (str | collections.abc.Sequence[str] | None) – 選填的服務帳戶,用於使用短期憑證模擬身分,或取得清單中最後一個帳戶的 access_token 所需的鏈結帳戶清單,該帳戶將在請求中模擬身分。 如果設定為字串,則帳戶必須授予原始帳戶「服務帳戶權杖建立者」IAM 角色。 如果設定為序列,則清單中的身分必須將「服務帳戶權杖建立者」IAM 角色授予緊接在前的身分,清單中的第一個帳戶將此角色授予原始帳戶 (已範本化)。
wait_for_results (bool) – 旗標,指示是否等待工作執行的結果或返回工作的目前狀態。
result_timeout (float) – 運算子將等待資料剖析掃描結果的值(以秒為單位),當旗標 wait_for_results = True 時。 如果在指定的秒數後找不到結果,則拋出例外。
- 返回
代表 DataScanJob 的字典。 當工作以成功狀態完成時,關於資料剖析結果的資訊是可用的。
- class airflow.providers.google.cloud.operators.dataplex.DataplexCreateZoneOperator(project_id, region, lake_id, body, zone_id, api_version='v1', retry=DEFAULT, timeout=None, metadata=(), gcp_conn_id='google_cloud_default', impersonation_chain=None, *args, **kwargs)[source]¶
基底類別:
airflow.providers.google.cloud.operators.cloud_base.GoogleCloudBaseOperator
在 Lake 內建立 Zone 資源。
- 參數
project_id (str) – 必填。任務所屬的 Google Cloud 專案 ID。
region (str) – 必填。任務所屬的 Google Cloud 區域 ID。
lake_id (str) – 必填。任務所屬的 Google Cloud Lake ID。
body (dict[str, Any] | google.cloud.dataplex_v1.types.Zone) – 必要項目。請求 body 包含 Zone 的一個實例。
zone_id (str) – 必要項目。任務識別符。
api_version (str) – 將請求的 API 版本,例如 ‘v3’。
retry (google.api_core.retry.Retry | google.api_core.gapic_v1.method._MethodDefault) – 用於重試請求的重試物件。如果指定 None,則不會重試請求。
timeout (float | None) – 等待請求完成的秒數。請注意,如果指定 retry,則逾時適用於每個個別嘗試。
metadata (collections.abc.Sequence[tuple[str, str]]) – 提供給方法的其他中繼資料。
gcp_conn_id (str) – 取得連線資訊時使用的連線 ID。
impersonation_chain (str | collections.abc.Sequence[str] | None) – 選填的服務帳戶,用於使用短期憑證模擬身分,或取得清單中最後一個帳戶的 access_token 所需的鏈結帳戶清單,該帳戶將在請求中模擬身分。 如果設定為字串,則帳戶必須授予原始帳戶「服務帳戶權杖建立者」IAM 角色。 如果設定為序列,則清單中的身分必須將「服務帳戶權杖建立者」IAM 角色授予緊接在前的身分,清單中的第一個帳戶將此角色授予原始帳戶 (已範本化)。
- 返回
Zone(區域)
- class airflow.providers.google.cloud.operators.dataplex.DataplexDeleteZoneOperator(project_id, region, lake_id, zone_id, api_version='v1', retry=DEFAULT, timeout=None, metadata=(), gcp_conn_id='google_cloud_default', impersonation_chain=None, *args, **kwargs)[source]¶
基底類別:
airflow.providers.google.cloud.operators.cloud_base.GoogleCloudBaseOperator
刪除 Zone 資源。在刪除 Zone 之前,必須先刪除 Zone 內的所有資產。
- 參數
project_id (str) – 必填。任務所屬的 Google Cloud 專案 ID。
region (str) – 必填。任務所屬的 Google Cloud 區域 ID。
lake_id (str) – 必填。任務所屬的 Google Cloud Lake ID。
zone_id (str) – 必要項目。區域識別符。
api_version (str) – 將請求的 API 版本,例如 ‘v3’。
retry (google.api_core.retry.Retry | google.api_core.gapic_v1.method._MethodDefault) – 用於重試請求的重試物件。如果指定 None,則不會重試請求。
timeout (float | None) – 等待請求完成的秒數。請注意,如果指定 retry,則逾時適用於每個個別嘗試。
metadata (collections.abc.Sequence[tuple[str, str]]) – 提供給方法的其他中繼資料。
gcp_conn_id (str) – 取得連線資訊時使用的連線 ID。
impersonation_chain (str | collections.abc.Sequence[str] | None) – 選填的服務帳戶,用於使用短期憑證模擬身分,或取得清單中最後一個帳戶的 access_token 所需的鏈結帳戶清單,該帳戶將在請求中模擬身分。 如果設定為字串,則帳戶必須授予原始帳戶「服務帳戶權杖建立者」IAM 角色。 如果設定為序列,則清單中的身分必須將「服務帳戶權杖建立者」IAM 角色授予緊接在前的身分,清單中的第一個帳戶將此角色授予原始帳戶 (已範本化)。
- 返回
無
- class airflow.providers.google.cloud.operators.dataplex.DataplexCreateAssetOperator(project_id, region, lake_id, body, zone_id, asset_id, api_version='v1', retry=DEFAULT, timeout=None, metadata=(), gcp_conn_id='google_cloud_default', impersonation_chain=None, *args, **kwargs)[source]¶
基底類別:
airflow.providers.google.cloud.operators.cloud_base.GoogleCloudBaseOperator
建立 Asset 資源。
- 參數
project_id (str) – 必填。任務所屬的 Google Cloud 專案 ID。
region (str) – 必填。任務所屬的 Google Cloud 區域 ID。
lake_id (str) – 必要項目。Lake 所屬的 Google Cloud Lake ID。
zone_id (str) – 必要項目。區域識別符。
asset_id (str) – 必要項目。資產識別符。
body (dict[str, Any] | google.cloud.dataplex_v1.types.Asset) – 必要項目。請求 body 包含 Asset 的一個實例。
api_version (str) – 將請求的 API 版本,例如 ‘v3’。
retry (google.api_core.retry.Retry | google.api_core.gapic_v1.method._MethodDefault) – 用於重試請求的重試物件。如果指定 None,則不會重試請求。
timeout (float | None) – 等待請求完成的秒數。請注意,如果指定 retry,則逾時適用於每個個別嘗試。
metadata (collections.abc.Sequence[tuple[str, str]]) – 提供給方法的其他中繼資料。
gcp_conn_id (str) – 取得連線資訊時使用的連線 ID。
impersonation_chain (str | collections.abc.Sequence[str] | None) – 選填的服務帳戶,用於使用短期憑證模擬身分,或取得清單中最後一個帳戶的 access_token 所需的鏈結帳戶清單,該帳戶將在請求中模擬身分。 如果設定為字串,則帳戶必須授予原始帳戶「服務帳戶權杖建立者」IAM 角色。 如果設定為序列,則清單中的身分必須將「服務帳戶權杖建立者」IAM 角色授予緊接在前的身分,清單中的第一個帳戶將此角色授予原始帳戶 (已範本化)。
- 返回
Asset(資產)
- class airflow.providers.google.cloud.operators.dataplex.DataplexDeleteAssetOperator(project_id, region, lake_id, zone_id, asset_id, api_version='v1', retry=DEFAULT, timeout=None, metadata=(), gcp_conn_id='google_cloud_default', impersonation_chain=None, *args, **kwargs)[source]¶
基底類別:
airflow.providers.google.cloud.operators.cloud_base.GoogleCloudBaseOperator
刪除資產資源。
- 參數
project_id (str) – 必填。任務所屬的 Google Cloud 專案 ID。
region (str) – 必填。任務所屬的 Google Cloud 區域 ID。
lake_id (str) – 必要項目。資產所屬的 Google Cloud Lake ID。
zone_id (str) – 必要項目。區域識別符。
asset_id (str) – 必要項目。資產識別符。
api_version (str) – 將請求的 API 版本,例如 ‘v3’。
retry (google.api_core.retry.Retry | google.api_core.gapic_v1.method._MethodDefault) – 用於重試請求的重試物件。如果指定 None,則不會重試請求。
timeout (float | None) – 等待請求完成的秒數。請注意,如果指定 retry,則逾時適用於每個個別嘗試。
metadata (collections.abc.Sequence[tuple[str, str]]) – 提供給方法的其他中繼資料。
gcp_conn_id (str) – 取得連線資訊時使用的連線 ID。
impersonation_chain (str | collections.abc.Sequence[str] | None) – 選填的服務帳戶,用於使用短期憑證模擬身分,或取得清單中最後一個帳戶的 access_token 所需的鏈結帳戶清單,該帳戶將在請求中模擬身分。 如果設定為字串,則帳戶必須授予原始帳戶「服務帳戶權杖建立者」IAM 角色。 如果設定為序列,則清單中的身分必須將「服務帳戶權杖建立者」IAM 角色授予緊接在前的身分,清單中的第一個帳戶將此角色授予原始帳戶 (已範本化)。
- 返回
無