airflow.providers.databricks.operators.databricks_workflow
¶
模組內容¶
類別¶
Databricks 工作流程執行的中繼資料。 |
|
一個任務群組,它接受任務列表並建立 Databricks 工作流程。 |
- class airflow.providers.databricks.operators.databricks_workflow.WorkflowRunMetadata[原始碼]¶
Databricks 工作流程執行的中繼資料。
- 參數
run_id – Databricks 工作流程執行的 ID。
job_id – Databricks 工作流程任務的 ID。
conn_id – 用於連線到 Databricks 的連線 ID。
- class airflow.providers.databricks.operators.databricks_workflow.DatabricksWorkflowTaskGroup(databricks_conn_id, existing_clusters=None, extra_job_params=None, jar_params=None, job_clusters=None, max_concurrent_runs=1, notebook_packages=None, notebook_params=None, python_params=None, spark_submit_params=None, **kwargs)[原始碼]¶
基底類別:
airflow.utils.task_group.TaskGroup
一個任務群組,它接受任務列表並建立 Databricks 工作流程。
DatabricksWorkflowTaskGroup 接受任務列表,並根據這些任務產生的中繼資料建立 Databricks 工作流程。若要使任務符合此 TaskGroup 的資格,它必須包含
_convert_to_databricks_workflow_task
方法。如果任何任務不包含此方法,則 Taskgroup 將在剖析時引發錯誤。參見
如需如何使用此運算子的詳細資訊,請參閱指南:DatabricksWorkflowTaskGroup
- 參數
databricks_conn_id (str) – 要使用的 databricks 連線名稱。
extra_job_params (dict[str, Any] | None) – 包含將覆寫預設 Databricks Workflow Job 定義的屬性的字典。
jar_params (list[str] | None) – 要傳遞給工作流程的 jar 參數列表。這些參數將傳遞給工作流程中的所有 jar 任務。
max_concurrent_runs (int) – 此工作流程的最大並行執行次數。
notebook_packages (list[dict[str, Any]] | None) – 要安裝的 Python 套件字典列表。在工作流程任務群組層級定義的套件會為其下的每個 notebook 任務安裝。而在 notebook 任務層級定義的套件則會針對特定的 notebook 任務安裝。
notebook_params (dict | None) – 要傳遞給工作流程的 notebook 參數字典。這些參數將傳遞給工作流程中的所有 notebook 任務。
python_params (list | None) – 要傳遞給工作流程的 python 參數列表。這些參數將傳遞給工作流程中的所有 python 任務。
spark_submit_params (list | None) – 要傳遞給工作流程的 spark 提交參數列表。這些參數將傳遞給所有 spark 提交任務。