airflow.providers.databricks.operators.databricks_workflow

模組內容

類別

WorkflowRunMetadata

Databricks 工作流程執行的中繼資料。

DatabricksWorkflowTaskGroup

一個任務群組,它接受任務列表並建立 Databricks 工作流程。

class airflow.providers.databricks.operators.databricks_workflow.WorkflowRunMetadata[原始碼]

Databricks 工作流程執行的中繼資料。

參數
  • run_id – Databricks 工作流程執行的 ID。

  • job_id – Databricks 工作流程任務的 ID。

  • conn_id – 用於連線到 Databricks 的連線 ID。

conn_id: str[原始碼]
job_id: int[原始碼]
run_id: int[原始碼]
class airflow.providers.databricks.operators.databricks_workflow.DatabricksWorkflowTaskGroup(databricks_conn_id, existing_clusters=None, extra_job_params=None, jar_params=None, job_clusters=None, max_concurrent_runs=1, notebook_packages=None, notebook_params=None, python_params=None, spark_submit_params=None, **kwargs)[原始碼]

基底類別:airflow.utils.task_group.TaskGroup

一個任務群組,它接受任務列表並建立 Databricks 工作流程。

DatabricksWorkflowTaskGroup 接受任務列表,並根據這些任務產生的中繼資料建立 Databricks 工作流程。若要使任務符合此 TaskGroup 的資格,它必須包含 _convert_to_databricks_workflow_task 方法。如果任何任務不包含此方法,則 Taskgroup 將在剖析時引發錯誤。

參見

如需如何使用此運算子的詳細資訊,請參閱指南:DatabricksWorkflowTaskGroup

參數
  • databricks_conn_id (str) – 要使用的 databricks 連線名稱。

  • existing_clusters (list[str] | None) – 用於此工作流程的現有叢集列表。

  • extra_job_params (dict[str, Any] | None) – 包含將覆寫預設 Databricks Workflow Job 定義的屬性的字典。

  • jar_params (list[str] | None) – 要傳遞給工作流程的 jar 參數列表。這些參數將傳遞給工作流程中的所有 jar 任務。

  • job_clusters (list[dict] | None) – 用於此工作流程的任務叢集列表。

  • max_concurrent_runs (int) – 此工作流程的最大並行執行次數。

  • notebook_packages (list[dict[str, Any]] | None) – 要安裝的 Python 套件字典列表。在工作流程任務群組層級定義的套件會為其下的每個 notebook 任務安裝。而在 notebook 任務層級定義的套件則會針對特定的 notebook 任務安裝。

  • notebook_params (dict | None) – 要傳遞給工作流程的 notebook 參數字典。這些參數將傳遞給工作流程中的所有 notebook 任務。

  • python_params (list | None) – 要傳遞給工作流程的 python 參數列表。這些參數將傳遞給工作流程中的所有 python 任務。

  • spark_submit_params (list | None) – 要傳遞給工作流程的 spark 提交參數列表。這些參數將傳遞給所有 spark 提交任務。

is_databricks = True[原始碼]
__exit__(_type, _value, _tb)[原始碼]

結束上下文管理器,並將任務新增至單個 _CreateDatabricksWorkflowOperator

此條目是否有幫助?