airflow.providers.microsoft.azure.operators.synapse

模組內容

類別

AzureSynapseRunSparkBatchOperator

在 Azure Synapse 上執行 Spark 作業。

AzureSynapsePipelineRunLink

建構連結以監控 Azure Synapse 中的管線執行。

AzureSynapseRunPipelineOperator

執行 Synapse 管線。

class airflow.providers.microsoft.azure.operators.synapse.AzureSynapseRunSparkBatchOperator(*, azure_synapse_conn_id=AzureSynapseHook.default_conn_name, wait_for_termination=True, spark_pool='', payload, timeout=60 * 60 * 24 * 7, check_interval=60, **kwargs)[source]

基底: airflow.models.BaseOperator

在 Azure Synapse 上執行 Spark 作業。

參數
  • azure_synapse_conn_id (str) – 連接至 Azure Synapse 的連線識別碼。

  • wait_for_termination (bool) – 等待作業執行的終止標誌。

  • spark_pool (str) – 用於提交作業的目標 synapse spark 集區

  • payload (azure.synapse.spark.models.SparkBatchJobOptions) – Livy 相容的酬載,表示使用者想要提交的 spark 作業

  • timeout (int) – 等待作業達到非同步等待的終端狀態的時間(秒)。僅當 wait_for_termination 為 True 時使用。

  • check_interval (int) – 檢查非同步等待的作業執行狀態的時間間隔(秒)。僅當 wait_for_termination 為 True 時使用。

template_fields: collections.abc.Sequence[str] = ('azure_synapse_conn_id', 'spark_pool')[source]
template_fields_renderers[source]
ui_color = '#0678d4'[source]
hook()[source]

建立並傳回 AzureSynapseHook (已快取)。

execute(context)[source]

在建立運算子時衍生。

Context 是與呈現 jinja 範本時使用的相同字典。

請參閱 get_template_context 以取得更多上下文。

on_kill()[source]

覆寫此方法以在任務實例被終止時清除子程序。

在運算子內使用 threading、subprocess 或 multiprocessing 模組的任何情況都需要清除,否則會留下幽靈程序。

基底: airflow.models.BaseOperatorLink

建構連結以監控 Azure Synapse 中的管線執行。

name = '監控管線執行'[source]
get_fields_from_url(workspace_url)[source]

從 Synapse 工作區 URL 提取 workspace_name、subscription_id 和 resource_group。

參數

workspace_url – 工作區 URL。

連結到外部系統。

注意:此函數的舊簽名為 (self, operator, dttm: datetime)。在運行時仍支援,但已棄用。

參數
  • operator (airflow.models.BaseOperator) – 此連結關聯的 Airflow 運算子物件。

  • ti_key (airflow.models.taskinstancekey.TaskInstanceKey) – TaskInstance ID 以傳回連結。

傳回

連結到外部系統

class airflow.providers.microsoft.azure.operators.synapse.AzureSynapseRunPipelineOperator(pipeline_name, azure_synapse_conn_id, azure_synapse_workspace_dev_endpoint, wait_for_termination=True, reference_pipeline_run_id=None, is_recovery=None, start_activity_name=None, parameters=None, timeout=60 * 60 * 24 * 7, check_interval=60, **kwargs)[source]

基底: airflow.models.BaseOperator

執行 Synapse 管線。

參數
  • pipeline_name (str) – 要執行的管線名稱。

  • azure_synapse_conn_id (str) – Azure Synapse 的 Airflow 連線 ID。

  • azure_synapse_workspace_dev_endpoint (str) – Azure Synapse 工作區開發端點。

  • wait_for_termination (bool) – 等待管線執行的終止標誌。

  • reference_pipeline_run_id (str | None) – 管線執行識別碼。如果指定此執行 ID,則指定執行的參數將用於建立新的執行。

  • is_recovery (bool | None) – 復原模式標誌。如果復原模式設定為 True,則指定的參考管線執行和新執行將在相同的 groupId 下分組。

  • start_activity_name (str | None) – 在復原模式下,重新執行將從此活動開始。如果未指定,則將執行所有活動。

  • parameters (dict[str, Any] | None) – 管線執行的參數。這些參數在管線中透過 @pipeline().parameters.parameterName 引用,並且僅在未指定 reference_pipeline_run_id 時使用。

  • timeout (int) – 等待管線達到非同步等待的終端狀態的時間(秒)。僅當 wait_for_termination 為 True 時使用。

  • check_interval (int) – 檢查非同步等待的管線執行狀態的時間間隔(秒)。僅當 wait_for_termination 為 True 時使用。

template_fields: collections.abc.Sequence[str] = ('azure_synapse_conn_id',)[source]
hook()[source]

建立並傳回 AzureSynapsePipelineHook (已快取)。

execute(context)[source]

在建立運算子時衍生。

Context 是與呈現 jinja 範本時使用的相同字典。

請參閱 get_template_context 以取得更多上下文。

execute_complete(event)[source]

立即傳回 - 觸發器觸發時的回呼。

依賴觸發器拋出例外,否則它會假設執行成功。

on_kill()[source]

覆寫此方法以在任務實例被終止時清除子程序。

在運算子內使用 threading、subprocess 或 multiprocessing 模組的任何情況都需要清除,否則會留下幽靈程序。

此條目是否有幫助?