組態參考

此頁面包含 apache-airflow-providers-openlineage 提供者的所有可用 Airflow 組態列表,這些組態可以在 airflow.cfg 檔案中設定,或使用環境變數設定。

注意

嵌入在提供者套件中的組態從 Airflow 2.7.0 開始使用。 之前,組態是在 Airflow 核心套件中描述和設定的 - 因此,如果您使用的 Airflow 版本低於 2.7.0,請查看 Airflow 文件,以取得 Airflow 核心中可用的組態選項列表。

注意

如需更多資訊,請參閱 設定組態選項

章節

[openlineage]

此章節適用於 OpenLineage 整合的設定。 有關組態及其優先順序的更多資訊,請參閱 https://airflow.dev.org.tw/docs/apache-airflow-providers-openlineage/stable/guides/user.html#transport-setup

config_path

指定 YAML 組態檔案的路徑。 這確保了與通過 openlineage.yml 檔案傳遞組態的回溯相容性。

類型

字串

預設值

''

環境變數

AIRFLOW__OPENLINEAGE__CONFIG_PATH

範例

full/path/to/openlineage.yml

custom_run_facets

版本 1.10.0 新增。

通過傳遞分號分隔的完整導入路徑字串來註冊自訂執行階段刻面函數。

類型

字串

預設值

''

環境變數

AIRFLOW__OPENLINEAGE__CUSTOM_RUN_FACETS

範例

full.path.to.custom_facet_function;full.path.to.another_custom_facet_function

dag_state_change_process_pool_size

版本 1.8.0 新增。

用於在排程器進程中以非同步方式處理 DAG 狀態變更的進程數量。

類型

整數

預設值

1

環境變數

AIRFLOW__OPENLINEAGE__DAG_STATE_CHANGE_PROCESS_POOL_SIZE

debug_mode

版本 1.11.0 新增。

如果為 true,OpenLineage 事件將包含對偵錯有用的資訊 - 可能包含大型欄位,例如所有已安裝的套件及其版本。

類型

布林值

預設值

False

環境變數

AIRFLOW__OPENLINEAGE__DEBUG_MODE

disable_source_code

將此設定為 true 可停用在 OpenLineage 事件中包含原始碼。 預設情況下,除非停用,否則幾個運算子(例如 Python、Bash)將在其事件中包含其原始碼。

類型

布林值

預設值

False

環境變數

AIRFLOW__OPENLINEAGE__DISABLE_SOURCE_CODE

disabled

將此設定為 true 可停用傳送事件,而無需解除安裝 OpenLineage Provider。

類型

布林值

預設值

False

環境變數

AIRFLOW__OPENLINEAGE__DISABLED

disabled_for_operators

版本 1.1.0 新增。

通過傳遞分號分隔的要停用的運算子完整導入路徑字串,從發出 OpenLineage 事件中排除某些運算子。

類型

字串

預設值

''

環境變數

AIRFLOW__OPENLINEAGE__DISABLED_FOR_OPERATORS

範例

airflow.providers.standard.operators.bash.BashOperator; airflow.providers.standard.operators.python.PythonOperator

execution_timeout

版本 1.9.0 新增。

OpenLineage 可以花費在執行中繼資料提取的最長時間(以秒為單位)。

類型

整數

預設值

10

環境變數

AIRFLOW__OPENLINEAGE__EXECUTION_TIMEOUT

extractors

通過傳遞分號分隔的完整導入路徑字串來註冊自訂 OpenLineage 提取器。

類型

字串

預設值

None

環境變數

AIRFLOW__OPENLINEAGE__EXTRACTORS

範例

full.path.to.ExtractorClass;full.path.to.AnotherExtractorClass

include_full_task_info

版本 1.10.0 新增。

如果為 true,OpenLineage 事件將包含完整的任務資訊 - 可能包含大型欄位。

類型

布林值

預設值

False

環境變數

AIRFLOW__OPENLINEAGE__INCLUDE_FULL_TASK_INFO

namespace

設定譜系資料所屬的命名空間,以便在您使用多個 OpenLineage 生產者時,邏輯上分隔來自它們的事件。

類型

字串

預設值

None

環境變數

AIRFLOW__OPENLINEAGE__NAMESPACE

範例

my_airflow_instance_1

selective_enable

版本 1.7.0 新增。

如果啟用此設定,除非您使用 enable_lineage 方法在 DAGTask 中明確啟用它,否則 OpenLineage 整合將不會收集和發出中繼資料。

類型

布林值

預設值

False

環境變數

AIRFLOW__OPENLINEAGE__SELECTIVE_ENABLE

spark_inject_parent_job_info

版本 1.15.0 新增。

對於支援的運算子,自動將 OpenLineage 的父任務(命名空間、任務名稱、執行 ID)資訊注入到 Spark 應用程式屬性中。

類型

布林值

預設值

False

環境變數

AIRFLOW__OPENLINEAGE__SPARK_INJECT_PARENT_JOB_INFO

transport

以 JSON 字串形式傳遞 OpenLineage Client 傳輸組態。 它應包含傳輸類型和其他選項(每種傳輸類型都不同)。 有關更多詳細資訊,請參閱:https://openlineage.io/docs/client/python/#built-in-transport-types

目前支援的類型為

  • HTTP

  • Kafka

  • Console

  • File

類型

字串

預設值

''

環境變數

AIRFLOW__OPENLINEAGE__TRANSPORT

範例

{"type": "http", "url": "https://127.0.0.1:5000", "endpoint": "api/v1/lineage"}

此條目是否有幫助?