組態參考¶
此頁面包含 apache-airflow-providers-openlineage
提供者的所有可用 Airflow 組態列表,這些組態可以在 airflow.cfg
檔案中設定,或使用環境變數設定。
注意
嵌入在提供者套件中的組態從 Airflow 2.7.0 開始使用。 之前,組態是在 Airflow 核心套件中描述和設定的 - 因此,如果您使用的 Airflow 版本低於 2.7.0,請查看 Airflow 文件,以取得 Airflow 核心中可用的組態選項列表。
注意
如需更多資訊,請參閱 設定組態選項。
[openlineage]¶
此章節適用於 OpenLineage 整合的設定。 有關組態及其優先順序的更多資訊,請參閱 https://airflow.dev.org.tw/docs/apache-airflow-providers-openlineage/stable/guides/user.html#transport-setup
config_path¶
指定 YAML 組態檔案的路徑。 這確保了與通過 openlineage.yml 檔案傳遞組態的回溯相容性。
- 類型
字串
- 預設值
''
- 環境變數
AIRFLOW__OPENLINEAGE__CONFIG_PATH
- 範例
full/path/to/openlineage.yml
custom_run_facets¶
版本 1.10.0 新增。
通過傳遞分號分隔的完整導入路徑字串來註冊自訂執行階段刻面函數。
- 類型
字串
- 預設值
''
- 環境變數
AIRFLOW__OPENLINEAGE__CUSTOM_RUN_FACETS
- 範例
full.path.to.custom_facet_function;full.path.to.another_custom_facet_function
dag_state_change_process_pool_size¶
版本 1.8.0 新增。
用於在排程器進程中以非同步方式處理 DAG 狀態變更的進程數量。
- 類型
整數
- 預設值
1
- 環境變數
AIRFLOW__OPENLINEAGE__DAG_STATE_CHANGE_PROCESS_POOL_SIZE
debug_mode¶
版本 1.11.0 新增。
如果為 true,OpenLineage 事件將包含對偵錯有用的資訊 - 可能包含大型欄位,例如所有已安裝的套件及其版本。
- 類型
布林值
- 預設值
False
- 環境變數
AIRFLOW__OPENLINEAGE__DEBUG_MODE
disable_source_code¶
將此設定為 true 可停用在 OpenLineage 事件中包含原始碼。 預設情況下,除非停用,否則幾個運算子(例如 Python、Bash)將在其事件中包含其原始碼。
- 類型
布林值
- 預設值
False
- 環境變數
AIRFLOW__OPENLINEAGE__DISABLE_SOURCE_CODE
disabled¶
將此設定為 true 可停用傳送事件,而無需解除安裝 OpenLineage Provider。
- 類型
布林值
- 預設值
False
- 環境變數
AIRFLOW__OPENLINEAGE__DISABLED
disabled_for_operators¶
版本 1.1.0 新增。
通過傳遞分號分隔的要停用的運算子完整導入路徑字串,從發出 OpenLineage 事件中排除某些運算子。
- 類型
字串
- 預設值
''
- 環境變數
AIRFLOW__OPENLINEAGE__DISABLED_FOR_OPERATORS
- 範例
airflow.providers.standard.operators.bash.BashOperator; airflow.providers.standard.operators.python.PythonOperator
execution_timeout¶
版本 1.9.0 新增。
OpenLineage 可以花費在執行中繼資料提取的最長時間(以秒為單位)。
- 類型
整數
- 預設值
10
- 環境變數
AIRFLOW__OPENLINEAGE__EXECUTION_TIMEOUT
extractors¶
通過傳遞分號分隔的完整導入路徑字串來註冊自訂 OpenLineage 提取器。
- 類型
字串
- 預設值
None
- 環境變數
AIRFLOW__OPENLINEAGE__EXTRACTORS
- 範例
full.path.to.ExtractorClass;full.path.to.AnotherExtractorClass
include_full_task_info¶
版本 1.10.0 新增。
如果為 true,OpenLineage 事件將包含完整的任務資訊 - 可能包含大型欄位。
- 類型
布林值
- 預設值
False
- 環境變數
AIRFLOW__OPENLINEAGE__INCLUDE_FULL_TASK_INFO
namespace¶
設定譜系資料所屬的命名空間,以便在您使用多個 OpenLineage 生產者時,邏輯上分隔來自它們的事件。
- 類型
字串
- 預設值
None
- 環境變數
AIRFLOW__OPENLINEAGE__NAMESPACE
- 範例
my_airflow_instance_1
selective_enable¶
版本 1.7.0 新增。
如果啟用此設定,除非您使用 enable_lineage 方法在 DAG 或 Task 中明確啟用它,否則 OpenLineage 整合將不會收集和發出中繼資料。
- 類型
布林值
- 預設值
False
- 環境變數
AIRFLOW__OPENLINEAGE__SELECTIVE_ENABLE
spark_inject_parent_job_info¶
版本 1.15.0 新增。
對於支援的運算子,自動將 OpenLineage 的父任務(命名空間、任務名稱、執行 ID)資訊注入到 Spark 應用程式屬性中。
- 類型
布林值
- 預設值
False
- 環境變數
AIRFLOW__OPENLINEAGE__SPARK_INJECT_PARENT_JOB_INFO
transport¶
以 JSON 字串形式傳遞 OpenLineage Client 傳輸組態。 它應包含傳輸類型和其他選項(每種傳輸類型都不同)。 有關更多詳細資訊,請參閱:https://openlineage.io/docs/client/python/#built-in-transport-types
目前支援的類型為
HTTP
Kafka
Console
File
- 類型
字串
- 預設值
''
- 環境變數
AIRFLOW__OPENLINEAGE__TRANSPORT
- 範例
{"type": "http", "url": "https://127.0.0.1:5000", "endpoint": "api/v1/lineage"}