apache-airflow-providers-apache-beam

更新日誌

6.0.0

注意

Apache Airflow providers 支援政策 中所述,此供應商版本僅適用於 Airflow 2.9+。

重大變更

警告

所有已棄用的類別、參數和功能都已從 Airbyte 供應商套件中移除。引入了以下重大變更

  • trigger 中移除 BeamPipelineTrigger 類別。請改用 class:`airflow.providers.apache.beam.triggers.beam.BeamPythonPipelineTrigger` 類別。

  • 移除 已棄用的 程式碼 (#44700)

錯誤修正

  • 修正 BeamRunPythonPipelineOperator 的可延遲 模式 (#44386)

其他

  • providers 中的 最低 Airflow 版本 提升 Airflow 2.9.0 (#44956)

  • 更新 多個 providers 文件中的 DAG 範例 連結 (#44034)

5.9.1

其他

  • 標準 provider python 運算子 (#42081)

5.9.0

功能

  • google provider Beam Pipeline 運算子 新增 early job_id xcom_push (#42982)

5.8.1

錯誤修正

  • Bugfix/dataflow job location 傳遞 (#41887)

5.8.0

注意

Apache Airflow providers 支援政策 中所述,此供應商版本僅適用於 Airflow 2.8+。

其他

  • providers 中的 最低 Airflow 版本 提升 Airflow 2.8.0 (#41396)

5.7.2

錯誤修正

  • 修正 未設定 job_name BeamRunJavaPipelineOperator 失敗的問題 (#40645)

5.7.1

錯誤修正

  • 修正 BeamRunJavaPipelineOperator 的可延遲 模式 (#39371)

其他

  • 更快速的 'airflow_version' 匯入 (#39552)

  • 簡化 'airflow_version' 匯入 (#39497)

5.7.0

注意

Apache Airflow providers 支援政策 中所述,此供應商版本僅適用於 Airflow 2.7+。

錯誤修正

  • 修正 即使在使用 BeamRunPythonPipelineOperator 時不需要 也呼叫 GCSHook 的錯誤 (#38716)

其他

  • providers 中的 最低 Airflow 版本 提升 Airflow 2.7.0 (#39240)

5.6.3

錯誤修正

  • fix: 如果 值設定為 false ,則略過 apache beam pipeline 選項 (#38496)

  • 修正 Beam 運算子中 預設 選項的 副作用 (#37916)

  • 避免 asyncio 迴圈中使用 subprocess (#38292)

  • 避免 Apache Beam 運算子的 建構子中 變更 屬性 (#37934)

5.6.2

其他

  • providers/pyproject.toml 中新增 Python 3.12 排除項 (#37404)

5.6.1

其他

  • feat: 將所有 類別、函數、方法 棄用 切換至 裝飾器 (#36876)

5.6.0

其他

  • 擺脫 CVE-2023-47248 pyarrow-hotfix (#36697)

5.5.0

功能

  • BeamRunPythonPipelineOperator 在非 deferrable 模式中新增 執行 串流 Job 的能力 (#36108)

  • BeamRunJavaPipelineOperator 實作 可延遲 模式 (#36122)

5.4.0

注意

Apache Airflow providers 支援政策 中所述,此供應商版本僅適用於 Airflow 2.6+。

其他

  • providers 中的 最低 Airflow 版本 提升 Airflow 2.6.0 (#36017)

5.3.0

注意

Apache Airflow providers 支援政策 中所述,此供應商版本僅適用於 Airflow 2.5+。

其他

  • 提升 providers 最低 airflow 版本 (#34728)

  • providers 中使用 'airflow.exceptions.AirflowException' (#34511)

5.2.3

其他

  • Airflow providers 中以 解包 取代 序列 串連 (#33933)

  • 透過 Airflow providers 中的 某些 模組 匯入 類型檢查區塊 來改善模組匯入 (#33754)

5.2.2

錯誤修正

  • 修正 評估 beam 版本 < 2.39.0 時的 錯誤 OR 條件 (#33308)

其他

  • 重構: 簡化 Apache/Alibaba providers 中的 程式碼 (#33227)

5.2.1

其他

  • 允許 'BeamRunPythonPipelineOperator' 中從 GCS 下載 requirements 檔案 (#31645)

5.2.0

功能

  • 'BeamRunPythonPipelineOperator' 新增 可延遲 模式 (#31471)

5.1.1

注意

此版本已移除對 Python 3.7 的支援

其他

  • 新增 關於 providers 移除 Python 3.7 支援的 注意事項 (#32015)

5.1.0

注意

Apache Airflow providers 支援政策 中所述,此供應商版本僅適用於 Airflow 2.4+。

其他

  • providers 中的 最低 Airflow 版本 提升 (#30917)

  • 更新 google provider 套件的 SDK (#30067)

5.0.0

重大變更

警告

在此供應商版本中,所有 Beam 運算子都已移除已棄用的 GCS 和 Dataflow hooks 的參數 delegate_to。可以改用 impersonation_chain 參數來達成模擬。

  • GCP 運算子和 hooks 中移除 delegate_to (#30748)

4.3.0

功能

  • 擺脫 Apache Beam provider hook 中的 狀態 (#29503)

4.2.0

功能

  • 新增 支援以可執行二進位檔執行 Beam Go pipeline (#28764)

其他

  • 棄用 GCP 運算子中的 'delegate_to' 參數並更新文件 (#29088)

4.1.1

錯誤修正

  • 確保 GCS 下載的 Beam Go 檔案在被參考時仍然存在 (#28664)

4.1.0

注意

Apache Airflow providers 支援政策 中所述,此供應商版本僅適用於 Airflow 2.3+。

其他

  • 所有 providers 最低 airflow 版本 移至 2.3.0 (#27196)

功能

  • 新增 與舊版 Apache Beam 的回溯相容性 (#27263)

4.0.0

重大變更

注意

Apache Airflow providers 支援政策 中所述,此供應商版本僅適用於 Airflow 2.2+。

功能

  • wait_for_job 新增遺失的 project_id (#24020)

  • 支援 Dataflow runner 模擬服務帳戶 參數 (#23961)

其他

  • chore: 重構和清理 Apache Providers (#24219)

3.4.0

功能

  • 支援 Apache beam dataflow serviceAccount 屬性

3.3.0

功能

  • BeamRunGoPipelineOperator 新增 配方 (#22296)

錯誤修正

  • 修正 錯誤地為所有 providers 新增 install_requires 的問題 (#22382)

3.2.1

其他

  • PyPI 中新增 Trove 分類器 (Framework :: Apache Airflow :: Provider)

3.2.0

功能

  • 新增 BeamGoPipelineOperator 的支援 (#20386)

其他

  • 支援 Python 3.10

3.1.0

功能

  • subprocess 中執行 beam 命令時使用 google cloud 憑證 (#18992)

3.0.1

其他

  • 最佳化 Airflow 2.2.0 的連線匯入

3.0.0

重大變更

  • 自動套用 apply_default 裝飾器 (#15667)

警告

由於移除了 apply_default 裝飾器,此供應商版本需要 Airflow 2.1.0+。如果您的 Airflow 版本低於 2.1.0,並且您想要安裝此供應商版本,請先將 Airflow 升級至至少 2.1.0 版本。否則,您的 Airflow 套件版本將自動升級,您必須手動執行 airflow upgrade db 以完成移轉。

2.0.0

重大變更

google provider 的整合

在 2.0.0 版本的 provider 中,我們變更了與 google provider 整合的方式。先前版本的 provider 在嘗試使用 PIP > 20.2.4 一起安裝時會造成衝突。PIP 20.2.4 及更低版本無法偵測到衝突,但衝突確實存在,且 Google BigQuery python client 的版本在兩端不符。因此,當同時安裝 apache.beamgoogle provider 時,BigQuery 運算子的某些功能可能無法正常運作。這是因為當使用 apache-beam[gcp] extra 時,apache-beam client 尚不支援新的 google python clients。Dataflow 運算子使用 apache-beam[gcp] extra,雖然它們可以使用較新版本的 Google BigQuery python client 運作,但無法保證。

此版本為 google provider 的 apache.beam extra 引入了額外的 extra requirement,並對稱地為 apache.beam provider 的 google extra 引入了額外的 requirement。googleapache.beam provider 預設都不使用這些 extras,但您可以在安裝 providers 時指定它們。這樣做的後果是 Dataflow 運算子的某些功能可能無法使用。

遺憾的是,解決此問題的唯一 完整 方案是讓 apache.beam 移轉至新的 (>=2.0.0) Google Python clients。

這是 google provider 的 extra

extras_require = (
    {
        # ...
        "apache.beam": ["apache-airflow-providers-apache-beam", "apache-beam[gcp]"],
        # ...
    },
)

同樣地,這是 apache.beam provider 的 extra

extras_require = ({"google": ["apache-airflow-providers-google", "apache-beam[gcp]"]},)

您仍然可以使用 PIP 版本 <= 20.2.4 執行此操作,並回復到先前的行為

pip install apache-airflow-providers-google[apache.beam]

pip install apache-airflow-providers-apache-beam[google]

但請注意,在這種情況下,某些 BigQuery 運算子功能可能無法使用。

1.0.1

錯誤修正

  • 改善 Apache Beam 運算子 - 重構 運算子 - 常見 Dataflow 邏輯 (#14094)

  • 發布 provider RC 後的文件和工具更正 (#14082)

  • BeamHook 移除 WARNING 訊息 (#14554)

1.0.0

provider 的初始版本。

此條目是否有幫助?