`airflow.providers.apache.spark.operators.spark_submit`¶

模組內容¶

類別¶

SparkSubmitOperator

包裝 spark-submit 二進制檔案以啟動 spark-submit 作業；需要在 PATH 中有 "spark-submit" 二進制檔案。

class airflow.providers.apache.spark.operators.spark_submit.SparkSubmitOperator(*, application='', conf=None, conn_id='spark_default', files=None, py_files=None, archives=None, driver_class_path=None, jars=None, java_class=None, packages=None, exclude_packages=None, repositories=None, total_executor_cores=None, executor_cores=None, executor_memory=None, driver_memory=None, keytab=None, principal=None, proxy_user=None, name='arrow-spark', num_executors=None, status_poll_interval=1, application_args=None, env_vars=None, verbose=False, spark_binary=None, properties_file=None, yarn_queue=None, deploy_mode=None, use_krb5ccache=False, **kwargs)[source]¶

Bases: airflow.models.BaseOperator

包裝 spark-submit 二進制檔案以啟動 spark-submit 作業；需要在 PATH 中有 “spark-submit” 二進制檔案。

參見

有關如何使用此運算子的更多資訊，請查看指南： SparkSubmitOperator

參數

application (str) – 作為作業提交的應用程式，可以是 jar 或 py 檔案。(已套用範本)
conf (dict[str, Any] | None) – 任意 Spark 組態屬性 (已套用範本)
conn_id (str) – 在 Airflow 管理介面中設定的 spark 連線 ID。當提供的 connection_id 無效時，將預設為 yarn。
files (str | None) – 將額外檔案上傳到執行作業的執行器，以逗號分隔。檔案將放置在每個執行器的工作目錄中。例如，序列化物件。(已套用範本)
py_files (str | None) – 作業使用的額外 python 檔案，可以是 .zip、.egg 或 .py。(已套用範本)
jars (str | None) – 提交額外的 jar 以進行上傳，並將它們放置在執行器類別路徑中。(已套用範本)
driver_class_path (str | None) – 額外的驅動程式特定類別路徑設定。(已套用範本)
java_class (str | None) – Java 應用程式的主要類別
packages (str | None) – 要包含在驅動程式和執行器類別路徑中的 jar 的 Maven 座標的逗號分隔列表。(已套用範本)
exclude_packages (str | None) – 在解析 ‘packages’ 中提供的相依性時，要排除的 jar 的 Maven 座標的逗號分隔列表 (已套用範本)
repositories (str | None) – 要搜尋以尋找 ‘packages’ 給定的 Maven 座標的其他遠端倉庫的逗號分隔列表
total_executor_cores (int | None) – (僅限獨立和 Mesos) 所有執行器的總核心數（預設：worker 上所有可用的核心）
executor_cores (int | None) – (僅限獨立和 YARN) 每個執行器的核心數（預設：2）
executor_memory (str | None) – 每個執行器的記憶體 (例如 1000M, 2G) (預設：1G)
driver_memory (str | None) – 分配給驅動程式的記憶體 (例如 1000M, 2G) (預設：1G)
keytab (str | None) – 包含 keytab 的檔案完整路徑 (已套用範本) (將覆寫連線額外 JSON 中定義的任何 keytab)
principal (str | None) – 用於 keytab 的 Kerberos principal 名稱 (已套用範本) (將覆寫連線額外 JSON 中定義的任何 principal)
proxy_user (str | None) – 提交應用程式時要模擬的使用者 (已套用範本)
name (str) – 作業名稱 (預設 airflow-spark)。(已套用範本)
num_executors (int | None) – 要啟動的執行器數量
status_poll_interval (int) – 在叢集模式下輪詢驅動程式狀態之間等待的秒數 (預設：1)
application_args (list[Any] | None) – 要提交的應用程式的引數 (已套用範本)
env_vars (dict[str, Any] | None) – spark-submit 的環境變數。它也支援 yarn 和 k8s 模式。(已套用範本)
verbose (bool) – 是否將 verbose 旗標傳遞給 spark-submit 程序以進行偵錯
spark_binary (str | None) – 用於 spark submit 的命令。某些發行版可能會使用 spark2-submit 或 spark3-submit。(將覆寫連線額外 JSON 中定義的任何 spark_binary)
properties_file (str | None) – 從中載入額外屬性的檔案路徑。如果未指定，這將尋找 conf/spark-defaults.conf。
yarn_queue (str | None) – 應用程式提交到的 YARN 佇列名稱。(將覆寫連線額外 JSON 中定義的任何 yarn queue)
deploy_mode (str | None) – 是否要在 worker 節點 (叢集) 上或在本機作為用戶端部署驅動程式。(將覆寫連線額外 JSON 中定義的任何部署模式)
use_krb5ccache (bool) – 如果為 True，則將 spark 配置為使用票證快取，而不是依賴 keytab 進行 Kerberos 登入

template_fields: collections.abc.Sequence[str] = ('application', 'conf', 'files', 'py_files', 'jars', 'driver_class_path', 'packages',...[source]¶

ui_color[source]¶

execute(context)[source]¶

呼叫 SparkSubmitHook 以執行提供的 spark 作業。

on_kill()[source]¶

覆寫此方法以在任務實例被終止時清理子程序。

在運算子內使用 threading、subprocess 或 multiprocessing 模組的任何情況都需要清理，否則會留下孤立程序。

airflow.providers.apache.spark.operators.spark_submit¶

模組內容¶

類別¶

`airflow.providers.apache.spark.operators.spark_submit`¶