airflow.providers.apache.spark.operators.spark_sql

模組內容

類別

SparkSqlOperator

執行 Spark SQL 查詢。

class airflow.providers.apache.spark.operators.spark_sql.SparkSqlOperator(*, sql, conf=None, conn_id='spark_sql_default', total_executor_cores=None, executor_cores=None, executor_memory=None, keytab=None, principal=None, master=None, name='default-name', num_executors=None, verbose=True, yarn_queue=None, **kwargs)[原始碼]

基底類別: airflow.models.BaseOperator

執行 Spark SQL 查詢。

參見

如需更多關於如何使用此運算子的資訊,請查看指南: SparkSqlOperator

參數
  • sql (str) – 要執行的 SQL 查詢。(已套用範本)

  • conf (dict[str, Any] | str | None) – 任意 Spark 組態屬性

  • conn_id (str) – connection_id 字串

  • total_executor_cores (int | None) – (僅限獨立模式 & Mesos) 所有執行器的總核心數(預設:worker 上所有可用的核心)

  • executor_cores (int | None) – (僅限獨立模式 & YARN) 每個執行器的核心數(預設:2)

  • executor_memory (str | None) – 每個執行器的記憶體(例如 1000M、2G)(預設:1G)

  • keytab (str | None) – 包含 keytab 的檔案完整路徑

  • master (str | None) – spark://host:port、mesos://host:port、yarn 或 local(預設:連線中設定的 hostport,或 "yarn"

  • name (str) – Job 名稱

  • num_executors (int | None) – 要啟動的執行器數量

  • verbose (bool) – 是否將 verbose 標誌傳遞給 spark-sql

  • yarn_queue (str | None) – 要提交的 YARN 佇列(預設:連線中設定的 queue 值,或 "default"

template_fields: collections.abc.Sequence[str] = ('sql',)[原始碼]
template_ext: collections.abc.Sequence[str] = ('.sql', '.hql')[原始碼]
template_fields_renderers[原始碼]
execute(context)[原始碼]

呼叫 SparkSqlHook 以執行提供的 sql 查詢。

on_kill()[原始碼]

覆寫此方法以在任務實例被終止時清理子程序。

在運算子內使用 threading、subprocess 或 multiprocessing 模組都需要清理,否則會留下孤立程序。

此條目是否有幫助?