Apache Spark 提交連線

Apache Spark 提交連線類型允許透過 `spark-submit` 指令連線到 Apache Spark。

預設連線 ID

Spark 提交和 Spark JDBC hooks 與 operators 預設使用 `spark_default`。

設定連線

主機 (必填)

要連線的主機,它可以是 `local`、`yarn` 或 URL。

Port (選填)

如果主機是 URL,請指定 port。

YARN 佇列 (選填,僅適用於 YARN 應用程式上的 Spark)

應用程式提交至的 YARN 佇列名稱。

部署模式 (選填)

是否要將 driver 部署在 worker 節點 (叢集) 上,或是在本機端作為外部 client (client)。

Spark 二進制檔 (選填)

用於 Spark 提交的指令。某些發行版可能會使用 `spark2-submit`。預設值為 `spark-submit`。僅允許 `spark-submit`、`spark2-submit` 或 `spark3-submit` 作為值。

Kubernetes 命名空間 (選填,僅適用於 Kubernetes 應用程式上的 Spark)

Kubernetes 命名空間 (`spark.kubernetes.namespace`) 用於在多個使用者之間劃分叢集資源 (透過資源配額)。

當在環境變數中指定連線時,您應該使用 URI 語法指定它。

請注意,URI 的所有組件都應該是 URL 編碼的。URI 和 mongo 連線字串並不相同。

例如

export AIRFLOW_CONN_SPARK_DEFAULT='spark://mysparkcluster.com:80?deploy-mode=cluster&spark_binary=command&namespace=kube+namespace'

警告

請確保您信任您的使用者具有設定主機設定的能力,因為這可能會使連線能夠與外部伺服器建立通訊。務必理解,將連線導向惡意伺服器可能會導致嚴重的安全漏洞,包括遇到遠端程式碼執行 (RCE) 攻擊的風險。

此條目是否有幫助?