Apache Spark 提交連線¶
Apache Spark 提交連線類型允許透過 `spark-submit
` 指令連線到 Apache Spark。
預設連線 ID¶
Spark 提交和 Spark JDBC hooks 與 operators 預設使用 `spark_default
`。
設定連線¶
- 主機 (必填)
要連線的主機,它可以是 `
local
`、`yarn
` 或 URL。- Port (選填)
如果主機是 URL,請指定 port。
- YARN 佇列 (選填,僅適用於 YARN 應用程式上的 Spark)
應用程式提交至的 YARN 佇列名稱。
- 部署模式 (選填)
是否要將 driver 部署在 worker 節點 (叢集) 上,或是在本機端作為外部 client (client)。
- Spark 二進制檔 (選填)
用於 Spark 提交的指令。某些發行版可能會使用 `
spark2-submit
`。預設值為 `spark-submit
`。僅允許 `spark-submit
`、`spark2-submit
` 或 `spark3-submit
` 作為值。- Kubernetes 命名空間 (選填,僅適用於 Kubernetes 應用程式上的 Spark)
Kubernetes 命名空間 (`
spark.kubernetes.namespace
`) 用於在多個使用者之間劃分叢集資源 (透過資源配額)。
當在環境變數中指定連線時,您應該使用 URI 語法指定它。
請注意,URI 的所有組件都應該是 URL 編碼的。URI 和 mongo 連線字串並不相同。
例如
export AIRFLOW_CONN_SPARK_DEFAULT='spark://mysparkcluster.com:80?deploy-mode=cluster&spark_binary=command&namespace=kube+namespace'
警告
請確保您信任您的使用者具有設定主機設定的能力,因為這可能會使連線能夠與外部伺服器建立通訊。務必理解,將連線導向惡意伺服器可能會導致嚴重的安全漏洞,包括遇到遠端程式碼執行 (RCE) 攻擊的風險。