airflow.providers.yandex.operators.dataproc
¶
模組內容¶
類別¶
在 DataProc 叢集啟動時執行的初始化動作的資料。 |
|
建立 Yandex.Cloud Data Proc 叢集。 |
|
用於處理指定叢集的 DataProc 運算子的基礎類別。 |
|
刪除 Yandex.Cloud Data Proc 叢集。 |
|
在 Data Proc 叢集中執行 Hive 工作。 |
|
在 Data Proc 叢集中執行 Mapreduce 工作。 |
|
在 Data Proc 叢集中執行 Spark 工作。 |
|
在 Data Proc 叢集中執行 Pyspark 工作。 |
- class airflow.providers.yandex.operators.dataproc.InitializationAction[原始碼]¶
在 DataProc 叢集啟動時執行的初始化動作的資料。
- class airflow.providers.yandex.operators.dataproc.DataprocCreateClusterOperator(*, folder_id=None, cluster_name=None, cluster_description='', cluster_image_version=None, ssh_public_keys=None, subnet_id=None, services=('HDFS', 'YARN', 'MAPREDUCE', 'HIVE', 'SPARK'), s3_bucket=None, zone='ru-central1-b', service_account_id=None, masternode_resource_preset=None, masternode_disk_size=None, masternode_disk_type=None, datanode_resource_preset=None, datanode_disk_size=None, datanode_disk_type=None, datanode_count=1, computenode_resource_preset=None, computenode_disk_size=None, computenode_disk_type=None, computenode_count=0, computenode_max_hosts_count=None, computenode_measurement_duration=None, computenode_warmup_duration=None, computenode_stabilization_duration=None, computenode_preemptible=False, computenode_cpu_utilization_target=None, computenode_decommission_timeout=None, connection_id=None, properties=None, enable_ui_proxy=False, host_group_ids=None, security_group_ids=None, log_group_id=None, initialization_actions=None, labels=None, **kwargs)[原始碼]¶
基底類別:
airflow.models.BaseOperator
建立 Yandex.Cloud Data Proc 叢集。
- 參數
folder_id (str | None) – 要在其中建立叢集的資料夾 ID。
cluster_name (str | None) – 叢集名稱。在資料夾內必須是唯一的。
cluster_description (str | None) – 叢集描述。
cluster_image_version (str | None) – 叢集映像檔版本。使用預設值。
ssh_public_keys (str | collections.abc.Iterable[str] | None) – 將部署到已建立的運算執行個體的 SSH 公開金鑰清單。
subnet_id (str | None) – 子網路的 ID。所有 Data Proc 叢集節點將使用同一個子網路。
services (collections.abc.Iterable[str]) – 將安裝到叢集中的服務清單。可能選項:HDFS、YARN、MAPREDUCE、HIVE、TEZ、ZOOKEEPER、HBASE、SQOOP、FLUME、SPARK、SPARK、ZEPPELIN、OOZIE
s3_bucket (str | None) – Yandex.Cloud S3 儲存貯體,用於儲存叢集日誌。如果未指定儲存貯體,工作將無法運作。
zone (str) – 要在其中建立叢集的可使用區域。目前有 ru-central1-a、ru-central1-b 和 ru-central1-c。
service_account_id (str | None) – 叢集的服務帳戶 ID。服務帳戶可以在資料夾內建立。
masternode_resource_preset (str | None) – 叢集主要節點的資源預設值 (CPU+RAM 組態)。
masternode_disk_size (int | None) – 主要節點儲存大小,單位為 GiB。
masternode_disk_type (str | None) – 主要節點儲存類型。可能選項:network-ssd、network-hdd。
datanode_resource_preset (str | None) – 叢集資料節點的資源預設值 (CPU+RAM 組態)。
datanode_disk_size (int | None) – 資料節點儲存大小,單位為 GiB。
datanode_disk_type (str | None) – 資料節點儲存類型。可能選項:network-ssd、network-hdd。
computenode_resource_preset (str | None) – 叢集運算節點的資源預設值 (CPU+RAM 組態)。
computenode_disk_size (int | None) – 運算節點儲存大小,單位為 GiB。
computenode_disk_type (str | None) – 運算節點儲存類型。可能選項:network-ssd、network-hdd。
connection_id (str | None) – Yandex.Cloud Airflow 連線的 ID。
computenode_max_count – 運算自動調整子叢集的最大節點數。
computenode_warmup_duration (int | None) – 執行個體的暖機時間,以秒為單位。在此期間,流量會傳送到執行個體,但不收集執行個體指標。以秒為單位。
computenode_stabilization_duration (int | None) – 在執行個體群組可以減少群組中的執行個體數量之前,進行監控的最短時間 (以秒為單位)。在此期間,即使新的指標值表示應該減少群組大小,群組大小也不會減少。以秒為單位。
computenode_preemptible (bool) – 搶佔式執行個體至少每 24 小時停止一次,並且在其資源被 Compute 需要時可以隨時停止。
computenode_cpu_utilization_target (int | None) – 定義基於執行個體群組的平均 CPU 使用率的自動調整規則。以百分比表示。10-100。預設情況下未設定,並使用預設的自動調整策略。
computenode_decommission_timeout (int | None) – 在向下擴展期間正常解除節點委任的逾時時間。以秒為單位
properties (dict[str, str] | None) – 傳遞到主要節點軟體的屬性。文件: https://cloud.yandex.com/docs/data-proc/concepts/settings-list
enable_ui_proxy (bool) – 啟用 UI Proxy 功能以轉發 Hadoop 元件 Web 介面 文件: https://cloud.yandex.com/docs/data-proc/concepts/ui-proxy
host_group_ids (collections.abc.Iterable[str] | None) – 專用主機群組,用於放置叢集的 VM。文件: https://cloud.yandex.com/docs/compute/concepts/dedicated-host
security_group_ids (collections.abc.Iterable[str] | None) – 使用者安全性群組。文件: https://cloud.yandex.com/docs/data-proc/concepts/network#security-groups
log_group_id (str | None) – 用於寫入日誌的日誌群組 ID。預設情況下,日誌將傳送到預設日誌群組。若要停用雲端日誌傳送,請設定叢集屬性 dataproc:disable_cloud_logging = true 文件: https://cloud.yandex.com/docs/data-proc/concepts/logs
initialization_actions (collections.abc.Iterable[InitializationAction] | None) – 在叢集啟動時執行的一組初始化動作。文件: https://cloud.yandex.com/docs/data-proc/concepts/init-action
labels (dict[str, str] | None) – 叢集標籤,格式為 key:value 配對。每個資源最多 64 個。文件: https://cloud.yandex.com/docs/resource-manager/concepts/labels
- class airflow.providers.yandex.operators.dataproc.DataprocBaseOperator(*, yandex_conn_id=None, cluster_id=None, **kwargs)[原始碼]¶
基底類別:
airflow.models.BaseOperator
用於處理指定叢集的 DataProc 運算子的基礎類別。
- 參數
connection_id – Yandex.Cloud Airflow 連線的 ID。
cluster_id (str | None) – 要移除的叢集 ID。(已範本化)
- template_fields: collections.abc.Sequence[str] = ('cluster_id',)[原始碼]¶
- class airflow.providers.yandex.operators.dataproc.DataprocDeleteClusterOperator(*, connection_id=None, cluster_id=None, **kwargs)[原始碼]¶
基底類別:
DataprocBaseOperator
刪除 Yandex.Cloud Data Proc 叢集。
- 參數
connection_id (str | None) – Yandex.Cloud Airflow 連線的 ID。
cluster_id (str | None) – 要移除的叢集 ID。(已範本化)
- class airflow.providers.yandex.operators.dataproc.DataprocCreateHiveJobOperator(*, query=None, query_file_uri=None, script_variables=None, continue_on_failure=False, properties=None, name='Hive job', cluster_id=None, connection_id=None, **kwargs)[原始碼]¶
基底類別:
DataprocBaseOperator
在 Data Proc 叢集中執行 Hive 工作。
- 參數
query (str | None) – Hive 查詢。
query_file_uri (str | None) – 包含 Hive 查詢的指令碼 URI。可以放在 HDFS 或 S3 中。
properties (dict[str, str] | None) – 屬性名稱到值的對應,用於設定 Hive。
script_variables (dict[str, str] | None) – 查詢變數名稱到值的對應。
continue_on_failure (bool) – 如果查詢失敗,是否繼續執行查詢。
name (str) – 工作的名稱。用於標記。
cluster_id (str | None) – 要在其中執行工作的叢集 ID。如果指定了 Dataproc Hook 物件,將嘗試從該物件取得 ID。(已範本化)
connection_id (str | None) – Yandex.Cloud Airflow 連線的 ID。
- class airflow.providers.yandex.operators.dataproc.DataprocCreateMapReduceJobOperator(*, main_class=None, main_jar_file_uri=None, jar_file_uris=None, archive_uris=None, file_uris=None, args=None, properties=None, name='Mapreduce job', cluster_id=None, connection_id=None, **kwargs)[原始碼]¶
基底類別:
DataprocBaseOperator
在 Data Proc 叢集中執行 Mapreduce 工作。
- 參數
main_jar_file_uri (str | None) – 具有工作的 jar 檔案 URI。可以放在 HDFS 或 S3 中。可以指定以取代 main_class。
main_class (str | None) – 工作的主要類別名稱。可以指定以取代 main_jar_file_uri。
file_uris (collections.abc.Iterable[str] | None) – 工作中使用的檔案 URI。可以放在 HDFS 或 S3 中。
archive_uris (collections.abc.Iterable[str] | None) – 工作中使用的封存檔案 URI。可以放在 HDFS 或 S3 中。
jar_file_uris (collections.abc.Iterable[str] | None) – 工作中使用的 JAR 檔案的 URI。可以放置在 HDFS 或 S3 中。
args (collections.abc.Iterable[str] | None) – 要傳遞給工作的參數。
name (str) – 工作的名稱。用於標記。
cluster_id (str | None) – 要在其中執行工作的叢集 ID。如果指定了 Dataproc Hook 物件,將嘗試從該物件取得 ID。(已範本化)
connection_id (str | None) – Yandex.Cloud Airflow 連線的 ID。
- class airflow.providers.yandex.operators.dataproc.DataprocCreateSparkJobOperator(*, main_class=None, main_jar_file_uri=None, jar_file_uris=None, archive_uris=None, file_uris=None, args=None, properties=None, name='Spark job', cluster_id=None, connection_id=None, packages=None, repositories=None, exclude_packages=None, **kwargs)[source]¶
基底類別:
DataprocBaseOperator
在 Data Proc 叢集中執行 Spark 工作。
- 參數
main_jar_file_uri (str | None) – 包含工作的主要 JAR 檔案的 URI。可以放置在 HDFS 或 S3 中。
main_class (str | None) – 工作的主要類別名稱。
file_uris (collections.abc.Iterable[str] | None) – 工作中使用的檔案 URI。可以放在 HDFS 或 S3 中。
archive_uris (collections.abc.Iterable[str] | None) – 工作中使用的封存檔案 URI。可以放在 HDFS 或 S3 中。
jar_file_uris (collections.abc.Iterable[str] | None) – 工作中使用的 JAR 檔案的 URI。可以放置在 HDFS 或 S3 中。
args (collections.abc.Iterable[str] | None) – 要傳遞給工作的參數。
name (str) – 工作的名稱。用於標記。
cluster_id (str | None) – 要在其中執行工作的叢集 ID。如果指定了 Dataproc Hook 物件,將嘗試從該物件取得 ID。(已範本化)
connection_id (str | None) – Yandex.Cloud Airflow 連線的 ID。
packages (collections.abc.Iterable[str] | None) – 要包含在驅動程式和執行器類別路徑中的 JAR 檔案的 Maven 坐標列表。
repositories (collections.abc.Iterable[str] | None) – 要搜尋使用 `--packages` 給定的 Maven 坐標的其他遠程儲存庫列表。
exclude_packages (collections.abc.Iterable[str] | None) – groupId:artifactId 的列表,用於在解析 `--packages` 中提供的依賴項時排除,以避免依賴衝突。
- class airflow.providers.yandex.operators.dataproc.DataprocCreatePysparkJobOperator(*, main_python_file_uri=None, python_file_uris=None, jar_file_uris=None, archive_uris=None, file_uris=None, args=None, properties=None, name='Pyspark job', cluster_id=None, connection_id=None, packages=None, repositories=None, exclude_packages=None, **kwargs)[source]¶
基底類別:
DataprocBaseOperator
在 Data Proc 叢集中執行 Pyspark 工作。
- 參數
main_python_file_uri (str | None) – 包含工作的 Python 檔案的 URI。可以放置在 HDFS 或 S3 中。
python_file_uris (collections.abc.Iterable[str] | None) – 工作中使用的 Python 檔案的 URI。可以放置在 HDFS 或 S3 中。
file_uris (collections.abc.Iterable[str] | None) – 工作中使用的檔案 URI。可以放在 HDFS 或 S3 中。
archive_uris (collections.abc.Iterable[str] | None) – 工作中使用的封存檔案 URI。可以放在 HDFS 或 S3 中。
jar_file_uris (collections.abc.Iterable[str] | None) – 工作中使用的 JAR 檔案的 URI。可以放置在 HDFS 或 S3 中。
args (collections.abc.Iterable[str] | None) – 要傳遞給工作的參數。
name (str) – 工作的名稱。用於標記。
cluster_id (str | None) – 要在其中執行工作的叢集 ID。如果指定了 Dataproc Hook 物件,將嘗試從該物件取得 ID。(已範本化)
connection_id (str | None) – Yandex.Cloud Airflow 連線的 ID。
packages (collections.abc.Iterable[str] | None) – 要包含在驅動程式和執行器類別路徑中的 JAR 檔案的 Maven 坐標列表。
repositories (collections.abc.Iterable[str] | None) – 要搜尋使用 `--packages` 給定的 Maven 坐標的其他遠程儲存庫列表。
exclude_packages (collections.abc.Iterable[str] | None) – groupId:artifactId 的列表,用於在解析 `--packages` 中提供的依賴項時排除,以避免依賴衝突。