airflow.providers.yandex.operators.dataproc

模組內容

類別

InitializationAction

在 DataProc 叢集啟動時執行的初始化動作的資料。

DataprocCreateClusterOperator

建立 Yandex.Cloud Data Proc 叢集。

DataprocBaseOperator

用於處理指定叢集的 DataProc 運算子的基礎類別。

DataprocDeleteClusterOperator

刪除 Yandex.Cloud Data Proc 叢集。

DataprocCreateHiveJobOperator

在 Data Proc 叢集中執行 Hive 工作。

DataprocCreateMapReduceJobOperator

在 Data Proc 叢集中執行 Mapreduce 工作。

DataprocCreateSparkJobOperator

在 Data Proc 叢集中執行 Spark 工作。

DataprocCreatePysparkJobOperator

在 Data Proc 叢集中執行 Pyspark 工作。

class airflow.providers.yandex.operators.dataproc.InitializationAction[原始碼]

在 DataProc 叢集啟動時執行的初始化動作的資料。

uri: str[原始碼]
args: collections.abc.Iterable[str][原始碼]
timeout: int[原始碼]
class airflow.providers.yandex.operators.dataproc.DataprocCreateClusterOperator(*, folder_id=None, cluster_name=None, cluster_description='', cluster_image_version=None, ssh_public_keys=None, subnet_id=None, services=('HDFS', 'YARN', 'MAPREDUCE', 'HIVE', 'SPARK'), s3_bucket=None, zone='ru-central1-b', service_account_id=None, masternode_resource_preset=None, masternode_disk_size=None, masternode_disk_type=None, datanode_resource_preset=None, datanode_disk_size=None, datanode_disk_type=None, datanode_count=1, computenode_resource_preset=None, computenode_disk_size=None, computenode_disk_type=None, computenode_count=0, computenode_max_hosts_count=None, computenode_measurement_duration=None, computenode_warmup_duration=None, computenode_stabilization_duration=None, computenode_preemptible=False, computenode_cpu_utilization_target=None, computenode_decommission_timeout=None, connection_id=None, properties=None, enable_ui_proxy=False, host_group_ids=None, security_group_ids=None, log_group_id=None, initialization_actions=None, labels=None, **kwargs)[原始碼]

基底類別: airflow.models.BaseOperator

建立 Yandex.Cloud Data Proc 叢集。

參數
  • folder_id (str | None) – 要在其中建立叢集的資料夾 ID。

  • cluster_name (str | None) – 叢集名稱。在資料夾內必須是唯一的。

  • cluster_description (str | None) – 叢集描述。

  • cluster_image_version (str | None) – 叢集映像檔版本。使用預設值。

  • ssh_public_keys (str | collections.abc.Iterable[str] | None) – 將部署到已建立的運算執行個體的 SSH 公開金鑰清單。

  • subnet_id (str | None) – 子網路的 ID。所有 Data Proc 叢集節點將使用同一個子網路。

  • services (collections.abc.Iterable[str]) – 將安裝到叢集中的服務清單。可能選項:HDFS、YARN、MAPREDUCE、HIVE、TEZ、ZOOKEEPER、HBASE、SQOOP、FLUME、SPARK、SPARK、ZEPPELIN、OOZIE

  • s3_bucket (str | None) – Yandex.Cloud S3 儲存貯體,用於儲存叢集日誌。如果未指定儲存貯體,工作將無法運作。

  • zone (str) – 要在其中建立叢集的可使用區域。目前有 ru-central1-a、ru-central1-b 和 ru-central1-c。

  • service_account_id (str | None) – 叢集的服務帳戶 ID。服務帳戶可以在資料夾內建立。

  • masternode_resource_preset (str | None) – 叢集主要節點的資源預設值 (CPU+RAM 組態)。

  • masternode_disk_size (int | None) – 主要節點儲存大小,單位為 GiB。

  • masternode_disk_type (str | None) – 主要節點儲存類型。可能選項:network-ssd、network-hdd。

  • datanode_resource_preset (str | None) – 叢集資料節點的資源預設值 (CPU+RAM 組態)。

  • datanode_disk_size (int | None) – 資料節點儲存大小,單位為 GiB。

  • datanode_disk_type (str | None) – 資料節點儲存類型。可能選項:network-ssd、network-hdd。

  • computenode_resource_preset (str | None) – 叢集運算節點的資源預設值 (CPU+RAM 組態)。

  • computenode_disk_size (int | None) – 運算節點儲存大小,單位為 GiB。

  • computenode_disk_type (str | None) – 運算節點儲存類型。可能選項:network-ssd、network-hdd。

  • connection_id (str | None) – Yandex.Cloud Airflow 連線的 ID。

  • computenode_max_count – 運算自動調整子叢集的最大節點數。

  • computenode_warmup_duration (int | None) – 執行個體的暖機時間,以秒為單位。在此期間,流量會傳送到執行個體,但不收集執行個體指標。以秒為單位。

  • computenode_stabilization_duration (int | None) – 在執行個體群組可以減少群組中的執行個體數量之前,進行監控的最短時間 (以秒為單位)。在此期間,即使新的指標值表示應該減少群組大小,群組大小也不會減少。以秒為單位。

  • computenode_preemptible (bool) – 搶佔式執行個體至少每 24 小時停止一次,並且在其資源被 Compute 需要時可以隨時停止。

  • computenode_cpu_utilization_target (int | None) – 定義基於執行個體群組的平均 CPU 使用率的自動調整規則。以百分比表示。10-100。預設情況下未設定,並使用預設的自動調整策略。

  • computenode_decommission_timeout (int | None) – 在向下擴展期間正常解除節點委任的逾時時間。以秒為單位

  • properties (dict[str, str] | None) – 傳遞到主要節點軟體的屬性。文件: https://cloud.yandex.com/docs/data-proc/concepts/settings-list

  • enable_ui_proxy (bool) – 啟用 UI Proxy 功能以轉發 Hadoop 元件 Web 介面 文件: https://cloud.yandex.com/docs/data-proc/concepts/ui-proxy

  • host_group_ids (collections.abc.Iterable[str] | None) – 專用主機群組,用於放置叢集的 VM。文件: https://cloud.yandex.com/docs/compute/concepts/dedicated-host

  • security_group_ids (collections.abc.Iterable[str] | None) – 使用者安全性群組。文件: https://cloud.yandex.com/docs/data-proc/concepts/network#security-groups

  • log_group_id (str | None) – 用於寫入日誌的日誌群組 ID。預設情況下,日誌將傳送到預設日誌群組。若要停用雲端日誌傳送,請設定叢集屬性 dataproc:disable_cloud_logging = true 文件: https://cloud.yandex.com/docs/data-proc/concepts/logs

  • initialization_actions (collections.abc.Iterable[InitializationAction] | None) – 在叢集啟動時執行的一組初始化動作。文件: https://cloud.yandex.com/docs/data-proc/concepts/init-action

  • labels (dict[str, str] | None) – 叢集標籤,格式為 key:value 配對。每個資源最多 64 個。文件: https://cloud.yandex.com/docs/resource-manager/concepts/labels

property cluster_id[原始碼]
execute(context)[原始碼]

在建立運算子時衍生。

Context 是與轉譯 jinja 範本時使用的相同字典。

請參閱 get_template_context 以取得更多上下文。

class airflow.providers.yandex.operators.dataproc.DataprocBaseOperator(*, yandex_conn_id=None, cluster_id=None, **kwargs)[原始碼]

基底類別: airflow.models.BaseOperator

用於處理指定叢集的 DataProc 運算子的基礎類別。

參數
  • connection_id – Yandex.Cloud Airflow 連線的 ID。

  • cluster_id (str | None) – 要移除的叢集 ID。(已範本化)

template_fields: collections.abc.Sequence[str] = ('cluster_id',)[原始碼]
abstract execute(context)[原始碼]

在建立運算子時衍生。

Context 是與轉譯 jinja 範本時使用的相同字典。

請參閱 get_template_context 以取得更多上下文。

class airflow.providers.yandex.operators.dataproc.DataprocDeleteClusterOperator(*, connection_id=None, cluster_id=None, **kwargs)[原始碼]

基底類別: DataprocBaseOperator

刪除 Yandex.Cloud Data Proc 叢集。

參數
  • connection_id (str | None) – Yandex.Cloud Airflow 連線的 ID。

  • cluster_id (str | None) – 要移除的叢集 ID。(已範本化)

execute(context)[原始碼]

在建立運算子時衍生。

Context 是與轉譯 jinja 範本時使用的相同字典。

請參閱 get_template_context 以取得更多上下文。

class airflow.providers.yandex.operators.dataproc.DataprocCreateHiveJobOperator(*, query=None, query_file_uri=None, script_variables=None, continue_on_failure=False, properties=None, name='Hive job', cluster_id=None, connection_id=None, **kwargs)[原始碼]

基底類別: DataprocBaseOperator

在 Data Proc 叢集中執行 Hive 工作。

參數
  • query (str | None) – Hive 查詢。

  • query_file_uri (str | None) – 包含 Hive 查詢的指令碼 URI。可以放在 HDFS 或 S3 中。

  • properties (dict[str, str] | None) – 屬性名稱到值的對應,用於設定 Hive。

  • script_variables (dict[str, str] | None) – 查詢變數名稱到值的對應。

  • continue_on_failure (bool) – 如果查詢失敗,是否繼續執行查詢。

  • name (str) – 工作的名稱。用於標記。

  • cluster_id (str | None) – 要在其中執行工作的叢集 ID。如果指定了 Dataproc Hook 物件,將嘗試從該物件取得 ID。(已範本化)

  • connection_id (str | None) – Yandex.Cloud Airflow 連線的 ID。

execute(context)[原始碼]

在建立運算子時衍生。

Context 是與轉譯 jinja 範本時使用的相同字典。

請參閱 get_template_context 以取得更多上下文。

class airflow.providers.yandex.operators.dataproc.DataprocCreateMapReduceJobOperator(*, main_class=None, main_jar_file_uri=None, jar_file_uris=None, archive_uris=None, file_uris=None, args=None, properties=None, name='Mapreduce job', cluster_id=None, connection_id=None, **kwargs)[原始碼]

基底類別: DataprocBaseOperator

在 Data Proc 叢集中執行 Mapreduce 工作。

參數
  • main_jar_file_uri (str | None) – 具有工作的 jar 檔案 URI。可以放在 HDFS 或 S3 中。可以指定以取代 main_class。

  • main_class (str | None) – 工作的主要類別名稱。可以指定以取代 main_jar_file_uri。

  • file_uris (collections.abc.Iterable[str] | None) – 工作中使用的檔案 URI。可以放在 HDFS 或 S3 中。

  • archive_uris (collections.abc.Iterable[str] | None) – 工作中使用的封存檔案 URI。可以放在 HDFS 或 S3 中。

  • jar_file_uris (collections.abc.Iterable[str] | None) – 工作中使用的 JAR 檔案的 URI。可以放置在 HDFS 或 S3 中。

  • properties (dict[str, str] | None) – 工作的屬性。

  • args (collections.abc.Iterable[str] | None) – 要傳遞給工作的參數。

  • name (str) – 工作的名稱。用於標記。

  • cluster_id (str | None) – 要在其中執行工作的叢集 ID。如果指定了 Dataproc Hook 物件,將嘗試從該物件取得 ID。(已範本化)

  • connection_id (str | None) – Yandex.Cloud Airflow 連線的 ID。

execute(context)[source]

在建立運算子時衍生。

Context 是與轉譯 jinja 範本時使用的相同字典。

請參閱 get_template_context 以取得更多上下文。

class airflow.providers.yandex.operators.dataproc.DataprocCreateSparkJobOperator(*, main_class=None, main_jar_file_uri=None, jar_file_uris=None, archive_uris=None, file_uris=None, args=None, properties=None, name='Spark job', cluster_id=None, connection_id=None, packages=None, repositories=None, exclude_packages=None, **kwargs)[source]

基底類別: DataprocBaseOperator

在 Data Proc 叢集中執行 Spark 工作。

參數
  • main_jar_file_uri (str | None) – 包含工作的主要 JAR 檔案的 URI。可以放置在 HDFS 或 S3 中。

  • main_class (str | None) – 工作的主要類別名稱。

  • file_uris (collections.abc.Iterable[str] | None) – 工作中使用的檔案 URI。可以放在 HDFS 或 S3 中。

  • archive_uris (collections.abc.Iterable[str] | None) – 工作中使用的封存檔案 URI。可以放在 HDFS 或 S3 中。

  • jar_file_uris (collections.abc.Iterable[str] | None) – 工作中使用的 JAR 檔案的 URI。可以放置在 HDFS 或 S3 中。

  • properties (dict[str, str] | None) – 工作的屬性。

  • args (collections.abc.Iterable[str] | None) – 要傳遞給工作的參數。

  • name (str) – 工作的名稱。用於標記。

  • cluster_id (str | None) – 要在其中執行工作的叢集 ID。如果指定了 Dataproc Hook 物件,將嘗試從該物件取得 ID。(已範本化)

  • connection_id (str | None) – Yandex.Cloud Airflow 連線的 ID。

  • packages (collections.abc.Iterable[str] | None) – 要包含在驅動程式和執行器類別路徑中的 JAR 檔案的 Maven 坐標列表。

  • repositories (collections.abc.Iterable[str] | None) – 要搜尋使用 `--packages` 給定的 Maven 坐標的其他遠程儲存庫列表。

  • exclude_packages (collections.abc.Iterable[str] | None) – groupId:artifactId 的列表,用於在解析 `--packages` 中提供的依賴項時排除,以避免依賴衝突。

execute(context)[source]

在建立運算子時衍生。

Context 是與轉譯 jinja 範本時使用的相同字典。

請參閱 get_template_context 以取得更多上下文。

class airflow.providers.yandex.operators.dataproc.DataprocCreatePysparkJobOperator(*, main_python_file_uri=None, python_file_uris=None, jar_file_uris=None, archive_uris=None, file_uris=None, args=None, properties=None, name='Pyspark job', cluster_id=None, connection_id=None, packages=None, repositories=None, exclude_packages=None, **kwargs)[source]

基底類別: DataprocBaseOperator

在 Data Proc 叢集中執行 Pyspark 工作。

參數
  • main_python_file_uri (str | None) – 包含工作的 Python 檔案的 URI。可以放置在 HDFS 或 S3 中。

  • python_file_uris (collections.abc.Iterable[str] | None) – 工作中使用的 Python 檔案的 URI。可以放置在 HDFS 或 S3 中。

  • file_uris (collections.abc.Iterable[str] | None) – 工作中使用的檔案 URI。可以放在 HDFS 或 S3 中。

  • archive_uris (collections.abc.Iterable[str] | None) – 工作中使用的封存檔案 URI。可以放在 HDFS 或 S3 中。

  • jar_file_uris (collections.abc.Iterable[str] | None) – 工作中使用的 JAR 檔案的 URI。可以放置在 HDFS 或 S3 中。

  • properties (dict[str, str] | None) – 工作的屬性。

  • args (collections.abc.Iterable[str] | None) – 要傳遞給工作的參數。

  • name (str) – 工作的名稱。用於標記。

  • cluster_id (str | None) – 要在其中執行工作的叢集 ID。如果指定了 Dataproc Hook 物件,將嘗試從該物件取得 ID。(已範本化)

  • connection_id (str | None) – Yandex.Cloud Airflow 連線的 ID。

  • packages (collections.abc.Iterable[str] | None) – 要包含在驅動程式和執行器類別路徑中的 JAR 檔案的 Maven 坐標列表。

  • repositories (collections.abc.Iterable[str] | None) – 要搜尋使用 `--packages` 給定的 Maven 坐標的其他遠程儲存庫列表。

  • exclude_packages (collections.abc.Iterable[str] | None) – groupId:artifactId 的列表,用於在解析 `--packages` 中提供的依賴項時排除,以避免依賴衝突。

execute(context)[source]

在建立運算子時衍生。

Context 是與轉譯 jinja 範本時使用的相同字典。

請參閱 get_template_context 以取得更多上下文。

這個條目是否有幫助?