airflow.providers.databricks.operators.databricks_repos

此模組包含 Databricks 運算子。

模組內容

類別

DatabricksReposCreateOperator

使用 POST api/2.0/repos API 端點建立 Databricks Repo,並可選擇性地檢出。

DatabricksReposUpdateOperator

使用 PATCH api/2.0/repos API 端點將指定的儲存庫更新到給定的分支或標籤。

DatabricksReposDeleteOperator

使用 DELETE api/2.0/repos API 端點刪除指定的儲存庫。

class airflow.providers.databricks.operators.databricks_repos.DatabricksReposCreateOperator(*, git_url, git_provider=None, branch=None, tag=None, repo_path=None, ignore_existing_repo=False, databricks_conn_id='databricks_default', databricks_retry_limit=3, databricks_retry_delay=1, **kwargs)[source]

基底類別: airflow.models.BaseOperator

使用 POST api/2.0/repos API 端點建立 Databricks Repo,並可選擇性地檢出。

參數
  • git_url (str) – Git 儲存庫的必要 HTTPS URL

  • git_provider (str | None) – Git 供應商的選用名稱。如果我們無法從 URL 猜測其名稱,則必須提供。

  • repo_path (str | None) – 儲存庫的選用路徑。格式必須為 /Repos/{folder}/{repo-name}。如果未指定,則將在使用者目錄中建立。

  • branch (str | None) – 要檢出的分支的選用名稱。

  • tag (str | None) – 要檢出的標籤的選用名稱。

  • ignore_existing_repo (bool) – 如果具有給定路徑的儲存庫已存在,則不要拋出例外。

  • databricks_conn_id (str) – 參考 Databricks 連線。預設情況下,在一般情況下,這將是 databricks_default。若要使用token based authentication,請在連線的額外欄位中提供金鑰 token,並建立金鑰 host 並將 host 欄位留空。(已模板化)

  • databricks_retry_limit (int) – 如果 Databricks 後端無法連線,則重試的次數。其值必須大於或等於 1。

  • databricks_retry_delay (int) – 重試之間等待的秒數(可能為浮點數)。

template_fields: collections.abc.Sequence[str] = ('repo_path', 'tag', 'branch', 'databricks_conn_id')[source]
__git_providers__[source]
__aws_code_commit_regexp__[source]
__repos_path_regexp__[source]
static __detect_repo_provider__(url)[source]
execute(context)[source]

建立 Databricks Repo。

參數

context (airflow.utils.context.Context) – 上下文

回傳

Repo ID

class airflow.providers.databricks.operators.databricks_repos.DatabricksReposUpdateOperator(*, branch=None, tag=None, repo_id=None, repo_path=None, databricks_conn_id='databricks_default', databricks_retry_limit=3, databricks_retry_delay=1, **kwargs)[source]

基底類別: airflow.models.BaseOperator

使用 PATCH api/2.0/repos API 端點將指定的儲存庫更新到給定的分支或標籤。

See: https://docs.databricks.com/dev-tools/api/latest/repos.html#operation/update-repo

參數
  • branch (str | None) – 要更新到的分支的選用名稱。如果省略 tag,則應指定

  • tag (str | None) – 要更新到的標籤的選用名稱。如果省略 branch,則應指定

  • repo_id (str | None) – 現有儲存庫的選用 ID。如果省略 repo_path,則應指定

  • repo_path (str | None) – 現有儲存庫的選用路徑。如果省略 repo_id,則應指定

  • databricks_conn_id (str) – 參考 Databricks 連線。預設情況下,在一般情況下,這將是 databricks_default。若要使用token based authentication,請在連線的額外欄位中提供金鑰 token,並建立金鑰 host 並將 host 欄位留空。(已模板化)

  • databricks_retry_limit (int) – 如果 Databricks 後端無法連線,則重試的次數。其值必須大於或等於 1。

  • databricks_retry_delay (int) – 重試之間等待的秒數(可能為浮點數)。

template_fields: collections.abc.Sequence[str] = ('repo_path', 'tag', 'branch', 'databricks_conn_id')[source]
execute(context)[source]

在建立運算子時衍生。

Context 是與呈現 jinja 模板時使用的相同字典。

請參閱 get_template_context 以了解更多上下文。

class airflow.providers.databricks.operators.databricks_repos.DatabricksReposDeleteOperator(*, repo_id=None, repo_path=None, databricks_conn_id='databricks_default', databricks_retry_limit=3, databricks_retry_delay=1, **kwargs)[source]

基底類別: airflow.models.BaseOperator

使用 DELETE api/2.0/repos API 端點刪除指定的儲存庫。

See: https://docs.databricks.com/dev-tools/api/latest/repos.html#operation/delete-repo

參數
  • repo_id (str | None) – 現有儲存庫的選用 ID。如果省略 repo_path,則應指定

  • repo_path (str | None) – 現有儲存庫的選用路徑。如果省略 repo_id,則應指定

  • databricks_conn_id (str) – 參考 Databricks 連線。預設情況下,在一般情況下,這將是 databricks_default。若要使用token based authentication,請在連線的額外欄位中提供金鑰 token,並建立金鑰 host 並將 host 欄位留空。(已模板化)

  • databricks_retry_limit (int) – 如果 Databricks 後端無法連線,則重試的次數。其值必須大於或等於 1。

  • databricks_retry_delay (int) – 重試之間等待的秒數(可能為浮點數)。

template_fields: collections.abc.Sequence[str] = ('repo_path', 'databricks_conn_id')[source]
execute(context)[source]

在建立運算子時衍生。

Context 是與呈現 jinja 模板時使用的相同字典。

請參閱 get_template_context 以了解更多上下文。

此條目是否有幫助?