airflow.providers.apache.hive.transfers.vertica_to_hive

此模組包含一個將資料從 Vertica 移動到 Hive 的運算子。

模組內容

類別

VerticaToHiveOperator

將資料從 Vertica 移動到 Hive。

class airflow.providers.apache.hive.transfers.vertica_to_hive.VerticaToHiveOperator(*, sql, hive_table, create=True, recreate=False, partition=None, delimiter=chr(1), vertica_conn_id='vertica_default', hive_cli_conn_id='hive_cli_default', hive_auth=None, **kwargs)[原始碼]

基底類別: airflow.models.BaseOperator

將資料從 Vertica 移動到 Hive。

此運算子針對 Vertica 執行您的查詢,將檔案儲存在本地,然後載入到 Hive 表格中。如果 createrecreate 參數設定為 True,則會產生 CREATE TABLEDROP TABLE 陳述式。Hive 資料類型是從游標的中繼資料推斷而來。請注意,Hive 中產生的表格使用 STORED AS textfile,這不是最有效率的序列化格式。如果載入大量資料,和/或表格被大量查詢,您可能會希望僅使用此運算子將資料暫存到臨時表格中,然後使用 HiveOperator 將其載入到最終目的地。

參數
  • sql (str) – 要針對 Vertica 資料庫執行的 SQL 查詢。(樣板化)

  • hive_table (str) – 目標 Hive 表格,使用點表示法來指定特定資料庫。(樣板化)

  • create (bool) – 如果表格不存在是否建立表格

  • recreate (bool) – 是否在每次執行時刪除並重建表格

  • partition (dict | None) – 目標分割區,以分割區欄位和值的字典形式表示。(樣板化)

  • delimiter (str) – 檔案中的欄位分隔符

  • vertica_conn_id (str) – 來源 Vertica 連線

  • hive_cli_conn_id (str) – 參考到 Hive CLI 連線 ID

  • hive_auth (str | None) – 為 Hive 連線傳遞的可選驗證選項

template_fields: collections.abc.Sequence[str] = ('sql', 'partition', 'hive_table')[原始碼]
template_ext: collections.abc.Sequence[str] = ('.sql',)[原始碼]
template_fields_renderers[原始碼]
ui_color = '#b4e0ff'[原始碼]
classmethod type_map(vertica_type)[原始碼]

手動調整 Vertica-Python 類型映射。

stock datatype.py 未提供完整的類型映射存取權。

參考資料:https://github.com/uber/vertica-python/blob/master/vertica_python/vertica/column.py

execute(context)[原始碼]

在建立運算子時衍生。

Context 是與呈現 jinja 模板時使用的相同字典。

請參閱 get_template_context 以取得更多上下文。

此條目是否有幫助?