airflow.providers.apache.druid.transfers.hive_to_druid

這個模組包含將資料從 Hive 移動到 Druid 的運算子。

模組內容

類別

HiveToDruidOperator

將資料從 Hive 移動到 Druid。

屬性

LOAD_CHECK_INTERVAL

DEFAULT_TARGET_PARTITION_SIZE

airflow.providers.apache.druid.transfers.hive_to_druid.LOAD_CHECK_INTERVAL = 5[source]
airflow.providers.apache.druid.transfers.hive_to_druid.DEFAULT_TARGET_PARTITION_SIZE = 5000000[source]
class airflow.providers.apache.druid.transfers.hive_to_druid.HiveToDruidOperator(*, sql, druid_datasource, ts_dim, metric_spec=None, hive_cli_conn_id='hive_cli_default', druid_ingest_conn_id='druid_ingest_default', metastore_conn_id='metastore_default', hadoop_dependency_coordinates=None, intervals=None, num_shards=-1, target_partition_size=-1, query_granularity='NONE', segment_granularity='DAY', hive_tblproperties=None, job_properties=None, **kwargs)[source]

繼承自: airflow.models.BaseOperator

將資料從 Hive 移動到 Druid。

[del]注意,目前資料在推送到 Druid 之前會先載入到記憶體中,因此這個運算子應該用於少量資料。[del]

參數
  • sql (str) – 要對 Druid 資料庫執行的 SQL 查詢。(已套用範本)

  • druid_datasource (str) – 您想要擷取到 Druid 中的資料來源

  • ts_dim (str) – 時間戳記維度

  • metric_spec (list[Any] | None) – 您想要為資料定義的指標

  • hive_cli_conn_id (str) – Hive 連線 ID

  • druid_ingest_conn_id (str) – Druid 擷取連線 ID

  • metastore_conn_id (str) – Metastore 連線 ID

  • hadoop_dependency_coordinates (list[str] | None) – 要擠壓到擷取 JSON 中的座標列表

  • intervals (list[Any] | None) – 定義區段的時間間隔列表,這會直接傳遞到 JSON 物件。(已套用範本)

  • num_shards (float) – 直接指定要建立的分片數量。

  • target_partition_size (int) – 要包含在一個分區中的目標列數,

  • query_granularity (str) – 能夠查詢結果的最小粒度以及區段內資料的粒度。例如,值為“minute”將表示資料以分鐘為單位進行聚合。也就是說,如果元組(minute(timestamp), dimensions)中存在衝突,它將使用聚合器聚合值,而不是儲存個別列。粒度為“NONE”表示毫秒粒度。

  • segment_granularity (str) – 建立時間區塊的粒度。每個時間區塊可以建立多個區段。例如,使用“DAY” segmentGranularity,同一天的事件會落入相同的時間區塊,該時間區塊可以選擇性地根據其他配置和輸入大小進一步劃分為多個區段。

  • hive_tblproperties (dict[Any, Any] | None) – Hive 中用於暫存表格的 tblproperties 的額外屬性

  • job_properties (dict[Any, Any] | None) – 工作的額外屬性

template_fields: collections.abc.Sequence[str] = ('sql', 'intervals')[source]
template_ext: collections.abc.Sequence[str] = ('.sql',)[source]
template_fields_renderers[source]
execute(context)[source]

在建立運算子時衍生。

上下文與渲染 Jinja 範本時使用的字典相同。

有關更多上下文,請參閱 get_template_context。

construct_ingest_query(static_path, columns)[source]

建立用於 HDFS TSV 載入的擷取查詢。

參數
  • static_path (str) – 資料所在的 HDFS 路徑

  • columns (list[str]) – 所有可用欄位的列表

這個條目是否有幫助?