airflow.providers.apache.druid.transfers.hive_to_druid
¶
這個模組包含將資料從 Hive 移動到 Druid 的運算子。
模組內容¶
類別¶
將資料從 Hive 移動到 Druid。 |
屬性¶
- airflow.providers.apache.druid.transfers.hive_to_druid.DEFAULT_TARGET_PARTITION_SIZE = 5000000[source]¶
- class airflow.providers.apache.druid.transfers.hive_to_druid.HiveToDruidOperator(*, sql, druid_datasource, ts_dim, metric_spec=None, hive_cli_conn_id='hive_cli_default', druid_ingest_conn_id='druid_ingest_default', metastore_conn_id='metastore_default', hadoop_dependency_coordinates=None, intervals=None, num_shards=-1, target_partition_size=-1, query_granularity='NONE', segment_granularity='DAY', hive_tblproperties=None, job_properties=None, **kwargs)[source]¶
繼承自:
airflow.models.BaseOperator
將資料從 Hive 移動到 Druid。
[del]注意,目前資料在推送到 Druid 之前會先載入到記憶體中,因此這個運算子應該用於少量資料。[del]
- 參數
sql (str) – 要對 Druid 資料庫執行的 SQL 查詢。(已套用範本)
druid_datasource (str) – 您想要擷取到 Druid 中的資料來源
ts_dim (str) – 時間戳記維度
metric_spec (list[Any] | None) – 您想要為資料定義的指標
hive_cli_conn_id (str) – Hive 連線 ID
druid_ingest_conn_id (str) – Druid 擷取連線 ID
metastore_conn_id (str) – Metastore 連線 ID
hadoop_dependency_coordinates (list[str] | None) – 要擠壓到擷取 JSON 中的座標列表
intervals (list[Any] | None) – 定義區段的時間間隔列表,這會直接傳遞到 JSON 物件。(已套用範本)
num_shards (float) – 直接指定要建立的分片數量。
target_partition_size (int) – 要包含在一個分區中的目標列數,
query_granularity (str) – 能夠查詢結果的最小粒度以及區段內資料的粒度。例如,值為“minute”將表示資料以分鐘為單位進行聚合。也就是說,如果元組(minute(timestamp), dimensions)中存在衝突,它將使用聚合器聚合值,而不是儲存個別列。粒度為“NONE”表示毫秒粒度。
segment_granularity (str) – 建立時間區塊的粒度。每個時間區塊可以建立多個區段。例如,使用“DAY” segmentGranularity,同一天的事件會落入相同的時間區塊,該時間區塊可以選擇性地根據其他配置和輸入大小進一步劃分為多個區段。
hive_tblproperties (dict[Any, Any] | None) – Hive 中用於暫存表格的 tblproperties 的額外屬性
job_properties (dict[Any, Any] | None) – 工作的額外屬性
- template_fields: collections.abc.Sequence[str] = ('sql', 'intervals')[source]¶
- template_ext: collections.abc.Sequence[str] = ('.sql',)[source]¶