Amazon Athena SQL

Amazon Athena 是一種互動式查詢服務,可讓您使用標準 SQL 輕鬆分析 Amazon Simple Storage Service (S3) 中的資料。Athena 是無伺服器架構,因此無需設定或管理基礎架構,而且您只需為執行的查詢付費。若要開始使用,只需指向 S3 中的資料、定義結構描述,然後開始使用標準 SQL 進行查詢。

先決條件任務

若要使用這些運算子,您必須執行幾件事

運算子

執行 SQL 查詢

通用的 SQLExecuteQueryOperator 可用於針對 Amazon Athena 使用 Athena 連線 執行 SQL 查詢。

若要針對 Amazon Athena 執行單一 SQL 查詢,而無需將結果傳回 Airflow,請改用 AthenaOperator

tests/system/common/sql/example_sql_execute_query.py[原始碼]

execute_query = SQLExecuteQueryOperator(
    task_id="execute_query",
    sql=f"SELECT 1; SELECT * FROM {AIRFLOW_DB_METADATA_TABLE} LIMIT 1;",
    split_statements=True,
    return_last=False,
)

此外,如果您需要使用 Amazon Athena 執行簡單的資料品質測試,可以使用 SQLTableCheckOperator

以下範例示範如何實例化 SQLTableCheckOperator 任務。

tests/system/common/sql/example_sql_column_table_check.py[原始碼]

row_count_check = SQLTableCheckOperator(
    task_id="row_count_check",
    table=AIRFLOW_DB_METADATA_TABLE,
    checks={
        "row_count_check": {
            "check_statement": "COUNT(*) = 1",
        }
    },
)

參考

此條目是否有幫助?