Amazon Athena SQL¶
Amazon Athena 是一種互動式查詢服務,可讓您使用標準 SQL 輕鬆分析 Amazon Simple Storage Service (S3) 中的資料。Athena 是無伺服器架構,因此無需設定或管理基礎架構,而且您只需為執行的查詢付費。若要開始使用,只需指向 S3 中的資料、定義結構描述,然後開始使用標準 SQL 進行查詢。
先決條件任務¶
若要使用這些運算子,您必須執行幾件事
使用 AWS Console 或 AWS CLI 建立必要的資源。
透過 pip 安裝 API 函式庫。
pip install 'apache-airflow[amazon]'詳細資訊請見 Airflow® 安裝
設定連線.
運算子¶
執行 SQL 查詢¶
通用的 SQLExecuteQueryOperator
可用於針對 Amazon Athena 使用 Athena 連線 執行 SQL 查詢。
若要針對 Amazon Athena 執行單一 SQL 查詢,而無需將結果傳回 Airflow,請改用 AthenaOperator
。
execute_query = SQLExecuteQueryOperator(
task_id="execute_query",
sql=f"SELECT 1; SELECT * FROM {AIRFLOW_DB_METADATA_TABLE} LIMIT 1;",
split_statements=True,
return_last=False,
)
此外,如果您需要使用 Amazon Athena 執行簡單的資料品質測試,可以使用 SQLTableCheckOperator
以下範例示範如何實例化 SQLTableCheckOperator 任務。
row_count_check = SQLTableCheckOperator(
task_id="row_count_check",
table=AIRFLOW_DB_METADATA_TABLE,
checks={
"row_count_check": {
"check_statement": "COUNT(*) = 1",
}
},
)