tests.system.apache.hive.example_twitter_dag

這是一個用於管理 Twitter 資料的範例 DAG。

模組內容

函式

fetch_tweets()

此任務應呼叫 Twitter API,並從昨天為四個 Twitter 使用者(Twitter_A,...,Twitter_D)擷取推文。應該由此任務產生八個 CSV 輸出檔案,且命名慣例為 direction(from 或 to)_twitterHandle_date.csv

clean_tweets()

這是一個用於清理八個檔案的佔位符。在此步驟中,您可以去除或挑選欄位

analyze_tweets()

這是一個用於分析 Twitter 資料的佔位符。可能僅僅是透過演算法(如詞袋)或更複雜的方法進行情感分析。您也可以查看 Web 服務來執行此類任務。

transfer_to_db()

這是一個佔位符,用於從 Hive 資料中提取摘要並將其儲存到 MySQL。

屬性

ENV_ID

DAG_ID

fetch

test_run

tests.system.apache.hive.example_twitter_dag.ENV_ID[原始碼]
tests.system.apache.hive.example_twitter_dag.DAG_ID = 'example_twitter_dag'[原始碼]
tests.system.apache.hive.example_twitter_dag.fetch_tweets()[原始碼]

此任務應呼叫 Twitter API,並從昨天為四個 Twitter 使用者(Twitter_A,...,Twitter_D)擷取推文。應該由此任務產生八個 CSV 輸出檔案,且命名慣例為 direction(from 或 to)_twitterHandle_date.csv

tests.system.apache.hive.example_twitter_dag.clean_tweets()[原始碼]

這是一個用於清理八個檔案的佔位符。在此步驟中,您可以去除或挑選欄位以及文字的不同部分。

tests.system.apache.hive.example_twitter_dag.analyze_tweets()[原始碼]

這是一個用於分析 Twitter 資料的佔位符。可能僅僅是透過演算法(如詞袋)或更複雜的方法進行情感分析。您也可以查看 Web 服務來執行此類任務。

tests.system.apache.hive.example_twitter_dag.transfer_to_db()[原始碼]

這是一個佔位符,用於從 Hive 資料中提取摘要並將其儲存到 MySQL。

tests.system.apache.hive.example_twitter_dag.fetch[原始碼]
tests.system.apache.hive.example_twitter_dag.test_run[原始碼]

這個條目是否有幫助?