AKB428は荒野を目指す

秋葉原で働くエンジニアなブログ

TwitterのHadoop解析をファイヤーホース無しで? (1)

やりたい。

 

設計としては

TwitterからStreamingAPIでかたっぱしからデータを抜き出し

- CSV

- Fluend/Flume

- HBase

の3アプローチのいずれかでデータを保存。

 

CSV/Fluend/FulmeのデータはHDFS->Hiveに格納。

HiveのデータはHiveかImpalaで解析。

 

とりあえずOSXにHBaseはすんなり入ったのでプログラムを書いてみる。

 

Hbase参考記事


ビッグデータ処理の常識をJavaで身につける(3):いまさら聞けないKVSの常識をHbaseで身につける (2/3) - @IT