まさか、TwitterのHadoop解析をファイヤーホース無しで？ (3)

makiちゃんを使って実際にTwitter Streaming APIを利用してデータを取得してみる。

<a href="https://github.com/AKB428/maki">AKB428/maki</a>
AKB428/maki · GitHub

とりあえずCSVにデータを保存するだけなので、sakuraサーバーのメモリ2GのVPSで動作させる。

結果、１日で約150MバイトのCSV

CSVをMySQLに読み込ませた結果 49万レコード

のデータが取得できた。

ファイルは以下にサンプルとして配置

ファイルサイズ的にはまだまだ少ないのでStreamから流れてきたデータをプログラムで取りこぼししてる感じではないので、キーワードをMAX指定すれば80万ツイートぐらいは簡単にデイリーで取得できるだろう。

一つのIPで2ツイッターアカウントぐらいのバッチは動かせるので単純に考えて1台のマシンで200万ツイートの収集は可能だと思われる。

後は、プログラムのチューニングを行い極力twitterストリームからデータを保存するまでの流れをミリ秒単位で完結させる必要があるので、メモリ型DBに一時的に保存するなりの工夫がいるだろう。

twitter.csvをmySQLに読み込ませた結果

f:id:rakuda00:20141016024436p:plain

フィルターへのキーワードは以下

AKB428は荒野を目指す