ついにニコニコのコメントを取得するプログラムを書いてみた(2015 現代版)
ニコニコのAPIは正式には公開されておらず、ユーザーが解析している情報を集めて使うしかないのだけれど、あまりその考え方は好きじゃない(公式がAPIを閉鎖するのは簡単にできるので)のだが、ビッグデータのソースがTwitterだけだと足りなくなってきたのでついにニコニコのコメントを取得するプログラムを書いてみた。
とりあえず、普通の動画と、チャンネルの動画に対応しています。
githubにソースをおいてます。
https://github.com/AKB428/niconico_get_comment_sample
ニコニコのAPIの情報は散乱しており、昔の情報だけではコメント取得は困難であるためとりあえず2015年の現代でも動く完全なソースというのは価値があるのではないのでしょうか(ソースは殴り書きなのでクソースですが)
これは人類にとっては小さな一歩だが、私にとっては偉大な飛躍である。
TVアニメ「ご注文はうさぎですか??」キャラクターソングアルバム チノ/cup of chino
- アーティスト: (アニメCD)
- 出版社/メーカー: NBCユニバーサル・エンターテイメントジャパン
- 発売日: 2015/11/25
- メディア: CD
- この商品を含むブログ (2件) を見る
ご注文はうさぎですか?? 第1巻 (初回限定版) [Blu-ray]
- 出版社/メーカー: NBCユニバーサル・エンターテイメントジャパン
- 発売日: 2015/12/25
- メディア: Blu-ray
- この商品を含むブログ (10件) を見る
【機械学習】マイクロソフトのクラウドAI Project Oxfordで秋葉原歩行者天国の性別と年齢の分布をとってみた
マイクロソフトのクラウドAI・・Azure MLのグループに位置するProject Oxford
画像認識や音声認識のサービスを提供してますが、メインで取り上げられるのは人物の年齢判定と性別判定になります。
APIでも利用可能なのでRestAPIで画像を投げて結果を受け取ってImageMagickで年齢を書き込むプログラムをRubyで作ったりしてました。
↑ProjectOxfordは上記の認識処理を1秒程度で行う
http://qiita.com/AKB428/items/ba32bdf917037956b40f
https://github.com/Project-Nightingale/nozomi
勿論精度は完璧ではなく、7〜8割の精度になります。
たまに男性と女性を間違えたり、年齢が20歳以上ずれたり・・・。
粗い画像だったり、カメラのズーム機能でとった写真(荒くなる)などでは特に年齢性別が狂います。
なので精度としてはPOSレジの精度と同レベルぐらいでしょうか。
POSレジでは性別を間違える事はないでしょうが、年齢の刻み幅がそこまで細かくはないので、精度としてはProjectOxfordと同レベルでしょう。
クラウドAIであるProjectOxfordが優れている点は人間の目では1秒以内に数十人の年齢や性別を判定することは難しいですが、クラウドAIなら1秒以内でそれが可能という点にあります。
この機能を使って秋葉原歩行者の性別割合と年齢を図ってみました。
秋葉原歩行者天国は毎週日曜日に行われています。(雨天中止、祝日は無しで日曜のみ)
実施日はシルバーウィークの日曜日
調査対象は無作為に選んだ122人です。
全体平均年齢 | 30 |
全体対象人数 | 122 |
男性数 | 75 |
女性数 | 47 |
男性平均年齢 | 33 |
女性平均年齢 | 24 |
無作為に選んだにしては納得の比率です。まぁ男性が多いのは当たり前ですね。
これも納得の結果です。
ProjectOxfordの精度が多少悪いとは言え、普通に納得の行く分布だと思います。
このようにマイクロソフトの画像認識クラウドAIサービス、ProjectOxfordは今まで人の手を介していた街頭の年齢調査の仕事やコンビニの年齢ボタンの手間を無くす素晴らしい利用方法があります。
また画像認識システムや機械学習サーバーを構築せずとも一個人が年齢性別識別機能を使ってデータ調査ができるようになったというのも脅威です。
一番いい利用ケースとしては犯罪防止等の監視カメラへの組み込みだと思いますが。。
発展として、そのうち交通量調査のバイトもロボットにとって変わられるでしょう。
2045年をまたずに人類総ニート時代がやってくるかもしれません。
TwitterのTV実況の盛り上がりを監視するため、マイクロつぶやきビッグデータ(関東テレビ局版)を作ってみた
Twitterのつぶやきビッグデータから見るコミックマーケットの時系列(C88 3日目)
http://i.imgur.com/pwXwN8O.png
C88 3日目
コスプレが強いのは相変わらず。
TOPスコアの1位2位を「コミケ」「コスプレ」で争っています。
C88 3日目は Twitterの盛り上がりから見ると
に集約されるでしょう。
小林幸子はニコニコ関連でコミケに出るようになったあの小林幸子です。
コスプレでなく同人ブースの女帝がエロ同人作家でなく、ババアの小林幸子になっているといういびつさ。
コミケへ来る客層がニコニコ世代になったことの現れでしょうか。。
今後、コミケは同人誌ブースでなくニコニコブースやTVで売れなくなった芸能人ブースがどんどん増えるかもしれません。
コミケ関連の呟きではコスプレ関連が盛況なのを前回前々回の記事で書きましたが、唯一の同人ブース関連のキーワードであることにも注目です。
小林幸子恐ろしいぜ・・・
バイオハザードはタイラントのコスプレがクオリティ高かったという話題
https://twitter.com/fumiyama_9/status/632784643972968448
ゆりかもめ全線停止
はコミケが終わった後、ヲタが一斉にゆりかもめに乗ってドアが圧迫されて不具合が起きてゆりかもめが停止したという悲しいニュースw
http://matomame.jp/user/yonepo665/4cf5471e9e3d4e9f05f5?page=2
後は2日目から外人がコスしてたロケット団のクオリティが高いなどのニュース。
やっぱりコスプレ関連が強いのがデータから分かります。
SNS-Twitterでコミケ関連で有名になりたかったらコスプレしろってことですね。
Twitterのつぶやきビッグデータから見るコミックマーケットの時系列(C88 2日目)
http://i.imgur.com/VhR8rJV.png
1日目の昼以降、コスプレのワードが爆発した後は、コスプレ関連のワード「紫色のセル」が多く呟かれてるのがわかります。
2日目で目立ったのは
「ジェイソン」「警察」
これは両者ともコスプレ会場でのイベントであり、やはりコスプレ関連がコミケのSNS書き込みの主要を占めているのがわかります。
「ジェイソン」・・・は厚切りジェイソンという芸能人がTV局をつれてコスプレ会場に来てコスプレイヤーにインタビューしたイベント。
https://twitter.com/fantasy0509/status/632380610590277632
「警察」・・は本物の警察官がニート自警団のコスプレイヤーを撮影していたとう話。
http://matome.naver.jp/odai/2131314567449521001
https://twitter.com/yamaaki_72ra/status/632170582612676608
(呟いた本人がツイートを消しているので本当かどうかわかりませんが・・・※警察官もコスプレしてた人の可能性が高い)
コスプレブース強すぎぃい
Twitterのつぶやきビッグデータから見るコミックマーケットの時系列(C88 1日目)
コミケ期間中の8/14-8/16にツイッターのストリームからコミケに関するツイートをクローリングしていました。
データを日本語単語に分解、カウントし時系列順に並べ、その時間帯に多く呟かれている単語を1位〜10位までを表にしてみました。
http://i.imgur.com/WvPyezP.png
とりあえずC88 1日目。
データからわかることは、1日目昼以降のコスプレ強し。
この一言につきます。1日目昼を堺に2日目もコスプレ関連ワードの回数のほうが他よりも呟かれています。
直接的にコスプレに関連するワードは紫で塗っていますが、それ以外にも「伝説」「ポケモン」も、ポケモンのコスプレがバズられてた事を示してますし、「泥棒」も映画泥棒のコスプレがバズられていた事を示しています。
これはコスプレ写真とSNS-Twitterの親和性がコミケのコンテンツの中で最も高い事を証明しています。
例年1日目は企業ブースが盛況ですが写真を上げるといっても行列の写真をあげて「なのは完売」みたいなデマを流すとか、グッヅの写真を上げるとかであまりバズられる傾向にはありません。
同人誌に関しても、作者のおしながきのツイートはバズられるものの、本格的にコミケで販売が始まってからはおしながきのツイートもされなくなりますし、同人誌を買った客が同人誌の中身を写真でツイートするというのも作者に対する背反行為になるのであまりしないでしょう。
その点コスプレ写真であれば、一応写真をとってるということは相手には許可をとってるので気軽にアップロードできますし、リツイートやファボもされやすくなるでしょう。
私はあまりコスプレには興味ないのですが、SNSの戦力を見る限りコミケにおいてのメインコンテンツは、同人誌でもなく、企業ブースでもなく、コスプレである。
と断言できます。
また今回は日本語解析の除外単語を精密にはしてなかったため、カウントに「コミケ」も含まれてるのでだいたいは「コミケ」のつぶやき回数が1位になる事がおおいのですが20時には「コミケ」よりも「コスプレ」のほうが呟かれているというのは特筆すべき状況だと言えます。(具体的にいうと「コミケでXXXX発生 #C88」というつぶやきよりも「XXXXのコスプレ写真 #C88」のつぶやきの回数のほうが多い」
その他を見てみると
- 午前11時以降には「完売」という単語がランキングに出現
- 特定の作品のつぶやきはランキングTOPに出現することは少なかった「刀剣」ぐらい
- 1日目は企業ブースがメインの日のはずだが特定の企業がランキングにもはいることはなかった「シャフト」ぐらい。これはデータ収集方法に問題があるかもしれないが「コミケ」や「C88」といった単語と一緒に「ごちうさ完売」と呟かずに単純に「悲報 ごちうさ完売」と呟いている可能性がある
- 「まとめ」という単語もちらほらランキングにあがっている、昨今のまとめブログ、NAVERまとめ、などのまとめ系記事が人気コンテンツな事の現れだろう。コミケともなると、そのデータが膨大なため多くの人が「まとめ」を求めているのがわかる。
次は2日目を解析したいと思います。
RMagickでラブライブの映画フィルムっぽく画像を加工するサービス作ってみた
Ruby + RMagick(Image Magick) + Sinatra + Unicorn + Nginx で。
以外と画像処理コードは少なくすんだ。
アップロードされた画像を縮小して、透過して4コマに貼り付けて終了。
コード全体はこちら
Project-Nightingale/nozomi · GitHub
RMagickはインストールが面倒だがコードはかなり直感的にかけるので便利。
こういうの作れるとコラ画像サービスなんでも作れそうで便利。