読者です 読者をやめる 読者になる 読者になる

ニコニコ学会 ニコニコデータ研究会(7/27)に行ってきた

データ解析・可視化 ニコニコ学会β

ドワンゴの新オフィスで7/27に開催されたニコニコ学会のニコニコデータ研究会を見に行ってきました。

記事書くの、だいぶ遅くなってしまってごめんなさい。

データマイニングなどは大学の頃に研究などで携わっていて興味あるので今回の参加です。

ほんとは参加する前に以前公開されたニコニコデータセットを触っておきたかったのですが、間に合わずほとんど中身を見ずに参加となってしまいました。

データの分析自体はその後ちょくちょく進めていて、NT金沢2013でのLTに引き続き、このブロマガにでもまとめていく予定です。

面白い発表が多くて、いろいろと感想を書きたいところではありますが、全部書いていると長くなってしまうので、とくに印象深かった発表について感想を書いていきます。


最近のデータ分析の潮流
ソーシャルメディアデータ・ビッグデータ・オープンデータについてわかりやすく解説されていました。
よくごっちゃになって語られるこの3つのデータですが、分析の対象としては必ずしも3つの特性をすべてもっている必要はないと。
最近、政府のデータ提供ポータルが続々できているという話は初耳だったので、勉強になりました。
最後の、データ分析の自分たちの世界を開拓していこうという言葉は、この研究会の内容を振り返ると、なるほどなーと思える言葉でした。


ニコニコデータセット分析環境を作ってみた
ニコニコデータセットをWeb上から分析できるようにしたシステムを作ったという発表でした。Hiveを使ってデータを集計したりできるようです。
こういう手軽な分析環境を作っていただけると、どんどん参加しやすくなっていいですね
http://nicodata.info/


トピックモデルを用いたニコニコ動画コメントデータの 声優トピック流行推移解析
ニコニコ動画上において声優についてのコメントがどのように変化していっているかを分析してみたという発表でした。
いろいろと流行しているワードは違うものの、ずっと安定しているのが中の人(声優)が同じで演じているキャラクターが違うものを組み合わせた声優MADネタ。
そういうのが安定しているのは、やっぱりニコニコらしいなーと思いました。


電車内でスマートフォン普及率の観察調査2013
ご自身が電車に乗ったときに周りの人がもっているスマートフォンをチェックして記録をとったデータの発表でした。
スマートフォンの機種のアンケート調査とかはよく見ますが、実際に使っている機種を長期間にわたって観察調査っていうのは中々無いデータだと思うので、面白いです。
他にも電車内で読まれている本などもチェックしているようで、貴重なデータをもっているなーと感じました。


CDをひたすらせどってみた
CDを仕入れては売却するという商売を行なっているそうで、それの仕入れ値と利益についてのデータを集計してみたという発表でした。
CDも株と同じでリスクとリターンは比例するものだなーと。
そういう予想はつくものの、自身で集めたデータを元にそこをちゃんとまとめられていました。
こういうデータを持っていること自体が面白いと感じました。
もっとサンプル数が増えてきたら、CDの属性から更にいろいろと分析できそうで、面白そうです。


宇宙文明発見チーム MarsfaceProject
火星の超高解像度の画像から顔認識技術で顔っぽい地形を探すという発表でした。
この「なぜやってみた」という感じがとても好きです


三種のツイートデータしょぼい分析を添えて
自分で収集しているツィートデータについて、いろいろと分析してみたという発表。
根性マイニングというこの研究会のキーワードっぽい単語も出てきます。
位置情報を含むツィートから最も日本の中で「がっかり」されている場所の特定をやってて、面白かったです



最後に全体的な感想を。

切り口が面白いなーと感じた発表がとても多かったです。
同じデータから、切り口を変えるだけで、こんなにも違う分析になるのかーと感じました。

あと、根性マイニングという言葉がこの研究会ではよく使われていましたが、データを直接見て分析するってことも大事だなと。
何百とかのデータを直接見るのは大変なので、何とかコンピューターにまかせられないかと、ついつい考えてしまうのですが、根性マイニングしないと見つからないものもあるなーと。

今後もごりごりと分析続けていきますー。