読者です 読者をやめる 読者になる 読者になる

ニコニコデータセットで「www」と「GJ」コメント数の散布図を描く

ニコニコデータセットで、少し分析してみました。

今回は「w」と「GJ」に相関関係はあるかなーというもの。 感覚的には、動画中で笑うタイミング、つまり「w」ってコメントするタイミングがある動画ほど、最後に「GJ」ってコメント打つことが多いんじゃないかなーと思って、今回の分析です。

対象データはこの前のLTの時と同じく「ニコニコ技術部」「ニコニコ手芸部」「作ってみた」のタグのついた動画に限定しています。 全カテゴリではないです。

それぞれの動画について「w」のついているコメントと「GJ」のついているコメントを数えて、その2つの関係を見ています。 両方のコメントがついていない動画は今回の対象に含まれていません。

MySQLからの集計をPythonでやって、プロットと回帰をRでやりました。 ソースコードは、https://gist.github.com/mia-0032/6310570に置いています。

特定の動画のコメント数が他と比べて非常に多いのですが、今回は自然対数をとることで、そういう値の影響をそいでいます。

今回の出力結果。

Call:lm(formula = gj ~ www, data = data)
Residuals:    Min      1Q  Median      3Q     Max
            -2.1416 -0.4148 -0.1045  0.1226  9.4828 
Coefficients:
                Estimate Std. Error t value Pr(>|t|)
(Intercept) -0.272213   0.007219  -37.71   <2e-16 ***
    www        0.247792   0.002210  112.10   <2e-16 ***
---Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 0.6825 on 34384 degrees of freedomMultiple 
R-squared:  0.2677,    
Adjusted R-squared:  0.2676 
F-statistic: 1.257e+04 on 1 and 34384 DF,  p-value: < 2.2e-16

プロットの縦軸はGJコメント数の対数値、横軸はwコメント数の対数値です。

点のプロットを見る限りは、ある程度の相関はありそうです。 回帰直線を引いてみましたが、ちょっと0付近の値に引っ張られてしまっている感じで、あんまり精度良くないですね。

しかも、どちらかというと二次曲線的な回帰曲線を引くべきですね・・・

しかし、こういう分析は因果関係も複雑で、正直、難しい。 もっと問題自体を考えなおさないと・・・

とりあえず今日はここまで。