読者です 読者をやめる 読者になる 読者になる

SmartNews Tech Night Vol.3に行ってきた

勉強会・ハッカソン

だいぶ前になってしまいますが、SmartNews Tech Night Vol.3に行ってきたので、そのときのメモです。

smartnews.connpass.com

SmartNewsでは人文社会系の知見も取り入れて推薦というものを考えているというのが一番印象に残りました。

0. はじめに

  • News x Technology で実現できること
    • 作る
    • 編集する
    • 配信する

1. 報道がテクノロジーに出会った日 (朝日新聞 奥山さん)

  • 無意識の可視化
    • 街の声の徒労感・・・データとしての価値がないのに集めるのは大変
    • ツィートのデータ量は魅力的
  • データからはスクープは生まれないが、レーダーとして機能する
    • 取材対象の候補を察知
  • まだ自動レコメンドよりは手動レコメンドの方がCTRは高い。
  • レコメンドの進化形は紙の新聞のようにたまたま目に入る形になるか?

2. データ報道の模索 (NHK 小早川さん)

  • SoLT(ソーシャルリスニングチーム)
    • 事件事故につながりそうなツィートに注目して連絡
  • データ解析を元にした番組
    • ニュースシブ5, DataNavi(データなび)
  • データなび
    • 生放送でデータ解析。解析自体も生放送で。
    • デジタルEARTH・・・日本地図上に様々なものを可視化
      • 位置情報から混雑度を表示
      • 検索キーワードから明日の混雑予報
  • データジャーナリズムに求められるもの
    • データ収集能力
    • 基本的なデータ処理技術
    • 見栄えのする可視化
    • 難しい技術を簡易に説明する
    • データ入手後、数日で見通しが立てられる

3. ジャーナリズムのための探索機械 (スマートニュース 高橋さん)

  • 情報消費
    • 知らない話題だから読まない・・・知らないからこそ読む価値がある
      • 価値ある情報は馴染みのないコンテンツに含まれている可能性
        • フィルターバブル問題
          • カスタマイズされすぎてて、逆に視野が狭くなっているのではという問題
  • 長期的推薦アルゴリズムは研究されているが、指令のようになってしまう(家父長的)
    • 遠い未来から逆算して、効果が見込めることを求めていく
    • 人間は長期最適な意思決定を行うのは難しい。
      • そもそも難しい時点で、その推薦は間違っているのでは。
  • 協調フィルタリングなどのレコメンド技術・・・近視眼的
  • 探索行動に伴う心理負荷を統計的に推定して、それを超えた利益がある記事であればレコメンドすれば良い
  • 他の社会科学の成果を活用
    • 心理的な探索コストを統計的推定
    • 最適刺激水準の同定
    • 損失回避性格の活用

4. 新聞記事のマイニング (読売新聞 多田さん)

  • 大量に眠っている記事データを解析するために機械学習を使いたい
  • オンライン機械学習向け分散処理フレームワークJubatusを使ってみた
    • 教師あり学習を用いた記事ジャンル自動分類
      • 記事本文を形態素解析して単語ベクトルを作る
      • 学習データは1890件。検証データは20件
      • スポーツ、社会、政治は正答率80%以上
      • 科学・IT、環境は正答率が低い
    • トピック推定
      • 教師なしで学習してキーワードを抽出する
      • LDA
      • オリンピック関連の記事にかけてみたところ、ある程度似通ったグループに分けることができた

5. 自然言語処理による情報編集 (東北大学 乾先生)

  • 人の知の活動はすべて編集である
  • 情報の編集・・・分類による組織化と関係による組織化
  • 分析の苦労
    • 婉曲表現などが難しく、できなかった
    • 否定文の解析
      • 「ない」の使い方は難しい
    • 省略を補完しないといけない
    • 論理学でいう裏になっていたり、他のものと比較して述べていたり・・・
  • 「報道に耐えうる」レベルとはまだギャップがある

6. パネルディスカッション

  • テクノロジー面: 今はできないけど3年後ならできるかも
    • ポジネガ判定はまだ難しい・・・簡単そうで難しい技術
    • 異種データを組み合わせてもっと良いレコメンドができるかも
      • 他社のデータの活用は進んでいない
    • 直接見せるレベルには達していないが、報道を作る方をサポートするのはできるところがありそう
      • 記事のレベル分析など
    • 記事自体を解析できる機械が作れれば、それ一本でいけるが、現状は難しいのでユーザーの反応などを使っている
    • 再帰性・・・記事をトップに表示したからPVが高かったなど、本当に記事の内容が良かったのかを判定するには考慮しなければならない点が多い
    • ニュースが読まれたかどうかまで活用する段階には至っていない
  • Q & A:
    • いい記事の定義とは?
      • 態度変容を起こさせる記事
      • 発見がある記事(内容は古くても良い)
      • ローカルな情報を流通・活用
    • ディープラーニングって活用できてる?
      • 音声認識・画像認識では大きな成果
      • 言語処理ではまだ活用しきれてない
        • 言語はすでに記号化されているので、あまり活用できていない
          • "意味がわからない"世界に入ると活用できるかも
        • 言語と画像の統合的な解析には活用できるかも
      • 機械学習がメディアに取り上げられるきっかけとなった
      • 生物を模倣して上手くいく場合と、うまくいったシステムが結果的に生物の仕組みと似ていた場合の相互作用が生まれる
    • ユーザーが「見た」という反応だけではなく、内容に踏み込んだ領域まで技術は進化できるのか?
      • 長期的な課題
    • (データ化の進んでいる)スポーツのデータから記事を生成できるシステムはどれくらいで開発できるのか?
      • 既にアメリカでデータから簡単な記事を生成するベンチャー企業がある
        • 試合経過などは自動で生成することで、人にしか書けない記事に時間をかけることができる
      • 記事を生成したときに、評価が難しい。良い記事か悪い記事か、判定するのは難しいのでアカデミアの世界では普及していない。
    • 最後に
      • 報道のUGCをやっていきたい
      • 何が面白い技術ないの?という質問は非常にこまる。
        • 面白いものを作ってくれる技術はなくても、面白くないものを判定してくれる技術があるだけでも助かる
      • 超グローバルなものか、超ローカルなものかのどちらかを攻めていきたい
      • 行間を読む機械を作りたい