DEIM2019技術報告セッション - Gunosyの研究開発 / deim-2019-sponsor-session-gunosy-research

D490d541e3d1ab04d5203e8b210b2233?s=47 ysekky
March 04, 2019

DEIM2019技術報告セッション - Gunosyの研究開発 / deim-2019-sponsor-session-gunosy-research

D490d541e3d1ab04d5203e8b210b2233?s=128

ysekky

March 04, 2019
Tweet

Transcript

  1. 株式会社 Gunosy 技術戦略室 関 喜史 2019年3月4日 DEIM2019技術報告セッション Gunosyにおける研究開発

  2. (C) Gunosy Inc. All Rights Reserved. PAGE | 2 プロフィール

    東京大学工学部卒業、同大学院工学系研究科博士後期課程修了。博士(工学)。 2011年度未踏クリエイター。 大学院在籍中にGunosy(グノシー)を共同開発し、2012年当社を共同創業。 創業期からニュース配信ロジックの開発を担当。 現在は研究開発に従事し推薦システムを中心としたウェブマイニング、 機械学習応用、自然言語処理応用を専門とする。 株式会社Gunosy 技術経営戦略室 共同創業者 関 喜史(Yoshifumi Seki)
  3. (C) Gunosy Inc. All Rights Reserved. PAGE | 3 株式会社Gunosy

    ギリシャ語で「知識」を意味する「Gnosis(グノーシス)」+「u(“you”)」 「”Gnosis” for “you”」あなたのための知識  =情報を届けるサービスを提供し続ける、という意味 ▪ 2012年11月創業 ▪ 2015年4月東証マザーズ上場 ▪ 2017年12月東証第一部に市場変更 ▪ 従業員数 161名 (2018年5月末現在 連結ベース) ▪ 事業内容 – 情報キュレーションサービスその他メディアの開発 及び運営 ▪ 提供サービス  グノシー、ニュースパス、LUCRA(ルクラ) 企業理念「情報を世界中の人に最適に届ける」
  4. (C) Gunosy Inc. All Rights Reserved. PAGE | 4 Gunosyの事業

    メディア事業 国内最大級の ニュースアプリ KDDIxGunosy 協業事業 総合ニュースアプリ 女性向け 総合情報アプリ 国内有数の ゲーム情報メディア 広告事業 3000万DLを超えるGunosyメディア内 で、ユーザーの属性をベースに広告表 示の買い付けができる商品 大量のメディアへ配信可能なネットワー ク型広告商品 海外・新規事業 新規事業 その他 新領域メディア・特化 型メディアなどの開発 中プロダクト ブロックチェーン事業 動画アドネットワーク 成果報酬型広告 投資事業
  5. (C) Gunosy Inc. All Rights Reserved. PAGE | 5 研究開発の大きな方針

    現場は売上と事業成長が大きなミッションなので補完的な役割を担う ニュース推薦システムとフィルターバブル • 読みたいものだけを読むようになり、幅広い視野が失われるのではないか • メディアとしての役割の中でどのような推薦システムを構築すべきか? クリックベイトなニュース記事 (釣り記事)の特定 • ニュース推薦システムではクリックした記事が好む記事とされる • クリックされやすいニュース記事がユーザを不快にする可能性がある エコーチェンバー現象の分析と特定 • ユーザが偏った嗜好で読む情報を選択してしまう現状 • 存在するのか、あるとすればどのような減少なのかを特定し、配信元メディアへ の情報提供や、推薦システムの構築に活用する メディア事業と広告事業に対して健全でインパクトのある改善
  6. (C) Gunosy Inc. All Rights Reserved. PAGE | 6 フィルターバブルに関する研究

    関 喜史, 福島 良典, 吉田 宏司, 松尾 豊: 多様性の導入による推薦システムにおけるユーザ体 験向上の試み, 自然言語処理, 2017. (2018年度論文賞) ▪ 目的: 推薦システムに多様性を導入することによってユーザ行動を改善する ▪ 手法: 推薦システムに多様性を導入する前と後で、ユーザ行動の変化を観測し、多様性がどのような 影響を与えたのかを考察する。
  7. (C) Gunosy Inc. All Rights Reserved. PAGE | 7 多様性の有効性を測る実験

    • ユーザ減衰モデルを利用したユーザと既存システムを利用したユーザの   ユーザ行動を比較する • 対象ユーザ  - 2012年8月~12月のグノシーの新規登録ユーザ  - 新規ユーザ以外だと変わったということが影響するの可能性がある  - 既存モデル: 3,465人  - ユーザ減衰モデル: 3,482人 • 評価指標  - サービス利用日数     ・継続率     ・利用頻度  - ニュース閲覧率
  8. (C) Gunosy Inc. All Rights Reserved. PAGE | 8 閲覧数の変化

    •ユーザ減衰モデルにおいて利用する週次ごとに平均閲覧数が高まる   〇特にリスト下部の閲覧数が高まっていく •既存システムは平均閲覧数が低下していく   〇特にリスト下部が低下していく
  9. (C) Gunosy Inc. All Rights Reserved. PAGE | 9 段数別閲覧率の週次変化(1週目〜4週目)

    全体のCTRが向上している
  10. (C) Gunosy Inc. All Rights Reserved. PAGE | 10 なぜリスト下部の閲覧率に変化がおきるか

    • 多様性を高める仕組みがない場合にはどんどん同じような内容のニュース記事で   リストが埋め尽くされていく   - 特に閲覧されやすい内容のニュース記事で埋まりやすい - リストの下の方にいくと既に見たような内容のニュース記事や、    質の低いニュース記事がでる     ・毎日そのジャンルにいいニュースばかりがあるわけではない • 多様性を高めることで,閲覧されやすい内容のニュース記事は上部で   提示されるのみになる   - 他に興味のあるジャンルのニュースで下部が埋まる - また新しい興味を発見する場所にもなりうる
  11. (C) Gunosy Inc. All Rights Reserved. PAGE | 11 クリックベイトに関する研究

    関 喜史: 画像を想起するニュース記事によるクリックベイトの分析 第10回データ工学と情報マ ネジメントに関するフォーラム 2018年3月 ▪ 目的:  クリックベイトを引き起こすニュース記事を特定する ▪ 手法: • 滞在時間に着目し、滞在時間の短いニュース記事の分類を行う • その類型から画像に着目しクリックベイトの候補となるニュース記事を特定を試みる。
  12. (C) Gunosy Inc. All Rights Reserved. PAGE | 12 滞在時間が短いニュース記事の分類

    • 滞在時間が長ければ、ユーザからフィードバックが取れる ◦ 短いニュース記事は取ることが難しい ◦ 短いニュース記事が必ずしも悪いわけではない • 閲覧数が多く,滞在時間が短いニュース記事は以下の3つに大別される ◦ タイトル以上の情報が本文にない ▪ 速報記事、地震がおきたなど ◦ タイトルと本文が明らかに一致していない ▪ これらはよく知られている ▪ 文書類似度による手法が提案されている ◦ タイトルから画像を期待するニュース記事 ▪ この中には画像とタイトルが一致しないと考えられるニュース記事が含まれてい る • 1人による分類をしたところこの比率が30%程度と無視できないレベルで大 きい
  13. (C) Gunosy Inc. All Rights Reserved. PAGE | 13 人手での分類によって画像とタイトルの関係を測る

    • 大目標: 画像とタイトルが一致していないニュース記事を特定し,取り除きたい ◦ そのようなデータセットはない ◦ そのようなニュース記事がどれだけあるのかもわかっていない • 画像とタイトルが一致していないニュース記事のデータセットを作成する ◦ 人手で回答データを集める ▪ 過去の取り組みで1人で300記事程度のラベル付けを行った • グノシーのエンタメカテゴリで配信されたニュース記事 : 1,560記事 ◦ エンタメカテゴリは前回の調査で画像を想起するニュースが非常に多かったため • 2017年10月14日0時~2017年12月8日24時までの8週間の期間において閲覧数が多く , 滞在時 間が短い記事 ◦ 閲覧数は期間中の上位5%以内 ◦ 滞在時間のしきい値は,記事長との相関が低くなる点を選択している ▪ 不満になったときの行動はカテゴリ共通と仮定する • 1記事に対して3名の回答者を12名からランダムに割り当てる ◦ 設問は1記事2問
  14. (C) Gunosy Inc. All Rights Reserved. PAGE | 14 クリックベイトに関する研究

    多数決での判定では多くのニュース記事の画像が適切であると判定された Q2 1人 2人 3人 適切だと思う 255 290 995 どちらともいえない 303 71 11 適切ではないと思う 218 106 73 • 3人が合意した回答の殆どは「適切だと思う」という内容 •「適切ではないと思う」で3人が合意した記事数は全体の4.7% ◦ 明らかに画像が違うもの、画像が入稿ミスなどによって存在しないニュース記事 があった ◦ 一方で判断が難しいニュース記事は合意したものにはなかった • 1人, 2人が「適切ではないと思う」と判断したニュース記事はどのようなニュース記事 だったのか
  15. (C) Gunosy Inc. All Rights Reserved. PAGE | 15 クリックベイトに関する研究

    適切だという回答がユーザの感情を反映していない可能性が高い • 「部分的には適切といえないこともない」ニュース記事が多い ◦ ユーザの目線で考えれば不満を抱くようなニュース記事 • ex.「グラビアアイドルAの大胆セクシーポーズ」 ◦ 写真集のある1ページに言及した記事 ◦ Aが写真集を持っている写真が掲載されている ◦ Aの持っている写真集にはセクシーな写真が載っているが、 Aは私服である • ex. 「全裸で抱き合う俳優Aと女優Bの衝撃写真」 ◦ 俳優Aと女優Bが裸体で抱き合っている「映画ポスター」が公開されたという ニュース記事 ◦ 衝撃写真というキーワードから想定されるものとは大きく異る • 仮説「明らかに不適切だといえない限り不適切だとは回答しづらい」 ◦ 全員が適切と回答したニュース記事にもユーザが不満だと感じるであろうニュー ス記事は一定数存在した
  16. (C) Gunosy Inc. All Rights Reserved. PAGE | 16 クリックベイトに関する研究

    タイトルと画像が一致していないニュース記事は、かなり多いのではないか • Q1で「画像があるべきだと思う」を1人以上回答し、Q2で「適切ではないを   1人以上回答したニュース記事をタイトルと画像が一致していないニュース記    事であるとする • Q1で「画像があるべきだと思う」を1人以上回答したニュース記事を分母とすると、その 割合は35.6% ◦ グノシーはある程度の基盤があるニュース媒体のニュース記事しか配信しておら ず、その中でこの比率は非常に高い • エンタメカテゴリで滞在時間が短いニュースの中で約 35%が呼んだユーザに不満を与 えている恐れがある
  17. (C) Gunosy Inc. All Rights Reserved. PAGE | 17 エコーチェンバーに関する研究

    ・豊橋技術科学大学 吉田助教授との共同研究概要と研究結果 ニュースアプリケーションにおけるユーザ属性間の情報収集バイアスの分析   原文タイトル: Yoshifumi Seki, Yoshida Mitsuo: Analysis of Bias in Gathering Information Between User Attributes in News Application, ▪目的: ウェブで情報を集める際、「エコーチェンバー」や「フィルターバブル」といった現象に人々 がどうやって陥るかを明らかにするため ▪手法: ・情報キュレーションアプリ「グノシー」の実データを使用 ・バイアスのかかったキーワードを探すため、3つのクラスに分け、各クラスの  属性間でのキーワードでの行動の違いを比較    
  18. (C) Gunosy Inc. All Rights Reserved. PAGE | 18 使用データ

    ・2018年8月1日~31日までの1か月間 ・ニュース記事  政治、社会 ・2種類のアクション  クリック、Like(お気に入り) ・100回以上のクリック ユーザー属性 ・自身の属性を「グノシー」で登録したユーザー  ※ユーザーが登録してない場合、機械学習により属性を予測 ・年齢  29歳以下(若年層)、30~39歳(ミドル層)、40歳以上(高年齢層) ・性別  男性、女性     エコーチェンバーに関する研究
  19. (C) Gunosy Inc. All Rights Reserved. PAGE | 19 エコーチェンバーに関する研究

    クリック数とLike数の分布 • 全体としてはクリック数は均等 • Likeは40代以上に偏り • 政治カテゴリは男性、 40代以上に強い偏り • 社会カテゴリは性別は平均に近いが、年齢は 40代以上に偏る
  20. (C) Gunosy Inc. All Rights Reserved. PAGE | 20 エコーチェンバーに関する研究

    回帰分析による比較。回帰分析のパラメータで男女比を推定できる。 左図: 切片が近く、傾きが大きく異なる。 右図: 傾きが近く、切片が大きく異なる。
  21. (C) Gunosy Inc. All Rights Reserved. PAGE | 21 エコーチェンバーに関する研究

    しかし切片も傾きも異なるキーワード同士の比較は難しい。 切片と傾きどちらの特徴が現れるかは分布によって異なるといえる。
  22. (C) Gunosy Inc. All Rights Reserved. PAGE | 22 エコーチェンバーに関する研究

    切片, 傾きが大きく異なる(平均から±2σの範囲)キーワード politics society click like click like Upper (biased to male) 内閣, 中国, 地方 警察 わいせつ Lower (biased to female) 杉田水脈, サマータ イム, 閣僚, オリン ピック, 安倍晋三 安倍晋三 子供, 母親, 捜 索 少年,事故, 母親, 子供, 熱 中症, 病院
  23. (C) Gunosy Inc. All Rights Reserved. PAGE | 23 まとめ

    • Gunosyでの研究開発への取り組み事例について ◦ メディアとしての中長期課題への取り組み ◦ 現場が事業成長を追っているのでその補完的役割 ◦ 国内外への研究発表を通した技術ブランディング ▪ トップカンファレンスに投稿中の事例も複数あります • 研究開発として3〜5年後の課題を解きにいく ◦ これらの問題はユーザ・メディアに負荷をかけるため、放置すると中長期的な経営リスクに なる ◦ 論文化によるブランディング効果を期待しながら数年後のサービスへの投資と位置づけて いる • ビジネス課題と研究課題をどのようにつなげてテーマ設定するか? ◦ 実ビジネスの課題で研究開発したい仲間を募集しています
  24. 情報を世界中の人に最適に届ける