Upgrade to Pro — share decks privately, control downloads, hide ads and more …

ウェブサービス事業者における研究開発インターン[株式会社Gunosy] - テキストアナリティクスシンポジウム2019 / research-intern-case-study-at-gunosy

ysekky
September 27, 2019

ウェブサービス事業者における研究開発インターン[株式会社Gunosy] - テキストアナリティクスシンポジウム2019 / research-intern-case-study-at-gunosy

ysekky

September 27, 2019
Tweet

More Decks by ysekky

Other Decks in Research

Transcript

  1. 第15回テキストアナリティクス・シンポジウム, Sep. 27, 2019. PAGE |2 目次 • 自己紹介 •

    Gunosyの研究開発 • リサーチインターン開始の経緯 • 行った研究とその成果 • Gunosyでの研究に対する環境と評価 • おわりに
  2. 第15回テキストアナリティクス・シンポジウム, Sep. 27, 2019. PAGE |3 自己紹介 • 北田 俊輔

    (KITADA, Shunsuke) ◦ 法政大学大学院 理工学研究科 応用情報工学専攻 修士2年 ▪ 自然言語処理: 文字形状に着目・解釈性のあるモデル • YANS2019にて 奨励賞 受賞 ▪ 医用画像処理: 悪性黒色腫自動診断システムの構築 • IPSJ2019にて 学生奨励賞 受賞 ▪ Gunosy Tech Lab リサーチインターン生 • 関 喜史 (SEKI, Yoshifumi) ◦ Gunosy Tech Lab 研究開発チーム 上席研究員 ▪ Gunosy 共同創業者 ▪ 推薦システム、ユーザ行動分析、コンテンツ評価 ▪ KDD2019, Recsys2019, WI2019 accept!!
  3. (C) Gunosy Inc. All Rights Reserved. PAGE | 5 株式会社Gunosy

    ギリシャ語で「知識」を意味する「Gnosis(グノーシス)」+「u(“you”)」 「”Gnosis” for “you”」あなたのための知識  =情報を届けるサービスを提供し続ける、という意味 ▪ 2012年11月創業 ▪ 2015年4月東証マザーズ上場 ▪ 2017年12月東証第一部に市場変更 ▪ 従業員数 191名 (2019年2月末現在 連結ベース) ▪ 事業内容 – 情報キュレーションサービス その他メディアの開発及び運営 ▪ 提供サービス  グノシー、ニュースパス、LUCRA(ルクラ)、   グノシースポーツ、オトクル 企業理念「情報を世界中の人に最適に届ける」
  4. (C) Gunosy Inc. All Rights Reserved. PAGE | ミッションが明確化された4つの軸で構成。 広告<->メディア間のロジック連携を含め、Private

    DMPを 中心としたチーム間の連携強化を図る。 6 BI • データによる経営の意思決 定サポート ML • 自社メディア・広告の アルゴリズム開発 • アドネットワークの アルゴリズム開発 DR&MLOps • データ資産の価値最大化 • ML Opsの高度化 R&D • 論文投稿・学会発表 • 産学連携 MLOps BI Business Intelligence DMP Data Reliability ML Machine Learning R&D Research & Development GunosyのAI組織体制「ミッション」
  5. 第15回テキストアナリティクス・シンポジウム, Sep. 27, 2019. PAGE |7 Gunosyの研究開発について Gunosyの研究開発体制 • 元々ウェブマイニング系の修士学生3人で作ったサービス

    ◦ JSAI2012には創業者福島のGunosyに関する原稿 ◦ 未踏2012に採択、スーパークリエイター ◦ その後も継続的にJSAIには投稿していた • 2017年4月に研究開発組織を立ち上げ ◦ 論文投稿・発表をKPIにした組織 • 2019年は国際会議に複数の論文が採択 ◦ クリエイティブからのコンバージョン推定 (KDD2019) ◦ 貪欲マルチリービング (Recsys2019) ◦ 即時性をもったニュース推薦システム (WI2019)
  6. 第15回テキストアナリティクス・シンポジウム, Sep. 27, 2019. PAGE |8 Gunosyの研究開発について Gunosyの研究開発体制 • 元々ウェブマイニング系の修士学生3人で作ったサービス

    ◦ JSAI2012には創業者福島のGunosyに関する原稿 ◦ 未踏2012に採択、スーパークリエイター ◦ その後も継続的にJSAIには投稿していた • 2017年4月に研究開発組織を立ち上げ ◦ 論文投稿・発表をKPIにした組織 • 2019年は国際会議に複数の論文が採択 ◦ クリエイティブからのコンバージョン推定 (KDD2019) ◦ 貪欲マルチリービング (Recsys2019) ◦ 即時性をもったニュース推薦システム (WI2019)
  7. 第15回テキストアナリティクス・シンポジウム, Sep. 27, 2019. PAGE |10 リサーチインターン開始の経緯 北田: インターン開始の経緯と業務内容 (2017年3月〜)

    • インターンに応募したきっかけ ◦ 機械学習を実サービスで運用し データサイエンスに強みを持つ ◦ Gunosy社員によるインターン シップに関するツイート • インターンでの主な業務内容 ◦ データ分析部 ▪ ユーザーの行動分析やニュース配信アルゴリズムの開発 ◦ 新規事業部 ▪ フリマアプリ横断検索における検索体験の改善検討 ◦ 広告技術部 ▪ ユーザーのデモグラフィック属性の推定モデル改善 Gunosyの開発インターン超良い、 数値ベースでのサービス改善の 勘所を体系的に、SQLやPython 書きながら学べる。そもそもこの 数値分析とサービス改善をやれてる 会社少ないし、学生がこの手法を 学べるのは大きい。
  8. 第15回テキストアナリティクス・シンポジウム, Sep. 27, 2019. PAGE |11 リサーチインターン開始の経緯 北田: リサーチインターン開始の経緯 (2018年7月〜)

    • 広告技術部でのプロジェクトが一段落 (2018年7月ごろ) ◦ 異なる環境での経験を積もうと他社のインターンシップも検討 ▪ ちょうどサマーインターンシップが開催される時期 • 研究領域にフォーカスできるインターンシップを検討 ◦ 成果を学会発表・論文化できるインターンシップが少ない ▪ 特にtoCや自社アプリを持つ企業の募集は非常に少ない ▪ 開発領域にフォーカスしたインターンが多かった ➜ 北田の自身の志望とは若干の隔たりがあった • Gunosyの研究開発チームの研究員であった関に相談 ◦ Gunosyはインターンとして働き、慣れ親しんだ環境 ◦ 研究テーマとなりうる課題が複数存在
  9. 第15回テキストアナリティクス・シンポジウム, Sep. 27, 2019. PAGE |12 リサーチインターン開始の経緯 リサーチインターンでのテーマの設定や進め方 • テーマの設定

    ◦ 配信効果の高いクリエイティブ自動生成を目標とした 周辺技術の研究をテーマに設定 ▪ 関との複数回ディスカッション ▪ 北田の自然言語処理の分野で研究を進めてきた背景 • 広告技術に関しては広告技術部でのインターン経験あり • 研究の進め方 ◦ 基本的には北田が研究の進め方や実験等を考えて実行 ◦ 関が適宜メンタリングを行う
  10. 第15回テキストアナリティクス・シンポジウム, Sep. 27, 2019. PAGE |14 行った研究とその成果について Jul. Aug. Sep.

    Oct. Nov. Dec. Jan. Feb. Mar. Apr. 2018 リサーチ インターン スタート NLP若手の会 (YANS) シンポジウム KDD 投稿 目標設定 言語処理学会 投稿完了 2019 KDD 投稿完了 KDD 採録決定
  11. 第15回テキストアナリティクス・シンポジウム, Sep. 27, 2019. PAGE |15 行った研究とその成果について Jul. Aug. Sep.

    Oct. Nov. Dec. Jan. Feb. Mar. Apr. 2018 リサーチ インターン スタート NLP若手の会 (YANS) シンポジウム KDD 投稿 目標設定 言語処理学会 投稿完了 2019 KDD 投稿完了 KDD 採録決定 YANS 第13回シンポジウム • 自然言語処理関連の若手研究者・技術者が集まる ◦ 8月下旬 - 9月上旬の間の3日間程度で開催 ◦ 学会開催ギリギリまで研究を詰めることが可能 ▪ 萌芽的な研究が歓迎されている ▪ 予稿提出の必要が無い • リサーチインターンの初手の研究成果を発表
  12. 第15回テキストアナリティクス・シンポジウム, Sep. 27, 2019. PAGE |16 行った研究とその成果について Jul. Aug. Sep.

    Oct. Nov. Dec. Jan. Feb. Mar. Apr. 2018 リサーチ インターン スタート NLP若手の会 (YANS) シンポジウム KDD 投稿 目標設定 言語処理学会 投稿完了 2019 KDD 投稿完了 KDD 採録決定 9月〜12月の間 クリエイティブ作成支援のためのCV予測 • 広告データが不均衡性すぎる問題 • 広告の属性データがあまり活用できていない問題 • 先行研究の指標と目標とする指標が乖離している問題
  13. 第15回テキストアナリティクス・シンポジウム, Sep. 27, 2019. PAGE |17 行った研究とその成果について Jul. Aug. Sep.

    Oct. Nov. Dec. Jan. Feb. Mar. Apr. 2018 リサーチ インターン スタート NLP若手の会 (YANS) シンポジウム KDD 投稿 目標設定 言語処理学会 投稿完了 2019 KDD 投稿完了 KDD 採録決定 KDD2019への投稿を目標に設定 • 国際学会に投稿したい ◦ 学会の候補 ▪ ACL: 自然言語処理の最難関国際会議 ▪ KDD: データマイニングの最難関国際会議 ◦ 広告分野の研究トピックが存在するKDDを目標に
  14. 第15回テキストアナリティクス・シンポジウム, Sep. 27, 2019. PAGE |18 Jul. Aug. Sep. Oct.

    Nov. Dec. Jan. Feb. Mar. Apr. 2018 リサーチ インターン スタート NLP若手の会 (YANS) シンポジウム KDD 投稿 目標設定 言語処理学会 投稿完了 2019 KDD 投稿完了 KDD 採録決定 行った研究とその成果について 言語処理学会 第24回年次大会 • 自然言語に関する 理論から応用までの幅広い研究発表の場 ◦ 3月中旬ごろに3日間程度で開催 ◦ 1月中旬に4ページ程度の予稿提出が義務 ➜ 国際会議の予稿執筆のベースとなる • KDDに投稿する論文の元となる研究成果を発表
  15. 第15回テキストアナリティクス・シンポジウム, Sep. 27, 2019. PAGE |19 Jul. Aug. Sep. Oct.

    Nov. Dec. Jan. Feb. Mar. Apr. 2018 リサーチ インターン スタート NLP若手の会 (YANS) シンポジウム KDD 投稿 目標設定 言語処理学会 投稿完了 2019 KDD 投稿完了 KDD 採録決定 行った研究とその成果について KDDへ投稿 (1月17日 言語処理学会の予稿提出後) • 2月3日の締め切りのKDD2019に向けて本格的に執筆スタート • 北田と関で手分けして英訳を行い初稿を完成 ◦ 予め長めに書いてあった言語処理学会の予稿を元に英訳 • 初稿完成後にまず英文校正 ◦ 不正確な英語での推敲より正しい英語にしてからの推敲のほうが有益 • 推敲時は一緒に1行ずつ読み合わせて主張の齟齬をなくすことを繰り返した
  16. 第15回テキストアナリティクス・シンポジウム, Sep. 27, 2019. PAGE |20 Jul. Aug. Sep. Oct.

    Nov. Dec. Jan. Feb. Mar. Apr. 2018 リサーチ インターン スタート NLP若手の会 (YANS) シンポジウム KDD 投稿 目標設定 言語処理学会 投稿完了 2019 KDD 投稿完了 KDD 採録決定 行った研究とその成果について KDD採択決定 (4月下旬) • 3人のレビュアーが割り割り当てられる ◦ レビュアーの結果を元に採択の決定が行われる • 特にある1人のレビュアーが本研究を非常に評価していた ◦ 本研究の貢献を再三強調することにで重要性を理解していただけた
  17. 第15回テキストアナリティクス・シンポジウム, Sep. 27, 2019. PAGE |21 行った研究とその成果について 広告作成支援のためのマルチタスク学習と Conditional Attentionによるコンバージョン予測

    [Kitada+, KDD19] データの不均衡性に対する精度向上 • 広告クリエイティブの大部分がコンバージョン数ゼロ ◦ データの不均衡さが モデルの学習に悪影響 ◦ スパースな情報のみでは 正確な予測は不可能? • クリック行動も考慮した マルチタスク学習の導入 ◦ クリック行動とコンバージョン行動は相関関係あり ◦ クリックされやすくなおかつコンバージョンされやすい クリエイティブのパターンを学習可能
  18. 第15回テキストアナリティクス・シンポジウム, Sep. 27, 2019. PAGE |22 行った研究とその成果について 属性値を考慮した予測モデルの解釈性向上 広告属性を考慮した新たなattention機構を提案 •

    属性を変えることで 動的なattentionの可視化 ➜ クリエイティブ テキストの作成支援 評価指標の再検討 • コンバージョンが多いクリエイティブを コンバージョンが多いと正しく予測することが目的 ◦ ランキングの評価指標であるNDCGを利用 ➜ 企業の課題を解くため既存の評価指標に囚われない 広告作成支援のためのマルチタスク学習と Conditional Attentionによるコンバージョン予測 [Kitada+, KDD19]
  19. 第15回テキストアナリティクス・シンポジウム, Sep. 27, 2019. PAGE |24 研究に対する環境と評価 研究に対する環境(リソース・実験データ・費用) • 研究に必要なリソースは適切に提供される

    ◦ 計算機環境 ◦ 論文執筆に伴う英文校正 • 実験用のデータはデータベースから直接取得可能 ◦ 各種分析対象となるデータは分析用データベースが存在 ▪ 個人情報に関わる部分は記録されていない ▪ オフィスのネットワークを介してのみアクセス可能 • 操作は社内のラップトップでのみ行われている • 学会参加費等はインターン生含めGunosyがすべて負担 ◦ リサーチインターン期間の国内外3回の発表すべてで負担 ◦ 学会期間は業務扱いとして勤務日相当の給与が発生 学生がインターンとして研究を行い対外発表できる体制あり
  20. 第15回テキストアナリティクス・シンポジウム, Sep. 27, 2019. PAGE |25 研究に対する環境と評価 研究に対する決まりごと • オーサーシップについては事前に確認

    ◦ 各論文・発表には北田の指導教員(彌冨教授)が共著に入る ▪ 所属学生の研究発表には学外の活動であれ 指導教員が一定の責任を持つべき(彌冨教授) ▪ 投稿原稿の確認・フィードバックを頂いた ◦ このあたりは教員によって考え方は異なる ◦ リサーチインターン責任者は指導教員との意思疎通が重要 • 情報管理・情報共有 ◦ 北田とはインターンとしての雇用契約内で処理できると判断 ▪ 法務的な観点ではNDAを締結するほうが良いが、できない場合も ある ▪ 論文は公開されるので、指導教員との情報共有では論文化前提 のもののみ共有することで対応
  21. 第15回テキストアナリティクス・シンポジウム, Sep. 27, 2019. PAGE |26 研究に対する環境と評価 研究に対する評価 • 全社的に高く評価されている

    • 外部への広報 ◦ IR情報への掲載 ◦ オウンドメディアへのインタビュー掲載 • 全社総会でのCEO特別賞の受賞 ◦ 社員以外の受賞は史上初
  22. 第15回テキストアナリティクス・シンポジウム, Sep. 27, 2019. PAGE |28 おわりに 「研究もできる」のではなく「研究ができる」インターン • 企業における研究開発は課題とデータが特徴になる

    ◦ 事業をやる中での課題なので有効性や独自性がでる ◦ それを検証するためのデータも存在する • 会社・社員が論文を出すことをKPIにしているか? ◦ 学生にデータ渡したら論文がでてくるわけではない ◦ メンタリング、マネジメント、社内外での調整が大事 ◦ 論文の重要性をメンターが理解しているか • 「研究ができる」インターン ◦ 「研究もできる」といっているところはほとんどできない ◦ 「研究をやる」ことを大事にする会社にすべき
  23. 第15回テキストアナリティクス・シンポジウム, Sep. 27, 2019. PAGE |29 We are Hiring! リサーチインターンシップのメンバーを募集しています!

    • 論文執筆・投稿を目的として研究に取り組む ◦ Gunosyで運営しているサービスと データを生かした研究業務に従事 ◦ 研究テーマはメンターと議論の上で決定 ➜ 得意分野や興味関心を考慮して決定 ◦ 期間は応相談。1ヶ月を目安 成果を学会・研究会で発表することを目的 ◦ より研究を発展させるために アルバイトや共同研究として継続可能 リサーチインターンシップ(アルバイト) | 株式会社Gunosy https://hrmos.co/pages/gunosy/jobs/0000192