Upgrade to Pro — share decks privately, control downloads, hide ads and more …

データサイエンティストと博士の専門性

 データサイエンティストと博士の専門性

2022/5/18 データサイエンティストとは?~求められるスキルと経験~ @アカリク 発表資料
https://acaric.connpass.com/event/247341/

M. Takano

May 18, 2022
Tweet

More Decks by M. Takano

Other Decks in Research

Transcript

  1. 2 ⾼野 雅典(リサーチャー/@mtknnktm) •仕事: サイバーエージェントの⾃社メディア・ゲームの データ分析関連もろもろ + 研究 その前はシステムエンジニア@前職SIer、JavaScriptエンジニア@CyberAgent 学⽣時代@名古屋⼤学の専⾨は

    複雑系・⼈⼯⽣命。博⼠(情報科学) •研究の興味: 複雑系・計算社会科学 •所属 Multi-disciplinary Information Science Center (MISC) データと研究関連のいろいろをする組織 https://www.cyberagent.co.jp/techinfo/labo/research_list/
  2. データ分析をするまでの紆余曲折 n ⼤学: 会津⼤学コンピュータ理⼯学部 • プログラミング楽しい・⼈⼯知能的なこと楽しそう n ⼤学院: 名古屋⼤学情報科学研究科 複雑系科学専攻

    • 複雑系・⼈⼯⽣命・進化・ヒトの社会性・進化ゲームをテーマに研究 • M1-D1ぐらい: 研究楽しい • D2, D3: 研究わからないつらい無理 → 研究ではなく技術職を⽬指す n 前職: システムインテグレーター(2年半ほど在籍) • SEとして開発したり技術調査したり要件定義したり: システム開発⾯⽩い さまざまな⾯で勉強になった・楽しかったが → もっとプログラミングしたい n 現職: サイバーエージェント • スマートフォンゲームのフロントエンドエンジニア(1年ぐらい) • HTML/CSS/JavaScript + α • BtoCサービスの⽴ち上げから運⽤までいろいろ • ゲームなんて作ったことないのに⼊社⽇当⽇にできたチームに唯⼀のエンジニアとしてアサインされる😇 • データ活⽤と研究開発の組織になんやかんやあって異動(現在に⾄る) • ⾃社のゲームやメディアなどサービスのデータ分析・課題発⾒・提案など • ⾃社サービスを対象とした計算社会科学研究(ビッグデータを使った社会科学っぽい研究) 詳細は ACARIC JOURNAL Vol.2 “⼀度あきらめた研究活動の再開 ―企業内でこっそり始めた計算社会科学研究―” https://acaric.jp/articles/journal/3849 をご参照ください 3
  3. 博⼠の強みって? nよく⾔われるのは汎⽤的能⼒ • ロジカルシンキング • 課題発⾒能⼒ • プレゼン能⼒ など nもちろんデータサイエンティストを含む多くの職種で重要

    • 重要ということは、当然、実務を通しても⾝につく(研修もある) • 学部卒+(n+5)年、修⼠卒+(n+3)年、博⼠卒+n年 にどのぐらいの違いがある? • ※ 特にエビデンスのない私⾒です • ※ ⽐較する場合は進学による⽣存バイアスを考慮する必要がある • 平⾝低頭で頂いたご指摘を資料に反映することは得意かも • We agree your comment. In according to this comment, we have revised.... 8 PhD スキルフレームワークの作成と活⽤ −名古屋⼤学院⽣の⾃律的スキル訓練⽀援− https://www.cshe.nagoya-u.ac.jp/publications/journal/no20/20.pdf このPhDを他の専⾨職に置き換えても それっぽい図になるような・・・
  4. 博⼠の強みって? その2 n実務では触れる機会のない(触れづらい)専⾨性とその周辺 • ⼀⾒事業と関連のなさそうな「⾃⾝の専⾨性・問題意識」と ⾃社の事業やデータに関連を⾒出すことができれば⾮常に強⼒なのでは nデータサイエンティストの「ビジネス⼒・データサイエンス⼒・デー タエンジニアリング⼒」は事業を問わない⼀般的なスキルセット ※ ビジネス⼒にはドメイン知識(関連法律・制度、競合他社、etc.)なども含まれる様⼦

    • ここに各種の「専⾨性」を加えたい n本発表では(⾼野が経験した)専⾨性と事業の 接点の事例をご紹介いたします。 • 事業とご⾃⾝の専⾨性の交互作⽤を考える 材料となれば幸いです。 • ⾼野の分野の都合上、Web×社会科学に話題 が偏っていますが、他の分野でも同様の議論 は可能だと考えています。 9 データサイエンティスト協会プレスリリース (2014.12.10) http://www.datascientist.or.jp/news/2014/pdf/1210.pdf
  5. 当社事業領域の背景: Webメディア市場拡⼤、社会-Webの関係の複雑化 → 企画・デザイン・エンジニアリングでは扱いきれない事象が増加 n 社会に受容される/されないやり⽅ • ビッグデータとプライバシー • 機械学習/統計と差別・バイアス

    n 社会問題におけるWebメディアの影響度の増⼤ • ヘイトスピーチ • フェイクニュース(政治的⾔説、医療デマなど) • 炎上、ネットいじめ • ネット依存症 • 接触情報の偏り(フィルターバブル・選択的接触) n Webメディアの問題解決能⼒も影響度を増⼤ • 現実の社会関係の補間(居場所がない⼈に居場所・仲間を提供) • ⾼品質情報・コンテンツの提供(ニュース・ドラマなど) • 恋愛機会の格差の是正 ⼈/社会/⽂化の性質の側⾯からもメディアサービスの理解・推進が必要 社会科学の活⽤、計算社会科学 10 統計学・情報技術だけでの 扱いは難しく、学術研究でも 学際的なチームによるものが 多い この辺りはデータサイエンティスト のビジネス⼒でも⾔及されるように なってきた
  6. 社会科学がデータ分析に与えるもの 11 n社会科学は複雑な社会・⼈間⾏動に対する捉え⽅「モデル」を提供し てくれる • そのモデルに対する様々な証拠もある • 気になる現象を調べる際に以下が整理される • どんなデータが必要か

    • 何をどのように調べればよいか • 調べてわかったことはどこまで⼀般化できそうか 相互の協⼒: 互恵性の理論 社会の分断と対⽴: 選択的接触・内集団バイアス 助け合い: ソーシャルサポート
  7. ソーシャルゲームと社会的相互作⽤ nソーシャルゲームはプレイヤー間での協調・競争が醍醐味 • 協調し合うと有利にゲームを進められる • ⼀⽅で各プレーヤーは仲間を含め全員と(ランキング)競争をして いる nこのような “醍醐味” をうまく分析したい

    n進化⽣物学・社会科学などでの「協調⾏動研究」 • 直接的に⾃分に利益があるわけではない協調⾏動が⼈間を含む多く の⽣物種で進化している • 協調的な個体は利⼰的な個体と接触すると搾取される⼀⽅なので、安定な協 調関係は不安定なはず • なぜ⼈や動物は協調するのか? 進化⽣物学・社会科学では主要な課題の⼀つ • 進化ゲームなどの数理的枠組みを⽤いて多くの理論・実験・フィールド研究 が積み重ねられてきた 13
  8. 14 進化ゲームとソーシャルゲーム 進化ゲーム理論の特徴 ソーシャルゲームの特徴 利得は1次元の連続的な数値 ゲーム上での利益は1種類で定量的(イ ベントのポイントなど) 集団を構成する個体数は⾮常に多い DAU: 数万〜数⼗万

    各個体の出会いはランダム(発展的研 究では局所性あり) 各プレイヤーの出会いにはグループや フレンドなどにより偏り 初期値は推定できないので、主に⼗分 な時間が経った後について分析 ヒットしたら1年以上の運営期間。 各イベントは1週間程度 進化だけでなく学習などによる戦略の 推移も扱う プレイヤーは動的に⾃分に有利になる ように戦略を学習
  9. ソーシャルゲームと利他⾏動・進化ゲーム n進化ゲームの枠組みと協調⾏動進化の理論研究 → プレイヤー間の協調と競合を調べる上で重要なポイントを抽出 • プレイヤーのギルド移動戦略、他愛もない挨拶の効果、初対⾯での協調的振る舞 いなどを⽰した • Masanori Takano,

    Kazuya Wada, and Ichiro Fukuda, "Lightweight Interactions for Reciprocal Cooperation in a Social Network Game", SocInfo, 2016 • Masanori Takano, Kazuya Wada, and Ichiro Fukuda, "Environmentally Driven Migration in a Social Network Game", Scientific Reports, 5, 12481 (2015). • Masanori Takano, Kazuya Wada, and Ichiro Fukuda, "Reciprocal Altruism-based Cooperation in a Social Network Game", New Generation Computing, Vol. 34, No. 3, pp. 257-271, 2016. n発⾒した「ソーシャルゲームと進化ゲームとの相性の良さ」から別の ゲームにて「協⼒プレイ仕様の⽳」を発⾒するためのマルチエージェン トシミュレーションなども実施 • ⼩狡い⾏動が⽣まれてしまう仕様の⽳を事前に把握し対策につなげた 15
  10. ユーザ⾏動分析と社会科学 nユーザを理解するために社会科学のモデルを活⽤することを考える • 調べるべきことの整理 • より⼀般的な理解 • 先⾏研究と⽐較することによる得られた結果の妥当性評価 18 ゲーム内⾏動A

    (継続利⽤・課⾦など) サービス内⾏動B (記事閲覧、会話など) 環境・施策 ① 相関・因果を 統計的に分析 ⼈間の⼼理や⾏動、社会現象に関するモデル 態度 規範 制御 意図 ⾏動 社会⼼理学者、 臨床⼼理学者 と共同研究を実施
  11. 事例: ヘイトスピーチ問題 ‒ 概念の整理 n ステレオタイプ • 特定の⼈たちに対する決めつけたものの⾒⽅ • 男/⼥だから⻘/ピンクが好きだろう

    • 営業職/技術職だからきっと〇〇な⼈だ • 〇〇⼈はみんな××な性格だ n 偏⾒ • 特定の⼈あるいはグループに対して抱く善悪や好悪などの態度。これを発⾔などすることが偏 ⾒の表出 • 男/⼥は〇〇なのですぐ××して嫌だ • 営業職/技術職は〇〇なキャラだから付き合いにくい • 〇〇⼈は××な性格だから犯罪を犯しやすい n 差別 • 特定の⼈あるいはグループに対して抱く善悪や好悪などの判断に基づく不公正な⾏為、処遇。 • 男/⼥は〇〇なのですぐ××して嫌だから採⽤しない • ビジネス職/技術職は〇〇なキャラだから付き合いにくいから昇進させない • 〇〇⼈は××な性格だから犯罪を犯しやすいので⼊国を拒否する • 〇〇な⼈たちは××だから(ネット上)で攻撃をしてもいい(ネットのヘイトスピーチ) 19 ステレオタイプ 偏⾒ 差別
  12. 事例: ヘイトスピーチ問題 ‒ 概念の整理 n ステレオタイプ • 特定の⼈たちに対する決めつけたものの⾒⽅ • 男/⼥だから⻘/ピンクが好きだろう

    • 営業職/技術職だからきっと〇〇な⼈だ • 〇〇⼈はみんな××な性格だ n 偏⾒ • 特定の⼈あるいはグループに対して抱く善悪や好悪などの態度。これを発⾔などすることが偏 ⾒の表出 • 男/⼥は〇〇なのですぐ××して嫌だ • 営業職/技術職は〇〇なキャラだから付き合いにくい • 〇〇⼈は××な性格だから犯罪を犯しやすい n 差別 • 特定の⼈あるいはグループに対して抱く善悪や好悪などの判断に基づく不公正な⾏為、処遇。 • 男/⼥は〇〇なのですぐ××して嫌だから採⽤しない • ビジネス職/技術職は〇〇なキャラだから付き合いにくいから昇進させない • 〇〇⼈は××な性格だから犯罪を犯しやすいので⼊国を拒否する • 〇〇な⼈たちは××だから(ネット上)で攻撃をしてもいい(ネットのヘイトスピーチ) 20 ステレオタイプ 偏⾒ 差別 多くの情報系の研究対象はヘイトスピーチ(差別)
  13. 事例: ヘイトスピーチ問題 ‒ 概念の整理 n ステレオタイプ • 特定の⼈たちに対する決めつけたものの⾒⽅ • 男/⼥だから⻘/ピンクが好きだろう

    • 営業職/技術職だからきっと〇〇な⼈だ • 〇〇⼈はみんな××な性格だ n 偏⾒ • 特定の⼈あるいはグループに対して抱く善悪や好悪などの態度。これを発⾔などすることが偏 ⾒の表出 • 男/⼥は〇〇なのですぐ××して嫌だ • 営業職/技術職は〇〇なキャラだから付き合いにくい • 〇〇⼈は××な性格だから犯罪を犯しやすい n 差別 • 特定の⼈あるいはグループに対して抱く善悪や好悪などの判断に基づく不公正な⾏為、処遇。 • 男/⼥は〇〇なのですぐ××して嫌だから採⽤しない • ビジネス職/技術職は〇〇なキャラだから付き合いにくいから昇進させない • 〇〇⼈は××な性格だから犯罪を犯しやすいので⼊国を拒否する • 〇〇な⼈たちは××だから(ネット上)で攻撃をしてもいい(ネットのヘイトスピーチ) 21 ステレオタイプ 偏⾒ 差別 多くの情報系の研究対象はヘイトスピーチ(差別) 我々は「偏⾒」の表出が研究対象としたい 幅広くあいまいなため検出も対策も難しい
  14. 事例: ヘイトスピーチ問題 ‒ 概念の整理2 n2種類のレイシズム [Kinder 1981] [McConahay 1986] •

    古典的レイシズム • 被差別⺠族は能⼒や倫理観が劣っているという信念に基づく偏⾒ • おおっぴらに表出する⼈は流⽯に少ない(現実世界では) • 現代的レイシズム • 差別はもはや解決しているにも関わらず被差別⺠族が恵まれていな かったり権利を求めるのはただの怠惰であり、本⼈の責任であるとい う信念に基づく偏⾒ • ⾔っている本⼈は正しいことを⾔っていると思っているので、偏⾒だ と⾃覚せずに発⾔する⼈もいる n⿊⼈への偏⾒@⽶国を理解するために考案されたフレーム ワーク • ⽇本における在⽇コリアンへの偏⾒にも適⽤可能 [⾼ 2015] • [⾼ 2015] の分類コードを拡張してAbemaTVのコメントに適⽤ 22
  15. 23 ニュースへのコメントは視聴者間の政治コミュニケーションが促される ⼀⽅でそこには偏⾒やヘイトスピーチなど不適切なコメントも少なからず存在し課題がある → 偏⾒に満ちた投稿・ヘイトスピーチ対策のために、そういった投稿を理解したい コリアン(韓国・北朝鮮・在⽇コリアン)への偏⾒に焦点 ニューストピックと3つの人種的偏見投稿パターン 1. 多くの “普通の人”

    が素朴に偏見をときどき投稿 2. 偏見の強い人がニュースにこじつけて表出 3. 極端な偏見の人が無差別/頻繁に投稿 偏見に関連するニュース ・政治や国際情勢 - 日韓関係や在日特権への不満 ・犯罪・事件 - 犯罪者を無根拠にコリアンだと決めつけて罵倒 偏見と関係が弱いニュース ・事故・災害 - ニュースはコリアンに言及していないのに関わらず投稿。 「税金が在日コリアンに使われるから被災者(日本人)に お金が回らない」など ・芸能 - 出演者をコリアンと無根拠に決めつけて罵倒 ニュースと無関係に投稿 ・極右政治グループのプロパガンダ ・コリアンの道徳/能力/見た目の劣等性をひたすら主張 対策への示唆 • パターン1 ◦ たくさんの普通の人がときどきする行為にア カウント単位での対策は意味がない(凍結な ど) ◦ ニューストピックによって投稿される偏見内容 が異なる ◦ ニューストピックに沿ったNG辞書によるコメ ントフィルタリングが有効 • パターン2, 3 ◦ 強い偏見を持つ人が何度も投稿(特にパター ン3)する ◦ アカウント単位の対策が有効 M. Takano, F. Taka, et al, “Three clusters of contents-audiences associations in expressions of racial prejudice during watching online television news”, PLOS ONE, 2021. 事例: ヘイトスピーチ問題 ‒ 分析結果
  16. システムの流れ 25 n 現在、試験運転中 n 東京⼤学 ⿃海教授・⻄⼝研究員との共同研究・開発 • ネットワーク科学 +

    ⼈⼯知能技術 リスク評価システム 違反データ ⾏動・ネットワークデータ 啓発メッセージ - ⾼リスクユーザ - ⾼リスクユーザと接触の多いユーザ ユーザのリスク評価 ニュースリリース 「ピグパーティ」、メタバース内に おける犯罪被害リスクをAIで検知・啓 発するシステムの試験運⽤を開始
  17. 他の事例 n仮想世界(ピグパーティ)で現実世界を補完する • 背景と⽬的 • リアルで困難な状況に置かれる⼈にとって仮想世界は貴重な社会資源 • 性的マイノリティ、いじめ被害者、ワンオペ⼦育て中の⼈など • 仮想世界の⼈間関係を促進してユーザ満⾜度を⾼めたい

    • アプローチ • オンラインソーシャルサポート、抑うつや精神的健康に関するモデルや知⾒を活⽤ • 成果 • Kenji Yokotani and Masanori Takano, "Differences in Victim Experiences by Gender/Sexual Minority Statuses in Japanese Virtual Communities", Journal of Community Psychology, pp.1‒ 19, 2021. • Masanori Takano and Takaaki Tsunoda, "Self-Disclosure of Bullied-Experiences and Social Support in Avatar Communication", Proceedings of the Thirteenth International Conference on Web and Social Media (ICWSM-2019), Vol. 13, No. 1, 2019. • Masanori Takano and Kenji Yokotani, "Online Social Support via Avatar Communication Buffers Harmful Effects of Offline Bullying Victimization", Proceedings of the Thirteenth International Conference on Web and Social Media (ICWSM-2022). • Kenji Yokotani and Masanori Takano, "Social rhythms measured via social media use for predicting psychiatric symptoms", APSIPA Transactions on Signal and Information Processing, Vol. 10, e16, 2021. • Masanori Takano and Fumiaki Taka, "Fancy avatar identification and behaviors in the virtual world: Preceding avatar customization and succeeding communication", Computers in Human Behavior Reports, 100176, 2022. 26
  18. サービス運営者が取得しうる個⼈に関する情報 28 n 例えば • 利⽤者がサービスを利⽤するにあたって⾃ら登録する情報 • ユーザ登録情報や公開プロフィールなど • 利⽤者のサービス上でのログによる⾏動履歴

    • 直ちには個⼈情報とはならないが個⼈を識別し得る情報 • 広告識別⼦をはじめとするCookie などの情報 • 通信の秘密に相当する情報(届出電気通信事業者としての正当業務⾏為の範囲内で記 録) • SNS などを提供しているときでクローズドチャットなどの他⼈の通信を媒介するサービスを提供 している場合 • 送信先やメッセージの内容など n 当然、法律を遵守し、権利を侵害しないようにデータを使う必要がある • ユーザのデータを使う場合は利⽤規約によって利⽤⽬的とデータを明⽰して、適切に データ利⽤に同意して頂く必要がある • 包括的な同意は無効 • 他社からデータを購⼊して利⽤する場合は契約書に準ずる 森下壮⼀郎, “データサイエンスの実務とビジネス・倫理”, 信学技報, vol. 120, no. 52, SITE2020-7, pp. 41-44
  19. データ取得・活⽤するサービスを使ってもらえるかはまた別の話 n個⼈データ利活⽤の社会的受容性 • ⾃分のデータを使っても良いと思うか嫌だと思うか • だれに、なにを、どんなふうに、なんのために、で異なる 29 利⽤主体 公共機関 研究機関

    私企業 (国内/外資) データ種別 容姿 収⽀・資産 保健・医療 ⾏動履歴 処理結果 個⼈の同定 ⽀払能⼒や年収 病気や寿命 将来の⾏動や意図 趣味や嗜好 利⽤⽬的 与信・保険 統制 福祉 広告 × × × Soichiro Morishita, Masanori Takano, Hideaki Takeda, Faiza Mahdaoui, Fumiaki Taka and Yuki Ogawa, "Social acceptability of personal data utilization business according to data controllers and purposes", WebSci’21, 2021.
  20. 受容性の選択肢 • 実施の可否:社会通念に照らし合わせた場合の受容 • 利用の意図:個人的観念に照らし合わせた場合の受容 • 加えて状況としておかしいと感じた場合の選択肢 「そもそも具体的なイメージが湧かない」を追加 実施されてよい 実施されてはいけない

    自分は利用する 実施されてよい。自分は利用 する。 実施されてはいけないと思うが、 自分はやむを得ず利用する。 自分は利用しない 実施されてよいが、自分は利 用しない。 実施されてはいけない。利用もし ない。 30
  21. まとめ n博⼠(などの専⾨性を持つ⼈)の強みはやはり専⾨性ではないか • 専⾨性の活かし⽅・戦い⽅を⾒つけることができると楽しい nとはいえ、かなりの部分が本⼈以外のところに依存する気もする • 上司・同僚・会社の理解、タイミング • これらについては⾼野は⾮常に運が良かった n⾃分の専⾨にこだわりすぎず⾃分の興味を役⽴つように持っていく?

    • こだわりすぎるとあまりよくない • 道に迷う(※ ⾼野のD2のころ) • 周囲が受け⼊れづらい • 論⽂投稿でのResponse Letterで得た平⾝低頭スキルが活きる時 n専⾨性以外のスキルももちろん重要 • ある程度のビジネス⼒・データサイエンス⼒・データエンジニアリング⼒(の 少なくともどれか1つ)はあり、基本的な業務遂⾏ができることは前提 • この3つのスキルとドメイン知識に専⾨性を加えることができれば強⼒な武器に なるはず 38