Link
Embed
Share
Beginning
This slide
Copy link URL
Copy link URL
Copy iframe embed code
Copy iframe embed code
Copy javascript embed code
Copy javascript embed code
Share
Tweet
Share
Tweet
Slide 1
Slide 1 text
守りたいデータがある メルペイ クレジットスコア これから 話 2018/09/05 merpay×M3 機械学習 NIGHT
Slide 2
Slide 2 text
自己紹介 @Hmj_kd メルペイ Machine Learning Engineer 北海道釧路市出身 釧路高専 情報工学科卒業後,東京 大学へ編集入学. 理学部物理学科 Black Hole 境界上 微分幾何や Inflation 宇宙論あたりを勉強し いました. そ 後,諸般 事情 ,プログラマ,データ分析屋,機械学習 エンジニア等を経 ,現在 至る. 現在 仕事 ,飲み会幹事以外 Project内 タスク全 .
Slide 3
Slide 3 text
以前,こういった話をし おりました
Slide 4
Slide 4 text
今日 こん こ を話します ➔ クレジットスコアリングモデル 一般論(再掲) ➔ メルカリ ういったデータを分析 利用 きるか ? ➔ メルペイ クレジットスコア これから つい
Slide 5
Slide 5 text
クレジットスコアリングモデル 一般論
Slide 6
Slide 6 text
クレジットスコアリングモデル 一般論 ● そもそもクレジット(= 信用) ? 問題設定が難しい ● 純粋 classificationだけ く,与信付与等 意思決定や損失額等 シ ミュレーションもある ● Imbalanced Data ● 個人情報や機微情報等 高い情報管理
Slide 7
Slide 7 text
そもそもクレジット(= 信用) ? 一般的 , ”企業 融資”,”後払い サービス” 債務不履行リスク 評価,等 “貸し出 しリスク” をクレジット 扱っ いる. 一方,中国 “Zhima信用” ,シェアバイク 利用状況や,ソーシャルネット ワーク つ がり, 必ずしもお金だけ 紐付いた信用だけ い.
Slide 8
Slide 8 text
Imbalanced や シミュレーション等 問題性質 ● 後払い 着目する ,顧客側 支払い義務が守られず ,支払いが滞る率 が高すぎる そもそも後払い いうサービス運営が き い ○ → 一般的 未払い者数 << 支払い者数 あり,Imbalanced る ● (下図:例,スコア 融資限度額 関係図) ○ 貸し出し リスク 分類問題だけ く,貸す場合 ■ くらい 限度額を設定するか ? ■ それ より債務不履行 る確率的 期待値 ?
Slide 9
Slide 9 text
個人情報や機微情報等 高い情報管理 こちら 後述いたします.
Slide 10
Slide 10 text
メルカリ ういったデータを分析 利用 きるか ?
Slide 11
Slide 11 text
メルカリ データ ● 出品データ ○ 商品画像 ○ 商品名 ○ 商品説明 ○ 商品状態 ○ 商品価格 ○ カテゴリ ○ ブランド ○ サイズ ○ 配送方法 ● サポートコミュニティ ○ Q&Aデータ ● お客さま 行動データ ○ 商品検索 ○ 商品タップ ○ 商品へ 「いい 」 ○ 商品へ コメント ○ 価格交渉 ○ 商品購入 ○ 商品出品 ○ 取引メッセージ ○ 問い合わせ ○ 商品通報 ● ライブフリマ ○ 動画データ 画像 / 動画 / テキスト / 行動ログ ,多岐 わたる大量 データ
Slide 12
Slide 12 text
これから
Slide 13
Slide 13 text
検討したい 思っ いるこ 1. データ解析 プライバシー保護技術を取り入れる a. 悪意をもっ 情報を抜き取 ろう する人(攻撃者)から,大切 情報をまもる b. モデリング中 人為的 ミスを防ぐため も 2. スコア 特徴量 設計次第 ,(スコアが表示された世界 )利用される方た ち 行動が変わる可能性がある a. (状態, 行動, 報酬)等を考慮 きそう ,強化学習 が想像しやすい b. そもそも 議論もし いく必要 ある
Slide 14
Slide 14 text
プライバシー保護技術 ... - プライバシー - 個人情報,要配慮情報, ... - プライバシ保護技術 - データ解析 おけるプライバシー 保護 - よう 定義される か - よう すれ 保護しつつデータ解析が きるか - いった問題を統計学,データ工学,暗号理論 観点
Slide 15
Slide 15 text
事例や用語 紹介 ● Netflix 事例 ○ Kaggle コンペティション 公開されたデータ(映画 レイティング) ,個人 特定を防ぐ処理 が施され いた. ○ 一方 ,特定 背景情報をもつ ら 一意 特定 きる条件が統計的 導かれ,個人 特定 が高い確率 可能 ある 主張された. ● k-匿名性 ○ 例) 30代, 男性, 港区 企業 勤め いる , 関東在住, ...
Slide 16
Slide 16 text
安全性を定量的 議論したい Q. 秘密 入力 x つい f 出力 y = f(x) を公開した します. 攻撃者が y を得た き ,x が 程度推測されるか , よう 評価すれ よいか ? 引用 : データ解析 おけるプライバシー保護
Slide 17
Slide 17 text
さいご
Slide 18
Slide 18 text
チームメンバーを募集し おります ➔ [merpay]ソフトウェアエンジニア(Machine Learning) ➔ [merpay]エンジニアリングマネージャー(Machine Learning) もしご興味ありましたら @Hmj_kd ま ご連絡ください. 引用 : https://medium.com/moonshot/ataengineers-vs-data-scientist-13fce30812a7
Slide 19
Slide 19 text
ご清聴ありが うございます !!