Slide 1

Slide 1 text

守りたいデータがある メルペイ クレジットスコア これから 話 2018/09/05 merpay×M3 機械学習 NIGHT

Slide 2

Slide 2 text

自己紹介 @Hmj_kd メルペイ Machine Learning Engineer 北海道釧路市出身 釧路高専 情報工学科卒業後,東京 大学へ編集入学. 理学部物理学科 Black Hole 境界上 微分幾何や Inflation 宇宙論あたりを勉強し いました. そ 後,諸般 事情 ,プログラマ,データ分析屋,機械学習 エンジニア等を経 ,現在 至る. 現在 仕事 ,飲み会幹事以外 Project内 タスク全 .

Slide 3

Slide 3 text

以前,こういった話をし おりました

Slide 4

Slide 4 text

今日 こん こ を話します ➔ クレジットスコアリングモデル 一般論(再掲) ➔ メルカリ ういったデータを分析 利用 きるか ? ➔ メルペイ クレジットスコア これから つい

Slide 5

Slide 5 text

クレジットスコアリングモデル 一般論

Slide 6

Slide 6 text

クレジットスコアリングモデル 一般論 ● そもそもクレジット(= 信用) ? 問題設定が難しい ● 純粋 classificationだけ く,与信付与等 意思決定や損失額等 シ ミュレーションもある ● Imbalanced Data ● 個人情報や機微情報等 高い情報管理

Slide 7

Slide 7 text

そもそもクレジット(= 信用) ? 一般的 , ”企業 融資”,”後払い サービス” 債務不履行リスク 評価,等 “貸し出 しリスク” をクレジット 扱っ いる. 一方,中国 “Zhima信用” ,シェアバイク 利用状況や,ソーシャルネット ワーク つ がり, 必ずしもお金だけ 紐付いた信用だけ い.

Slide 8

Slide 8 text

Imbalanced や シミュレーション等 問題性質 ● 後払い 着目する ,顧客側 支払い義務が守られず ,支払いが滞る率 が高すぎる そもそも後払い いうサービス運営が き い ○ → 一般的 未払い者数 << 支払い者数 あり,Imbalanced る ● (下図:例,スコア 融資限度額 関係図) ○ 貸し出し リスク 分類問題だけ く,貸す場合 ■ くらい 限度額を設定するか ? ■ それ より債務不履行 る確率的 期待値 ?

Slide 9

Slide 9 text

個人情報や機微情報等 高い情報管理 こちら 後述いたします.

Slide 10

Slide 10 text

メルカリ ういったデータを分析 利用 きるか ?

Slide 11

Slide 11 text

メルカリ データ ● 出品データ ○ 商品画像 ○ 商品名 ○ 商品説明 ○ 商品状態 ○ 商品価格 ○ カテゴリ ○ ブランド ○ サイズ ○ 配送方法 ● サポートコミュニティ ○ Q&Aデータ ● お客さま 行動データ ○ 商品検索 ○ 商品タップ ○ 商品へ 「いい 」 ○ 商品へ コメント ○ 価格交渉 ○ 商品購入 ○ 商品出品 ○ 取引メッセージ ○ 問い合わせ ○ 商品通報 ● ライブフリマ ○ 動画データ 画像 / 動画 / テキスト / 行動ログ ,多岐 わたる大量 データ

Slide 12

Slide 12 text

これから

Slide 13

Slide 13 text

検討したい 思っ いるこ 1. データ解析 プライバシー保護技術を取り入れる a. 悪意をもっ 情報を抜き取 ろう する人(攻撃者)から,大切 情報をまもる b. モデリング中 人為的 ミスを防ぐため も 2. スコア 特徴量 設計次第 ,(スコアが表示された世界 )利用される方た ち 行動が変わる可能性がある a. (状態, 行動, 報酬)等を考慮 きそう ,強化学習 が想像しやすい b. そもそも 議論もし いく必要 ある

Slide 14

Slide 14 text

プライバシー保護技術 ... - プライバシー - 個人情報,要配慮情報, ... - プライバシ保護技術 - データ解析 おけるプライバシー 保護 - よう 定義される か - よう すれ 保護しつつデータ解析が きるか - いった問題を統計学,データ工学,暗号理論 観点

Slide 15

Slide 15 text

事例や用語 紹介 ● Netflix 事例 ○ Kaggle コンペティション 公開されたデータ(映画 レイティング) ,個人 特定を防ぐ処理 が施され いた. ○ 一方 ,特定 背景情報をもつ ら 一意 特定 きる条件が統計的 導かれ,個人 特定 が高い確率 可能 ある 主張された. ● k-匿名性 ○ 例) 30代, 男性, 港区 企業 勤め いる , 関東在住, ...

Slide 16

Slide 16 text

安全性を定量的 議論したい Q. 秘密 入力 x つい f 出力 y = f(x) を公開した します. 攻撃者が y を得た き ,x が 程度推測されるか , よう 評価すれ よいか ? 引用 : データ解析 おけるプライバシー保護

Slide 17

Slide 17 text

さいご

Slide 18

Slide 18 text

チームメンバーを募集し おります ➔ [merpay]ソフトウェアエンジニア(Machine Learning) ➔ [merpay]エンジニアリングマネージャー(Machine Learning) もしご興味ありましたら @Hmj_kd ま ご連絡ください. 引用 : https://medium.com/moonshot/ataengineers-vs-data-scientist-13fce30812a7

Slide 19

Slide 19 text

ご清聴ありが うございます !!