Upgrade to Pro — share decks privately, control downloads, hide ads and more …

MNTSQ社内勉強会 #3 AI SaaSに埋め込んでおくと良いかもしれない打ち手3つ

MNTSQ
April 22, 2022
230

MNTSQ社内勉強会 #3 AI SaaSに埋め込んでおくと良いかもしれない打ち手3つ

MNTSQ

April 22, 2022
Tweet

Transcript

  1. 6 NLPで使えるワザ (戦術レベル) • (初期に有用)敵対的データを作って効率よく学習する ◦ NLPの教師データは比較的作りやすい ▪ 例えば画像データや音声データの トレーニングデータを集めるのは超大変

    • 例:猫のようにも見える角度で犬の写真を集めるの、できます? ▪ エキスパートがいればNLPでは「成長に効く」 データを作りやすい(オーバーフィットには注意) ▪ 弱教師+Adversarial Exampleのループ • プリトレーンドモデルをレバレッジする ◦ BERT等の学習済みのモデルを使うことで該当ドメインの データ量がある程度少なくとも精度が出せる • Small Clean Dataに投資する ◦ Small Clean Data > Big Data ◦ "Data量を倍にするのとデータを きれいにするのは同じ効果" (Andrew Ng)
  2. 9 PrecisionとRecallのどちらが重視されるかに応じて 調整をかけることも可能 9 真陽性 偽陽性 偽陰性 真陰性 陽性のもの 機械学習モデルが

    陽性と判断したもの モデルが陽性と判断した もののうちどの程度が本 当に陽性か 陽性のもののうち どの程度をモデルが 検出できたか Precision Recall Precisionが高いと モデルの検出した 条項や契約類型を より信頼できる (検索等で有用) Recallが高いと モデルの見つけ漏れが 少なくなる (危険条項検出等で有用) 例えば、Precision重視のタスクなのであれば Recallを犠牲にしてPrecisionの値を伸ばすことが可能