Upgrade to Pro — share decks privately, control downloads, hide ads and more …

LT at nlp_career

LT at nlp_career

64fb973c47087ece7fb9b45d5b8593a4?s=128

yag_ays
PRO

July 10, 2019
Tweet

More Decks by yag_ays

Other Decks in Programming

Transcript

  1. 1 yag_ays Machine Learning Engineer @Sansan, Inc. ! NLP研究室出⾝ (Bioinformatics)

    ! 博⼠号
  2. 2 https://yag-ays.github.io/

  3. pytorchでBERTの⽇本語学習済みモデルを利⽤する - ⽂章埋め込み 編 / SWEM: 単語埋め込みのみを使うシンプルな⽂章埋め込み深層 学習時代の⾔語判定の最新動向 / Fasttextを⽤いた⾔語判定

    / MeCabの形態素解析の結果から正規表現を使って品詞列を抜き出 すmecabpr / 単語埋め込みにおけるout-of-vocabularyの対応 - magnitudeの初期化」 / 後処理のみで単語ベクトルの性能を向上さ せるALL-BUT-THE-TOPを使った⽇本語学習済み分散表現 / 語彙 を限定して単語ベクトルのモデルサイズを⼩さくするminify_w2v / ⽇本語Wikipediaで学習したdoc2vecモデル / Wikipediaの記事ごと のページビューを取得する / Word Embedding based Edit Distanceの実装 / 学習済み分散表現をTensorBoardで可視化する (gensim/PyTorch/tensorboardX) / Unicode絵⽂字の⽇本語読み /キーワード/分類辞書 / 漢字を構成する部⾸/偏旁のデータセッ ト / Wikipedia CirrusSearchのダンプデータを利⽤する / ⽂字の図 3
  4. もっと⽇本語が使える 論⽂実装をしてくれ、頼む! 4

  5. 英語を対象にした英語の論⽂が出る 英語を対象にした実装が公開される ⽇本語で書かれた論⽂解説が出る ⽇本語を対象にした実装が出る 5

  6. 論⽂解説してる⼈ → 実装してくれ! 実装してる⼈ → 公開してくれ! 6 ググって出てこなくても、Githubで論⽂名やロジック名で 検索すると意外と出てくる場合もある

  7. 良いこと 1. 動く!使える!試せる! プロダクト作るでしょ?実験するでしょ? 2. フィードバック貰える 意⾒を貰える、間違っていれば指摘してくれる (場合もある) 3 ⼈のためになる

    ⽇本語という⼩さい⾔語の中で⾞輪の再発明してる場合じゃねぇ 4. 転職に有利 それがあなたのポートフォリオになる(コードを書けるかはものすごい⼤事) 7
  8. 悪いこと 1. ない 8

  9. まとめ 9 yag_aysです。ブログやってます ⽇本語使える実装しよう NLPエンジニアコミュニティを盛 り上げていきましょう