Upgrade to Pro — share decks privately, control downloads, hide ads and more …

積ん読を消化するために

Doarakko
January 21, 2021

 積ん読を消化するために

Doarakko

January 21, 2021
Tweet

More Decks by Doarakko

Other Decks in Programming

Transcript

  1. 積ん読を消化するために
    @Doarakko

    View full-size slide

  2. ・2019年12月入社(2社目)
    ・エンジニア歴1.5年
     - 仕事: Go, PHP
     - 趣味: Python, C++
    ・AtCoder 緑
    ・海外サッカーをよく見ます
    自己紹介
    2

    View full-size slide

  3. 今日は「デジタル積ん読」の話
    3

    View full-size slide

  4. Pocket(後で読むアプリ)使ってます
    4
    いろいろ機能があるらしい
    ・他の人が多く保存している記事
    ・記事のハイライト
    ・記事へのタグ付け(手動)
    私は「保存」と「検索」しか使ってなかった

    View full-size slide

  5. 私の Pocket の使い方(ブラウザ)
    5
    スマホだと保存までに複数回アクションがあってつらい

    View full-size slide

  6. なぜ積ん読を解消する必要があるのか
    6
    情報の鮮度が落ちる
    ・波に乗り遅れる
    ・「もっと早くこの情報を知っていれば」
    積ん読しておくのが気持ち悪い?

    View full-size slide

  7. 解決策
    案1. その場で読む
    → それができたら苦労しない
    案2. 一定期間たったものは自動で捨てる
    → もったいない
    案3. 毎日時間を確保して習慣化する
    → できるわけがない
    案4. 後で読む基準を厳しくする
    → さらっと概要を掴んで全部読むか判断する
    7

    View full-size slide

  8. 「さらっと概要を掴んで」
    8

    View full-size slide

  9. 文章要約
    9

    View full-size slide

  10. 文章要約の活用事例
    10
    https://www.asahi.com/corporate/info/13124567 https://about.yahoo.co.jp/info/blog/20190424/chi
    ebukuro.html

    View full-size slide

  11. 文章要約:要約対象
    11
    単一ドキュメント 複数ドキュメント

    View full-size slide

  12. 文章要約:要約手法
    12
    抽出型
    ・元の文章の中から重要だと判断したものを、
    そのまま抽出する
    ・メリット:元文章をそのまま使うので文法はおかしくならない
    ・デメリット:文章中にない単語は生まれない、文のつながりはおかしい
    抽象型
    ・元の文章から内容を理解して、人が作ったような
    要約文を生成する
    ・メリット:元文章にない単語も生まれる、文章のつながりが自然
    ・デメリット:文法に違和感がなく、自然な文章を生成する難易度高い

    View full-size slide

  13. 今回試したもの
    LexRank
    ・抽出型の手法で、ページランクの仕組みを応用したもの
    BERTSUM
    ・BERT の学習済みモデルを文章要約用に拡張した抽出型のモデル
    ・よくわからないので詳しく知りたい方は論文を読んでください
     → よくわからなくても動かせるくらい身近なものになっている
    13
    ページランク:他からリンクされているものほど良いページとする(超ざっくり)

    View full-size slide

  14. 試した記事
    14
    【転職エントリ】Googleに入社します
    約 6,500 文字
    15 分(by Pocket)
    https://note.com/neko_chan0214/n/n3a64bc1e1412

    View full-size slide

  15. LexRank
    15
    要約文
    電話面接やオンサイト面接を受けることになること、競技プログラミングのような問題が出題されること
    などを知りました。(58行目)
    このタイミングで、とある元Googleのソフトウェアエンジニアの方から声をかけていただき、模擬面接を
    していただけることになりました。
    (78行目)
    面接で聞かれた内容は秘密にする約束なので、自分が勉強した内容を記事に書くのは、面接を受ける
    前に書いておいた方がいいだろうと考えました。
    (136行目)

    View full-size slide

  16. BERTSUM
    16
    要約文
    2018年の年末年始に時間があったので、有料版を契約してきちんと
    Pythonの勉強をしてみようと思い
    ました・DataCampの分量は非常に多くて、年末年始だけでは当然終わらせることはできず、
    3ヶ月以
    上かかってDataScientistコースを修了しました(4行目)
    エンジニア採用のカジュアル面談を受け入れている医療
    ×ITの企業を見つけて、いくつかネットで申し
    込んでみたりもしました(31行目)
    この時点でとても幸運だったのは、日本語で書かれた入社体験談が同時期にたくさん投稿されていた
    ことです(57行目)

    View full-size slide

  17. 感想
    17
    ・微妙
    ・全文読んだがもっと抽出してほしい文章があった
    ・日本語はハンデ(自然言語処理をやる上で)
    ・要約する文章のドメインのデータ集めないと
    ・これからも積み続ける

    View full-size slide

  18. 積ん読を消化するために
    @Doarakko

    View full-size slide