Upgrade to Pro — share decks privately, control downloads, hide ads and more …

日本経済新聞社における自然言語処理の取り組み / yans2022 nikkei nlp

日本経済新聞社における自然言語処理の取り組み / yans2022 nikkei nlp

NLP若手の会懇親会 (YANS懇) 2022 での発表資料 https://yans.anlp.jp/entry/yanskon2022

資料内のリンク:
- https://blogs.lse.ac.uk/polis/2019/11/18/new-powers-new-responsibilities/
- https://www.nikkei.com/promotion/collaboration/qreports-ai/
- https://hack.nikkei.com/publications/
- https://hack.nikkei.com/

言語処理学会第 28 回年次大会 (NLP2022) での発表 2 件:
- PH3-5 決算短信からの業績要因文の抽出に向けた業績発表記事からの訓練データの生成
- PT3-8 単語分散表現を用いた新型コロナウイルスによる意味変化検出
https://hack.nikkei.com/blog/nlp2022/

Shotaro Ishihara

March 11, 2022
Tweet

More Decks by Shotaro Ishihara

Other Decks in Business

Transcript

  1. 日本経済新聞社における
    自然言語処理の取り組み
    石原祥太郎(日経イノベーション・ラボ)
    2022 年 3 月 11 日、NLP 若手の会懇親会 (YANS 懇) 2022

    View full-size slide

  2. - Newsgathering(収集): データ収集、解析、ラベル付け
    - News production(生成): 記事生成、見出し生成、校正
    - News distribution(提供): パーソナライズ、推薦、検索
    自然言語処理は、さまざまな観点でニュースメディアの事業
    に貢献できる
    “New Powers, New Responsibilities. A Global Survey of Journalism and Artificial Intelligence.” 2019. Polis. November 18, 2019.
    https://blogs.lse.ac.uk/polis/2019/11/18/new-powers-new-responsibilities/.

    View full-size slide

  3. ● NLP2022 で 2 件ポスター発表 (17 日 9:00 〜 10:20)
    ○ PH3-5 決算短信からの業績要因文の抽出に向けた業績発表記事からの訓練データの生成
    => 日経電子版の記事で訓練データを作成し、決算短信から業績要因文を抽出
    => 「決算サマリー」などの記事自動生成へ応用
    ○ PT3-8 単語分散表現を用いた新型コロナウイルスによる意味変化検出
    => 日経電子版の記事で学習した word2vec モデルを新型コロナウイルスの流行前後で比較
    => 報道のネタの収集や、言語モデルの再学習の機会の議論
    ● お気軽にご連絡ください
    ○ 役割:約 1000 記事 / 日のデータやアクセスログを分析し、価値を創出する
    ○ 研究活動:学会参加・論文投稿・対外発表を推奨 https://hack.nikkei.com/publications/
    ○ 直近の業務(石原):日経電子版の記事を用いた大規模言語モデルの構築
    ○ 共同研究や学生インターン参加も歓迎 https://hack.nikkei.com/

    View full-size slide