$30 off During Our Annual Pro Sale. View Details »

ニュース記事からの企業ワード検索 / Company keyword extraction from news articles

Sansan
March 17, 2020

ニュース記事からの企業ワード検索 / Company keyword extraction from news articles

■イベント
言語処理学会第26回年次大会
https://www.anlp.jp/nlp2020/

■登壇概要

タイトル:ニュース記事からの企業ワード検索
発表者: 
DSOC 研究開発部 Data Analysis Group 奥田 裕樹

▼Sansan Builders Box
https://buildersbox.corp-sansan.com/

Sansan

March 17, 2020
Tweet

More Decks by Sansan

Other Decks in Technology

Transcript

  1. ニュース記事からの企業キーワード抽出
    Ϟνϕʔγϣϯ
    Ԟా༟थɾߴڮ׮࣏
    ʢSansanגࣜձࣾ DSOCʣ
    Alan Akbik, Duncan Blythe, and Roland Voll-graf. Contextual string embeddings for sequencelabeling.
    InCOLING 2018, 27th InternationalConference on Computational Linguistics, pp.1638{1649, 2018.
    Τϥʔ෼ੳʹ͓͚ΔχϡʔεهࣄͷҾ༻ݩ
    ɿ
    ɾ
    https://forbesjapan.com/articles/detail/29451
    ɾ
    https://prtimes.jp/main/html/rd/p/000000198.000011115.html
    ɾ
    https://m.finance.yahoo.co.jp/news/detail/20191001-00000004-scnf-stocks
    ɾ
    https://www.nikkan.co.jp/articles/view/00534784
    ɾ
    https://prtimes.jp/main/html/rd/p/000003593.000003442.html
    Akbik et al., 2018ΑΓҾ༻
    • αʔϏε໊
    • ੡඼໊
    • ΢ΣϒαΠ
    τ໊
    • ӡӦ͢Δࢪઃ໊
    • ڌ఺໊
    • Πϕϯτ໊
    • ͏ͪاۀΩʔϫʔυީิ7,225݅ ʢਖ਼ྫ4,439݅ / ෛྫ2,786݅ʣ
    • ֶश:։ൃ:ςετ=8:1:1
    • ࣄۀ໊
    • ձ໊ࣾ
    ʢؔ࿈ʣ
    ͋ΒΏΔاۀ׆ಈʹؔ͢ΔΩʔϫʔυΛࣗಈͰऩू͠஝ੵ͢ΔγεςϜͷߏங
    ख๏
    ݁Ռ
    ఏҊख๏
    BiLSTM-CRF + Contextual String Embeddings
    ϕʔεϥΠϯ
    ɾ ࠷ස஋
    ɾ લޙ10୯ޠͷBoW + SVM
    ໊ࢗΞϓϦEightɺ
    اۀͷ՝୊ղܾΛޙԡ͢͠Δ
    ϏδωεΠϕϯτ
    ʮMeetsʯ
    Λൃද ʙϏδωεͷ
    ʮങ͍͍ͨʯ
    ͱ
    ʮചΓ͍ͨʯ
    Λͭͳ͙ʙ
    Sansanגࣜձࣾ͸ɺ
    ಉ͕ࣾఏڙ͢Δ໊ࢗΞϓϦ
    ʮEightʯ
    ͔Βɺ
    ϏδωεΠϕϯτ
    ʮMeets
    ʢϛʔ
    πʣ
    ʯ
    ͕ఏڙ͞Εͨ͜ͱΛൃද͠·͢ɻ Meets͸ɺ
    EightͷςΫ
    ϊϩδʔΛ׆༻͠ɺ
    αʔϏεΛ
    ʮങ͍
    ͍ͨਓʯ
    ͱ
    ʮചΓ͍ͨਓʯ
    ͱΛͭͳ͗ɺ
    ࣾձͷੜ࢈
    ੑΛ্͛ΔϏδωεΠϕϯτͰ͢ɻ
    λεΫ
    ϧʔϧʹΑΓࣗಈநग़ͨ͠اۀΩʔϫʔυީิʹର͢Δೋ஋෼ྨ
    σʔληοτ
    શ3,978݅ͷχϡʔεهࣄΞϊςʔγϣϯ
    ɹ৽iPhone
    ʮλονϖϯʯ
    ରԠͷՄೳੑ
    ɹ
    ʮ৽ฉʷARʯ
    ͷදݱΞΠσΞίϯςετ
    ɹϫʔΫϑϩʔΛిࢠԽ͢Δ
    ʮϫʔΫϑϩʔγεςϜʯ
    Λల։͍ͯ͠Δ
    Τϥʔ෼ੳ
    اۀαʔϏε໊ͩͱޡ൑ఆ
    ɹ೔ץ޻ۀ৽ฉࣾൃߦͷ݄ץࢽ
    ʮ޻৔؅ཧʯ
    ɹ11݄߸Ͱ͸
    ɹ
    ʮं͍͢Ͱ஥ؒͱҰา֎΁ʯ
    Λ࢝ಈɺ
    αοΧʔ
    ؍ઓʹ͓͚Δं͍͢੮ͷՔಇ཰ΛߴΊΔऔΓ
    ૊ΈΛ࣮ࢪ
    اۀαʔϏε໊Ͱ͸ͳ͍ͱޡ൑ఆ
    اۀΩʔϫʔυͷఆٛ
    ʮاۀ׆ಈͷதͰੜ·ΕͨϞϊ΍αʔϏεΛද໊͢শʯ
    ˝ҎԼͷ߲໨ΛاۀΩʔϫʔυͱఆٛ
    χϡʔεهࣄΛऩू
    ϧʔϧϕʔεͰ
    اۀΩʔϫʔυީิΛநग़
    اۀΩʔϫʔυީิ͕
    ద੾͔Λೋ஋෼ྨ
    ʢϛʔπʣ
    ങ͍͍ͨਓ
    ചΓ͍ͨਓ
    Eight
    Meets
    ʢϛʔπʣ
    Eight
    Meets
    Method Precision Recall F1
    majority class 0.31 0.50 0.38
    BoW+SVM 0.75 0.72 0.73
    BiLSTM-CRF+CSE 0.87 0.82 0.83

    View Slide