ニュース記事からの企業ワード検索 / Company keyword extraction from news articles

13d936e697fe0f4fa96f926d0a712f6c?s=47 Sansan
March 17, 2020

ニュース記事からの企業ワード検索 / Company keyword extraction from news articles

■イベント
言語処理学会第26回年次大会
https://www.anlp.jp/nlp2020/

■登壇概要

タイトル:ニュース記事からの企業ワード検索
発表者: 
DSOC 研究開発部 Data Analysis Group 奥田 裕樹

▼Sansan Builders Box
https://buildersbox.corp-sansan.com/

13d936e697fe0f4fa96f926d0a712f6c?s=128

Sansan

March 17, 2020
Tweet

Transcript

  1. ニュース記事からの企業キーワード抽出 Ϟνϕʔγϣϯ Ԟా༟थɾߴڮ׮࣏ ʢSansanגࣜձࣾ DSOCʣ Alan Akbik, Duncan Blythe, and

    Roland Voll-graf. Contextual string embeddings for sequencelabeling. InCOLING 2018, 27th InternationalConference on Computational Linguistics, pp.1638{1649, 2018. Τϥʔ෼ੳʹ͓͚ΔχϡʔεهࣄͷҾ༻ݩ ɿ ɾ https://forbesjapan.com/articles/detail/29451 ɾ https://prtimes.jp/main/html/rd/p/000000198.000011115.html ɾ https://m.finance.yahoo.co.jp/news/detail/20191001-00000004-scnf-stocks ɾ https://www.nikkan.co.jp/articles/view/00534784 ɾ https://prtimes.jp/main/html/rd/p/000003593.000003442.html Akbik et al., 2018ΑΓҾ༻ • αʔϏε໊ • ੡඼໊ • ΢ΣϒαΠ τ໊ • ӡӦ͢Δࢪઃ໊ • ڌ఺໊ • Πϕϯτ໊ • ͏ͪاۀΩʔϫʔυީิ7,225݅ ʢਖ਼ྫ4,439݅ / ෛྫ2,786݅ʣ • ֶश:։ൃ:ςετ=8:1:1 • ࣄۀ໊ • ձ໊ࣾ ʢؔ࿈ʣ ͋ΒΏΔاۀ׆ಈʹؔ͢ΔΩʔϫʔυΛࣗಈͰऩू͠஝ੵ͢ΔγεςϜͷߏங ख๏ ݁Ռ ఏҊख๏ BiLSTM-CRF + Contextual String Embeddings ϕʔεϥΠϯ ɾ ࠷ස஋ ɾ લޙ10୯ޠͷBoW + SVM ໊ࢗΞϓϦEightɺ اۀͷ՝୊ղܾΛޙԡ͢͠Δ ϏδωεΠϕϯτ ʮMeetsʯ Λൃද ʙϏδωεͷ ʮങ͍͍ͨʯ ͱ ʮചΓ͍ͨʯ Λͭͳ͙ʙ Sansanגࣜձࣾ͸ɺ ಉ͕ࣾఏڙ͢Δ໊ࢗΞϓϦ ʮEightʯ ͔Βɺ ϏδωεΠϕϯτ ʮMeets ʢϛʔ πʣ ʯ ͕ఏڙ͞Εͨ͜ͱΛൃද͠·͢ɻ Meets͸ɺ EightͷςΫ ϊϩδʔΛ׆༻͠ɺ αʔϏεΛ ʮങ͍ ͍ͨਓʯ ͱ ʮചΓ͍ͨਓʯ ͱΛͭͳ͗ɺ ࣾձͷੜ࢈ ੑΛ্͛ΔϏδωεΠϕϯτͰ͢ɻ λεΫ ϧʔϧʹΑΓࣗಈநग़ͨ͠اۀΩʔϫʔυީิʹର͢Δೋ஋෼ྨ σʔληοτ શ3,978݅ͷχϡʔεهࣄΞϊςʔγϣϯ ɹ৽iPhone ʮλονϖϯʯ ରԠͷՄೳੑ ɹ ʮ৽ฉʷARʯ ͷදݱΞΠσΞίϯςετ ɹϫʔΫϑϩʔΛిࢠԽ͢Δ ʮϫʔΫϑϩʔγεςϜʯ Λల։͍ͯ͠Δ Τϥʔ෼ੳ اۀαʔϏε໊ͩͱޡ൑ఆ ɹ೔ץ޻ۀ৽ฉࣾൃߦͷ݄ץࢽ ʮ޻৔؅ཧʯ ɹ11݄߸Ͱ͸ ɹ ʮं͍͢Ͱ஥ؒͱҰา֎΁ʯ Λ࢝ಈɺ αοΧʔ ؍ઓʹ͓͚Δं͍͢੮ͷՔಇ཰ΛߴΊΔऔΓ ૊ΈΛ࣮ࢪ اۀαʔϏε໊Ͱ͸ͳ͍ͱޡ൑ఆ اۀΩʔϫʔυͷఆٛ ʮاۀ׆ಈͷதͰੜ·ΕͨϞϊ΍αʔϏεΛද໊͢শʯ ˝ҎԼͷ߲໨ΛاۀΩʔϫʔυͱఆٛ χϡʔεهࣄΛऩू ϧʔϧϕʔεͰ اۀΩʔϫʔυީิΛநग़ اۀΩʔϫʔυީิ͕ ద੾͔Λೋ஋෼ྨ ʢϛʔπʣ ങ͍͍ͨਓ ചΓ͍ͨਓ Eight Meets ʢϛʔπʣ Eight Meets Method Precision Recall F1 majority class 0.31 0.50 0.38 BoW+SVM 0.75 0.72 0.73 BiLSTM-CRF+CSE 0.87 0.82 0.83