Slide 2
Slide 2 text
発表文献の抜粋 https://hack.nikkei.com/publications
企業名の類似度に基づく日経企業IDリンキングシステムの構築と分析
● 澤田悠冶, 安井雄一郎, 大内啓樹, 渡辺太郎, 石井昌之, 石原祥太郎, 山田剛, 進藤裕之
● 自然言語処理, 31 巻, 3号 (2024)
● 日本経済新聞の新聞記事の企業名に日経企業 ID を付与したデータセットを作成し,
企業名抽出モデルと類似度ベースエンティティリンキングモデルから成るパイプラ
インシステムを実装.NAIST との共同研究.
User Experiments on the Effect of the Diversity of Consumption
on News Services
● Atom Sonoda, Fujio Toriumi, and Hiroto Nakajima
● IEEE Access, vol. 12, pp. 31841-31852 (2024)
● 日経電子版の記事推薦を多様性の観点から検証.東大との共同研究.
Quantifying Memorization and Detecting Training Data of
Pre-trained Language Models using Japanese Newspaper
● Shotaro Ishihara and Hiromu Takahashi
● Proceedings of the INLG 2024
● 日経電子版記事で事前学習した GPT-2 を用いて,暗記の定量化や訓練データ抽出に
関する実証的実験を実施.
Generating News-Centric Crossword Puzzles As A Constraint
Satisfaction and Optimization Problem
● Kaito Majima* and Shotaro Ishihara* (*equal contribution)
● Proceedings of the CIKM 2023
● 制約充足最適化問題の枠組みで,日経電子版記事からニュース由来の単語を多く含
むクロスワードパズルを自動生成できると提案.YANS2022 奨励賞.
Quantifying Diachronic Language Change via Word Embeddings:
Analysis of Social Events using 11 Years News Articles in Japanese
and English
● Shotaro Ishihara, Hiromu Takahashi, and Hono Shirai
● IC2S2 2023
● 11 年分の日本語と英語の新聞記事から構築した単語分散表現を用いて,単語の意味
変化を分析.
Semantic Shift Stability: Efficient Way to Detect Performance
Degradation of Word Embeddings and Pre-trained Language
Models
● Shotaro Ishihara*, Hiromu Takahashi*, and Hono Shirai (*equal contribution)
● Proceedings of the AACL 2022
● 単語の意味変化の度合いを用いて,事前学習済み言語モデルや単語分散表現の時系
列性能劣化を測る枠組みを議論.