Slide 1

Slide 1 text

Stats of 2020.02.08

Slide 2

Slide 2 text

概要 narXiv に登載された論文を調査 u分野でみると,2017年からの情報系の伸びが顕著 u投稿された論文の4割超にはDOIが付属 p 概ね4割超が,最終的に論文誌に採録されている可能性 p ただし,分野毎の偏りが大きく,情報系は投稿数の2割程度 p 出版までの間隔も分野の違いが大きいがarXiv 登録から概ね半年, 時間がかかる分野でも概ね1年以内で出版されている u分野間の共起関係は比較的安定 p分野毎の用語用法についても比較的安定 • 分散表現によるクラスタと,分野の相関が比較的高そう 2

Slide 3

Slide 3 text

pre-print server n論文投稿・出版に先立って,論文を公開するサービス u 通常,論文出版には投稿から数ヶ月〜数年の時間が必要 u pre-print に登録しておくことで先願権の確保などに有利 narXiv は 物理・数学・情報系でメジャーな pre-print u 複数サービスがあり,例えば医学系では bioRxiv がメジャー 3

Slide 4

Slide 4 text

データ narXiv u API を通じ,2020年1月21日時点で収集可能なものを全収集 nデータ総数: 1,622,763件 u 搭載項目: タイトル,概要,著者,分野,DOI,など u 期 間: 1986年4月25日※〜2020年1月17日 u Semantic Scholar を用い,被引用文献も取得 u DOIが付与されている場合… p CrossRef の API を用いて,雑誌名,公開日なども別途収集 4 ※ arXiv は 1991年スタートだが,投稿日がそれより前のモノも存在

Slide 5

Slide 5 text

arXiv の 記事例 5

Slide 6

Slide 6 text

arXiv の 記事例 ひとつの記事に複数の分野を割り付けることができる 6

Slide 7

Slide 7 text

arXiv 分野分類(153分野) 大分野 分野 説明(原文) 説明(機械翻訳) astro-ph astro-ph Astrophysics 天体物理学 astro-ph astro-ph.CO Cosmology and Nongalactic Astrophysics 宇宙論と非銀河天体物理学 astro-ph astro-ph.EP Earth and Planetary Astrophysics 地球惑星天体物理学 astro-ph astro-ph.GA Astrophysics of Galaxies 銀河の天体物理学 astro-ph astro-ph.HE High Energy Astrophysical Phenomena 高エネルギー天体物理現象 astro-ph astro-ph.IM Instrumentation and Methods for Astrophysics 天体物理学の計測と方法 astro-ph astro-ph.SR Solar and Stellar Astrophysics 太陽および星の天体物理学 astro-ph gr-qc General Relativity and Quantum Cosmology 一般相対性理論と量子宇宙論 cond-mat cond-mat.dis-nn Disordered Systems and Neural Networks 無秩序システムとニューラルネットワーク cond-mat cond-mat.mes-hall Mesoscale and Nanoscale Physics メソスケールおよびナノスケールの物理学 cond-mat cond-mat.mtrl-sci Materials Science 材料科学 cond-mat cond-mat.other Other Condensed Matter その他の凝縮物質 cond-mat cond-mat.quant-gas Quantum Gases 量子ガス cond-mat cond-mat.soft Soft Condensed Matter ソフト凝縮物質 cond-mat cond-mat.stat-mech Statistical Mechanics 統計力学 cond-mat cond-mat.str-el Strongly Correlated Electrons 強く相関した電子 cond-mat cond-mat.supr-con Superconductivity 超伝導 ※ 大分野は勝手につくりました。 7

Slide 8

Slide 8 text

arXiv 分野分類(153分野) 大分野 分野 説明(原文) 説明(機械翻訳) cs cs.AI Artificial Intelligence 人工知能 cs cs.AR Hardware Architecture ハードウェアアーキテクチャ cs cs.CC Computational Complexity 計算の複雑さ cs cs.CE Computational Engineering, Finance, and Science 計算工学、金融、科学 cs cs.CG Computational Geometry 計算幾何学 cs cs.CL Computation and Language 計算と言語 cs cs.CR Cryptography and Security 暗号化とセキュリティ cs cs.CV Computer Vision and Pattern Recognition コンピュータビジョンとパターン認識 cs cs.CY Computers and Society コンピューターと社会 cs cs.DB Databases データベース cs cs.DC Distributed, Parallel, and Cluster Computing 分散、並列、およびクラスターコンピューティング cs cs.DL Digital Libraries デジタル図書館 cs cs.DM Discrete Mathematics 離散数学 cs cs.DS Data Structures and Algorithms データ構造とアルゴリズム cs cs.ET Emerging Technologies 新技術 cs cs.FL Formal Languages and Automata Theory 形式言語とオートマトン理論 cs cs.GL General Literature 一般文学 ※ 大分野は勝手につくりました。 8

Slide 9

Slide 9 text

arXiv 分野分類(153分野) 大分野 分野 説明(原文) 説明(機械翻訳) cs cs.GR Graphics グラフィックス cs cs.GT Computer Science and Game Theory コンピュータサイエンスとゲーム理論 cs cs.HC Human-Computer Interaction 人間とコンピューターの相互作用 cs cs.IR Information Retrieval 情報検索 cs cs.IT Information Theory 情報理論 cs cs.LG Learning 学習 cs cs.LO Logic in Computer Science コンピュータサイエンスのロジック cs cs.MA Multiagent Systems マルチエージェントシステム cs cs.MM Multimedia マルチメディア cs cs.MS Mathematical Software 数学ソフトウェア cs cs.NA Numerical Analysis 数値解析 cs cs.NE Neural and Evolutionary Computing ニューラルおよび進化コンピューティング cs cs.NI Networking and Internet Architecture NWとインターネットのアーキテクチャ cs cs.OH Other Computer Science その他のコンピューターサイエンス cs cs.OS Operating Systems オペレーティングシステム cs cs.PF Performance 性能 cs cs.PL Programming Languages プログラミング言語 ※ 大分野は勝手につくりました。 9

Slide 10

Slide 10 text

arXiv 分野分類(153分野) 大分野 分野 説明(原文) 説明(機械翻訳) cs cs.RO Robotics ロボティクス cs cs.SC Symbolic Computation シンボリック計算 cs cs.SD Sound 音 cs cs.SE Software Engineering ソフトウェア工学 cs cs.SI Social and Information Networks ソーシャルおよび情報ネットワーク cs cs.SY Systems and Control システムと制御 cs eess.AS Audio and Speech Processing オーディオおよび音声処理 cs eess.IV Image and Video Processing 画像およびビデオ処理 cs eess.SP Signal Processing 信号処理 econ econ.EM Econometrics 計量経済学 hep hep-ex High Energy Physics - Experiment 高エネルギー物理学-実験 hep hep-lat High Energy Physics - Lattice 高エネルギー物理学-格子 hep hep-ph High Energy Physics - Phenomenology 高エネルギー物理学-現象学 hep hep-th High Energy Physics - Theory 高エネルギー物理学-理論 ※ 大分野は勝手につくりました。 10

Slide 11

Slide 11 text

arXiv 分野分類(153分野) 大分野 分野 説明(原文) 説明(機械翻訳) math math-ph Mathematical Physics 数理物理学 math math.AC Commutative Algebra 可換代数 math math.AG Algebraic Geometry 代数幾何学 math math.AP Analysis of PDEs PDEの分析 math math.AT Algebraic Topology 代数トポロジー math math.CA Classical Analysis and ODEs 古典分析とODE math math.CO Combinatorics 組み合わせ論 math math.CT Category Theory カテゴリー理論 math math.CV Complex Variables 複雑な変数 math math.DG Differential Geometry 微分幾何学 math math.DS Dynamical Systems 動的システム math math.FA Functional Analysis 機能的解析 math math.GM General Mathematics 一般数学 math math.GN General Topology 一般的なトポロジ math math.GR Group Theory 群論 math math.GT Geometric Topology 幾何学的トポロジー math math.HO History and Overview 歴史と概要 ※ 大分野は勝手につくりました。 11

Slide 12

Slide 12 text

arXiv 分野分類(153分野) 大分野 分野 説明(原文) 説明(機械翻訳) math math.IT Information Theory 情報理論 math math.KT K-Theory and Homology K理論とホモロジー math math.LO Logic 論理 math math.MG Metric Geometry メトリックジオメトリ math math.MP Mathematical Physics 数理物理学 math math.NA Numerical Analysis 数値解析 math math.NT Number Theory 数論 math math.OA Operator Algebras 演算子代数 math math.OC Optimization and Control 最適化と制御 math math.PR Probability 確率 math math.QA Quantum Algebra 量子代数 math math.RA Rings and Algebras 環と代数 math math.RT Representation Theory 表現論 math math.SG Symplectic Geometry シンプレクティックジオメトリ math math.SP Spectral Theory スペクトル理論 math math.ST Statistics Theory 統計理論 ※ 大分野は勝手につくりました。 12

Slide 13

Slide 13 text

arXiv 分野分類(153分野) 大分野 分野 説明(原文) 説明(機械翻訳) nlin nlin.AO Adaptation and Self-Organizing Systems 適応と自己組織化システム nlin nlin.CD Chaotic Dynamics カオスダイナミクス nlin nlin.CG Cellular Automata and Lattice Gases セルオートマトンと格子ガス nlin nlin.PS Pattern Formation and Solitons パターン形成とソリトン nlin nlin.SI Exactly Solvable and Integrable Systems 厳密に可解で統合可能なシステム nucl nucl-ex Nuclear Experiment 核実験 nucl nucl-th Nuclear Theory 核理論 ※ 大分野は勝手につくりました。 13

Slide 14

Slide 14 text

arXiv 分野分類(153分野) 大分野 分野 説明(原文) 説明(機械翻訳) physics physics.acc-ph Accelerator Physics 加速器の物理 physics physics.ao-ph Atmospheric and Oceanic Physics 大気海洋物理学 physics physics.app-ph Applied Physics 応用物理学 physics physics.atm-clus Atomic and Molecular Clusters 原子および分子クラスター physics physics.atom-ph Atomic Physics 原子物理学 physics physics.bio-ph Biological Physics 生物物理学 physics physics.chem-ph Chemical Physics 化学物理学 physics physics.class-ph Classical Physics 古典物理学 physics physics.comp-ph Computational Physics 計算物理学 physics physics.data-an Data Analysis, Statistics and Probability データ分析、統計および確率 physics physics.ed-ph Physics Education 物理教育 physics physics.flu-dyn Fluid Dynamics 流体力学 physics physics.gen-ph General Physics 一般物理学 physics physics.geo-ph Geophysics 地球物理学 physics physics.hist-ph History and Philosophy of Physics 物理学の歴史と哲学 physics physics.ins-det Instrumentation and Detectors 計装と検出器 physics physics.med-ph Medical Physics 医学物理学 ※ 大分野は勝手につくりました。 14

Slide 15

Slide 15 text

arXiv 分野分類(153分野) 大分野 分野 説明(原文) 説明(機械翻訳) physics physics.optics Optics 光学 physics physics.plasm-ph Plasma Physics プラズマ物理学 physics physics.pop-ph Popular Physics 人気の物理学 physics physics.soc-ph Physics and Society 物理学と社会 physics physics.space-ph Space Physics 宇宙物理学 physics quant-ph Quantum Physics 量子物理学 q-bio q-bio.BM Biomolecules 生体分子 q-bio q-bio.CB Cell Behavior セルの挙動 q-bio q-bio.GN Genomics ゲノミクス q-bio q-bio.MN Molecular Networks 分子ネットワーク q-bio q-bio.NC Neurons and Cognition ニューロンと認知 q-bio q-bio.OT Other Quantitative Biology その他の定量生物学 q-bio q-bio.PE Populations and Evolution 人口と進化 q-bio q-bio.QM Quantitative Methods 定量的な方法 q-bio q-bio.SC Subcellular Processes 細胞内プロセス q-bio q-bio.TO Tissues and Organs 組織と臓器 ※ 大分野は勝手につくりました。 15

Slide 16

Slide 16 text

arXiv 分野分類(153分野) 大分野 分野 説明(原文) 説明(機械翻訳) q-fin q-fin.CP Computational Finance 計算ファイナンス q-fin q-fin.EC Economics 経済 q-fin q-fin.GN General Finance 一般金融 q-fin q-fin.MF Mathematical Finance 数理ファイナンス q-fin q-fin.PM Portfolio Management ポートフォリオ管理 q-fin q-fin.PR Pricing of Securities 証券の価格 q-fin q-fin.RM Risk Management 危機管理 q-fin q-fin.ST Statistical Finance 統計ファイナンス q-fin q-fin.TR Trading and Market Microstructure 取引と市場の微細構造 stat stat.AP Applications 応用物理学 stat stat.CO Computation 計算 stat stat.ME Methodology 方法論 stat stat.ML Machine Learning 機械学習 stat stat.OT Other Statistics その他の統計 stat stat.TH Statistics Theory 統計理論 ※ 大分野は勝手につくりました。 16

Slide 17

Slide 17 text

収録データ数の推移 分野別 DOI有無別 ※ arXiveでは複数分野を選択可能なため, ここでは,一番最初の1分野のみを採用 17 ※累積ではありません

Slide 18

Slide 18 text

DOI情報中の研究助成 18 DOIを有する論文数 うち,Award情報がある論文数 Award情報がある論文数 うち,Award情報に ”Japan” を含む論文数

Slide 19

Slide 19 text

DOI情報中の研究助成 19 Award情報に “Japan” を含む論文数 n 日本からの助成を受けた研究も,毎年1000件程度は出ている様子 u 謝辞情報をきちんと記載している確率は中国より高い可能性? Award情報に “Chin” を含む論文数

Slide 20

Slide 20 text

分野毎のDOI付与率 n 算出対象は 2014年〜2018年投稿 の5年分を採用 u DOI は ジャーナルへの掲載を意味.後述通りDOI付与まで概ね1年以内のため n 分野毎に,DOI 付与率が大きく異なることが分かる u DOI 付与率が低い = そもそも投稿していないか,採択率が低い u 天文物理は付与率 70%近く,物理は40%〜50%,数学や情報は25%以下 分野別 ※ arXiveでは複数分野を選択可能なため, ここでは,整数カウントで調査 20

Slide 21

Slide 21 text

分野毎のarXiv投稿からDOI付公開までの期間 n 算出対象は 2000年〜2017年投稿 の18年分を採用 u 長くても3年はかからないだろう…という見積もりで範囲設定 u 情報系はDOI率が低い上,2017年から2019年にかけて急増のため要注意 n 平均的には arXiv 投稿から,ジャーナル採録まで半年程度 u DOI付与率が高いものほど,公開までの期間が短そうにみえる 分野別 ※ arXiveでは複数分野を選択可能なため, ここでは,整数カウントで調査 ※ arXiv公開日とDOI先公開日が7日以上のもののみ採用. 日が不明なものは各月の1日を設定.1月を30日として算出 21

Slide 22

Slide 22 text

分野毎のDOI付与先 Top5 n DOI付与率は物理系が多いので, Physical Review が基本 u 各分野 最低100件以上ある雑誌タイトルのみ掲載 22 ctg title count astro-ph The Astrophysical Journal 66168 astro-ph Monthly Notices of the Royal Astronomical Society 46747 astro-ph Physical Review D 34640 astro-ph Astronomy & Astrophysics 29896 astro-ph Journal of Cosmology and Astroparticle Physics 9880 cond-mat Physical Review B 74769 cond-mat Physical Review Letters 34033 cond-mat Physical Review E 20297 cond-mat Physical Review A 11216 cond-mat Applied Physics Letters 6801 cs Electronic Proceedings in Theoretical Computer Science 3983 cs IEEE Transactions on Signal Processing 1143 cs IEEE Transactions on Information Theory 1060 cs Logical Methods in Computer Science 583 cs IEEE Transactions on Wireless Communications 488 hep Physical Review D 65614 hep Journal of High Energy Physics 33701 hep Physics Letters B 27796 hep Nuclear Physics B 14027 hep Physical Review Letters 10340 math Journal of Mathematical Physics 7674 math Communications in Mathematical Physics 6842 math Journal of Physics A: Mathematical and Theoretical 6132 math Journal of Statistical Physics 2962 math Journal of High Energy Physics 2757 ctg title count nlin Physical Review E 4411 nlin Physical Review Letters 1942 nlin Journal of Physics A: Mathematical and Theoretical 940 nlin Journal of Physics A: Mathematical and General 815 nlin Physics Letters A 805 nucl Physical Review C 14503 nucl Physical Review D 4835 nucl Nuclear Physics A 4555 nucl Physics Letters B 4094 nucl Physical Review Letters 3130 physics Physical Review A 27012 physics Physical Review Letters 14807 physics Physical Review E 8539 physics Physical Review B 5882 physics New Journal of Physics 3941 q-bio Physical Review E 1836 q-bio Physical Review Letters 411 q-bio PLoS ONE 317 q-bio The Journal of Chemical Physics 269 q-bio PLoS Computational Biology 231 q-fin Physica A: Statistical Mechanics and its Applications 647 q-fin Physical Review E 119 stat The Annals of Statistics 1385 stat The Annals of Applied Statistics 897 stat Bernoulli 524 stat Statistical Science 411 stat IEEE Transactions on Signal Processing 208 1986-2020

Slide 23

Slide 23 text

分野毎の被引用数 n 算出対象は 2014年〜2018年投稿 の 5年分を使用 u わずかながら,Semantic Scholar にデータが無い文献も u 情報系は 2017年から2019年にかけて急増のため要注意 n 情報系の被引用数が突出して多い u 査読を経ていなくても利用する or 突出した被引用数を持つ論文が存在? 23 分野別 ※ arXiveでは複数分野を選択可能なため, ここでは,整数カウントで調査

Slide 24

Slide 24 text

分野毎の被引用数 n 被引用数の上位はほとんどが情報系 u 2013〜2015年に登録された情報系の論文に深層学習や自然言語処理について のブレイクスルー的なものがあり,これが情報系全体を押し上げている可能性 24 aid date category title cite 1 1502.03167v3 2015-02 cs.LG Batch Normalization: Accelerating Deep Network Training by Reducing Internal Covariate Shift 9999 2 1409.4842v1 2014-09 cs.CV Going Deeper with Convolutions 9998 3 1201.0490v4 2012-01 cs.LG|cs.MS Scikit-learn: Machine Learning in Python 9997 4 1310.4546v1 2013-10 cs.CL|cs.LG|stat.ML Distributed Representations of Words and Phrases and their Compositionality 9997 5 1409.1556v6 2014-09 cs.CV Very Deep Convolutional Networks for Large-Scale Image Recognition 9996 6 1412.6980v9 2014-12 cs.LG Adam: A Method for Stochastic Optimization 9996 7 1512.03385v1 2015-12 cs.CV Deep Residual Learning for Image Recognition 9996 8 1409.0575v3 2014-09 cs.CV|I.4.8; I.5.2 ImageNet Large Scale Visual Recognition Challenge 9994 9 1506.01497v3 2015-06 cs.CV Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks 9994 10 1301.3781v3 2013-01 cs.CL Efficient Estimation of Word Representations in Vector Space 8977 11 1408.5093v1 2014-06 cs.CV|cs.LG|cs.NE Caffe: Convolutional Architecture for Fast Feature Embedding 8977 12 1409.0473v7 2014-09 cs.CL|cs.LG|cs.NE|stat.ML Neural Machine Translation by Jointly Learning to Align and Translate 8727 13 1406.5823v1 2014-06 stat.CO Fitting Linear Mixed-Effects Models using lme4 8708 14 1311.2524v5 2013-11 cs.CV Rich feature hierarchies for accurate object detection and semantic segmentation 8145 15 1505.04597v1 2015-05 cs.CV U-Net: Convolutional Networks for Biomedical Image Segmentation 7797

Slide 25

Slide 25 text

分野毎の被引用数 n 被引用文献のうち,DOIを有するもの・しないもの の傾向も安定 25 2014-2018

Slide 26

Slide 26 text

被引用数ごとの頻度 n べき分布に類するような形状に見える 26 2014-2018

Slide 27

Slide 27 text

被引用数ごとの頻度(分野別) 27 2014-2018 ※ arXiveでは複数分野を選択可能なため, ここでは,整数カウントで調査

Slide 28

Slide 28 text

被引用数ごとの頻度(分野別) 28 2014-2018 ※ arXiveでは複数分野を選択可能なため, ここでは,整数カウントで調査

Slide 29

Slide 29 text

被引用数ごとの頻度(分野別) 29 2014-2018 ※ arXiveでは複数分野を選択可能なため, ここでは,整数カウントで調査

Slide 30

Slide 30 text

公開から引用までの期間(年数) n 公開して5年間順調に引用数が伸びる傾向が見える u ただし,いくつかの分布(出足が早い,遅いなど)が隠れている可能性 30 2011-2015

Slide 31

Slide 31 text

公開から引用までの年数(分野別) 31 ※ arXiveでは複数分野を選択可能なため, ここでは,整数カウントで調査 2011-2015

Slide 32

Slide 32 text

公開から引用までの年数(分野別) 32 ※ arXiveでは複数分野を選択可能なため, ここでは,整数カウントで調査 2011-2015

Slide 33

Slide 33 text

公開から引用までの年数(分野別) 33 ※ arXiveでは複数分野を選択可能なため, ここでは,整数カウントで調査 2011-2015

Slide 34

Slide 34 text

公開から引用までの年数 n 期間調整を行わず,全数で描画するとピークが1-2年前倒し u 数学・情報分野が近年急速な伸びを見せていることと関連している可能性 p 3年前に投稿された論文の引用期間は最大でも2(0年を含めて3期間) n マクロで見ると,10年や20年後に引用されるケースも一定数 34 1986-2020

Slide 35

Slide 35 text

公開から引用までの年数: 分布形状の分布 n 論文単位で,0から4までの5年分の引用回数を算出 u 5次元ベクトルだと思って処理する u 5次元ベクトルを正規化 u 次元縮約して,クラスタ数のあたりをつける u 5次元でクラスタリングし,それぞれの特徴・数を算出 35 2011-2015 Q. すべてがこうした傾向なのか, いくつかパタンがあるのか?

Slide 36

Slide 36 text

公開から引用までの年数: 分布形状の分布 36 2011-2015 8 1 2 3 4 5 6 7 1 2 5 8 6 7 4 3 K-mens++, UMAP

Slide 37

Slide 37 text

公開から引用までの年数: 分布形状の分布 n 大きくは8タイプ程度に分類できる可能性 u 僅差ではあるが公開3年後,4年後にかけて増えるパタン(cls_8)の数が多い u cls_2,4,5,6,7 のように,ある年に急に引用されるパタンも u cls_1 は 3年後に一度落ち込みがある u cls_3 では2年後,3年後がピーク 37 2011-2015 30,073 件 41,338 件 47,262 件 36,702 件 38,001 件 32,233 件 23,814 件 50,111 件 ※ 各クラスタ中心から100件の分布平均

Slide 38

Slide 38 text

公開から引用までの年数: 分野別の分布パタン数 n 分野によって多少変動はあるものの,分布パタンは概ね類似 u cls3 がやや多い分野(ex. cs, q.bio, etc.)は,流行廃りがやや強い傾向? 38 2011-2015 econは全数が少ないため 除外

Slide 39

Slide 39 text

分野共起関係の可視化 n 各論文に割り付けられた分野の共起関係を年単位で可視化 u 100回以上の共起があった場合に線(エッジ)を描画 u ノードの大きさは論文の出現数 n 数が増えているので単純比較困難だが,分野連携が増えている? 2009 2014 2019 39

Slide 40

Slide 40 text

分野共起関係の可視化 n すでに見たとおり,数学・情報系の増加は顕著 n 天文物理関係の共起関係は安定しており,大きな変化はない u マクロで見た場合,共起関係は比較的安定し,新設はあっても消失はない? p 多くの分野に登録した方が,多くの人に見てもらえそう…という意図も?? 2017 2018 2019 40

Slide 41

Slide 41 text

分野の近さや,論文間の近さを考える nこれまで分野単位で,件数や共起を見てみた u 分野は正しく内容を表しているか? p 適切な分野分類が設定されているのか?? u 分野の共起はすでに見たが,分野と分野の近さはどの程度か?? n タイトルや概要の文章の「類似度」を用いて,論文の関係を分析 u 似ているもの同士でまとめて,分野との関係性を見てみる u 分野の粒度では見えなかった全体感をつかむ 41

Slide 42

Slide 42 text

分散表現を用いた全体把握と,領域把握 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 0: 天体物理学 1: 物理学一般 8: 高エネ物理:理論 10: 高エネ物理:実験 2: 量子物理学 9: 数学 5: 放射線 11: 材料科学 12: アトムオーダー 6: 物理学応用 7: クオンツ 4: 計算機科学と応用 14: 機械学習・AI 3: 情報数学・計算論 13: 数学:トポロジーなど 15: 数学:数値解析 FastText で単語の分散表現を獲得し, 線形加算して論文の分散表現を獲得 K-mens++で16種類に分類 UMAPで2次元空間に可視化 42

Slide 43

Slide 43 text

分野と領域の関係 n 分散表現ベースの領域毎にカウント u 分野単位で,領域への所属割合を算出 p ex. 0番の領域に,分野:astro-ph の 90% が 所属 u 第1分野のみ と 整数カウント で 特徴に大きな変化はない p 整数カウント:A, B, C の分野タグが付いた論文 が あった場合,A, B, C, それぞれに1をカウント ௻㍭ՑՁՓ BTUSPQI(" BTUSPQI43 BTUSPQI&1 BTUSPQI)& BTUSPQI BTUSPQI$0 BTUSPQI*. HSRD QIZTJDTHFOQI RVBOUQI DT%. DT$$ NBUI$0 DT'- DT$( DT%4 NBUI-0 DT-0 DT4$ NBUI(. DT$: DT%- DT04 DT4& DT/* DT(- DT)$ RGJO&$ RGJO(/ DT$3 DT"3 DT4* DT." DT1' QIZTJDTTPDQI QIZTJDTFEQI DT%$ DT%# DT0) RGJO53 DT1- DT(5 RCJP(/ RCJP05 RCJP1& QIZTJDTQPQQI DT30 DT&5 RCJP./ RCJP/$ QIZTJDTIJTUQI NBUI)0 RCJP2. QIZTJDTJOTEFU QIZTJDTBDDQI QIZTJDTPQUJDT QIZTJDTBQQQI QIZTJDTBUPNQI QIZTJDTNFEQI RCJP4$ QIZTJDTGMVEZO DPOENBUTPGU RCJP$# RCJP#. QIZTJDTCJPQI RCJP50 QIZTJDTHFPQI QIZTJDTQMBTNQI QIZTJDTBPQI QIZTJDTTQBDFQI OMJO"0 OMJO14 OMJO$% OMJO$( DPOENBUTUBUNFDI QIZTJDTDIFNQI QIZTJDTDMBTTQI QIZTJDTDPNQQI TUBU$0 TUBU.& NBUI45 FDPO&. RGJO1. RGJO13 RGJO.' RGJO$1 DT*5 NBUI0$ RGJO3. DT/" DT4: TUBU"1 DT.4 RGJO45 TUBU05 QIZTJDTEBUBBO FFTT41 DT$& IFQUI NBUI,5 NBUI35 NBUI$5 NBUI"5 NBUI"( NBUI3" NBUI2" NBUI(3 NBUI4( NBUI(5 NBUI"$ NBUI0" NBUI/5 IFQFY OVDMFY IFQQI OVDMUI IFQMBU DPOENBUNUSMTDJ DPOENBUTVQSDPO DPOENBUTUSFM DPOENBUNFTIBMM DPOENBURVBOUHBT DPOENBUPUIFS DPOENBUEJTOO QIZTJDTBUNDMVT NBUI'" NBUI$" NBUI$7 NBUI.( NBUI41 NBUI(/ NBUI%( NBUI%4 FFTT"4 DT$7 DT4% DT$- FFTT*7 DT.. DT-( DT/& DT*3 TUBU.- DT(3 DT"* OMJO4* NBUI"1 NBUI/" NBUI13 NBUIQI arXiv の 規定 156 分野 分散表現に基づく16領域 DBUFHPSZ BTUSPQI(" BTUSPQI43 BTUSPQI&1 BTUSPQI)& BTUSPQI BTUSPQI$0 BTUSPQI*. HSRD QIZTJDTHFOQI RVBOUQI DT%. DT$$ NBUI$0 DT'- DT$( DT%4 NBUI-0 DT-0 DT4$ NBUI(. DT$: DT%- DT04 DT4& DT/* DT(- DT)$ RGJO&$ RGJO(/ DT$3 DT"3 DT4* DT." DT1' QIZTJDTTPDQI QIZTJDTFEQI DT%$ DT%# DT0) RGJO53 DT1- DT(5 RCJP(/ RCJP05 RCJP1& QIZTJDTQPQQI DT30 DT&5 RCJP./ RCJP/$ QIZTJDTIJTUQI NBUI)0 RCJP2. QIZTJDTJOTEFU QIZTJDTBDDQI QIZTJDTPQUJDT QIZTJDTBQQQI QIZTJDTBUPNQI QIZTJDTNFEQI RCJP4$ QIZTJDTGMVEZO DPOENBUTPGU RCJP$# RCJP#. QIZTJDTCJPQI RCJP50 QIZTJDTHFPQI QIZTJDTQMBTNQI QIZTJDTBPQI QIZTJDTTQBDFQI OMJO"0 OMJO14 OMJO$% OMJO$( DPOENBUTUBUNFDI QIZTJDTDIFNQI QIZTJDTDMBTTQI QIZTJDTDPNQQI TUBU$0 TUBU.& NBUI45 TUBU5) FDPO&. RGJO1. RGJO13 RGJO.' RGJO$1 DT*5 NBUI*5 NBUI0$ RGJO3. DT/" DT4: TUBU"1 DT.4 RGJO45 TUBU05 QIZTJDTEBUBBO FFTT41 DT$& IFQUI NBUI,5 NBUI35 NBUI$5 NBUI"5 NBUI"( NBUI3" NBUI2" NBUI(3 NBUI4( NBUI(5 NBUI"$ NBUI0" NBUI/5 IFQFY OVDMFY IFQQI OVDMUI IFQMBU DPOENBUNUSMTDJ DPOENBUTVQSDPO DPOENBUTUSFM DPOENBUNFTIBMM DPOENBURVBOUHBT DPOENBUPUIFS DPOENBUEJTOO QIZTJDTBUNDMVT NBUI'" NBUI$" NBUI$7 NBUI.( NBUI41 NBUI(/ NBUI%( NBUI%4 FFTT"4 DT$7 DT4% DT$- FFTT*7 DT.. DT-( DT/& DT*3 TUBU.- DT(3 DT"* OMJO4* NBUI"1 NBUI/" NBUI13 NBUIQI NBUI.1 第1分野のみ 整数カウント n 分野と領域に強い相関が伺える u 分野-単語間の 強い結びつきを示唆 p ← 行単位で,特定の列のみに強く所属 u 分野を見るだけで,ある程度分析可能 43

Slide 44

Slide 44 text

cs.CY cs.DL cs.OS cs.SE cs.NI cs.GL cs.HC q-fin.EC q-fin.GN cs.CR cs.AR cs.SI cs.MA cs.PF physics.soc-ph physics.ed-ph cs.DC cs.DB cs.OH q-fin.TR cs.PL cs.GT q-bio.GN q-bio.OT cs.IR q-bio.PE physics.pop-ph cs.RO stat.OT cs.ET q-fin.RM q-bio.MN q-fin.ST stat.AP q-bio.NC eess.SP q-bio.TO cs.SY cs.CE physics.hist-ph cs.MM cs.MS cs.AI math.HO nlin.AO q-bio.QM q-fin.PM econ.EM cs.LO physics.data-an cs.IT math.IT q-bio.CB cs.GR q-fin.PR physics.med-ph cs.NE q-fin.CP q-fin.MF astro-ph.IM cs.CL nlin.CG q-bio.SC physics.bio-ph cs.LG math.OC physics.ao-ph q-bio.BM cs.FL stat.ML stat.ME cs.DS physics.geo-ph cs.SC cs.SD physics.comp-ph physics.ins-det stat.CO cond-mat.dis-nn eess.AS physics.acc-ph 領域毎の所属分野と名付け astro-ph.GA astro-ph.SR astro-ph.EP astro-ph.HE astro-ph astro-ph.CO astro-ph.IM physics.space-ph physics.ao-ph physics.geo-ph physics.pop-ph physics.hist-ph gr-qc physics.gen-ph astro-ph.CO hep-th physics.hist-ph astro-ph physics.class-ph physics.pop-ph hep-ph astro-ph.HE physics.space-ph physics.ed-ph quant-ph physics.hist-ph cs.ET physics.gen-ph physics.pop-ph nlin.CD nlin.CG cond-mat.stat-mech math.MP math-ph cs.CC cond-mat.other cs.DM cs.CC math.CO cs.FL cs.CG cs.DS math.LO cs.LO cs.SC math.GM math.HO math.MG math.NT math.PR math.AC math.GN cs.GT math.GR cs.IT math.IT math.GT nlin.CG cs.PL cs.MS math.OC math.RA cs.DB math.CT math.DS math.SP math.AT physics.ins-det physics.acc-ph physics.optics physics.app-ph physics.atom-ph astro-ph.IM physics.med-ph physics.plasm-ph physics.atm-clus physics.class-ph quant-ph cond-mat.mes-hall physics.chem-ph cs.ET cs.OH cond-mat.other nucl-ex physics.space-ph hep-ex physics.bio-ph eess.SP cond-mat.mtrl-sci physics.geo-ph nlin.PS physics.gen-ph cond-mat.quant-gas physics.pop-ph physics.ed-ph physics.ao-ph physics.comp-ph physics.data-an q-bio.SC physics.flu-dyn cond-mat.soft q-bio.CB q-bio.BM physics.bio-ph q-bio.TO physics.geo-ph physics.plasm-ph physics.ao-ph physics.space-ph nlin.AO nlin.PS nlin.CD nlin.CG cond-mat.stat-mech q-bio.OT q-bio.MN physics.chem-ph physics.class-ph physics.comp-ph q-bio.PE cond-mat.dis-nn q-bio.QM q-bio.NC physics.med-ph physics.atm-clus astro-ph.EP physics.pop-ph cond-mat.mtrl-sci astro-ph.SR q-bio.GN cs.CE physics.data-an cond-mat.other physics.app-ph physics.soc-ph physics.gen-ph q-fin.ST physics.ed-ph astro-ph.HE astro-ph q-fin.GN math.DS stat.CO stat.ME math.ST stat.TH econ.EM q-fin.PM q-fin.PR q-fin.MF q-fin.CP cs.IT math.IT math.OC q-fin.RM cs.NA cs.SY stat.AP cs.MS q-fin.ST stat.OT stat.ML physics.data-an cs.DS eess.SP cs.GT cs.CE q-fin.TR math.NA cs.LG cs.LO cs.PL q-bio.QM cs.AI cs.PF cs.MA cs.DC cs.NE cs.SC q-bio.MN cs.GR q-bio.GN cs.CG q-bio.PE cs.FL q-fin.EC physics.soc-ph cs.CC cs.ET nlin.CG physics.comp-ph cs.DB cs.SI q-fin.GN q-bio.NC cs.OH cs.AR cs.RO math.PR cs.DM nlin.AO cs.NI q-bio.OT physics.med-ph cs.CR cs.GL cond-mat.dis-nn cs.MM physics.geo-ph q-bio.BM cs.OS eess.IV cs.CV astro-ph.IM cs.SE cs.SD physics.ao-ph cs.IR nlin.CD physics.bio-ph math.DS cond-mat.stat-mech math.HO eess.AS math.GM physics.chem-ph 0: 天体物理学 1: 物理学一般 2: 量子物理学 5: 放射線 6: 物理学応用 7: クオンツ 4: 計算機科学と応用 3: 情報数学・計算論 44

Slide 45

Slide 45 text

math.KT math.RT math.CT math.AT math.AG math.RA math.QA math.GR math.SG math.GT math.AC math.OA math.NT math.DG math.GN math.LO math.CV math.CO math.DS math.MG math.GM math.FA math.MP math-ph math.HO nlin.SI cs.SC hep-th 領域毎の所属分野と名付け hep-th hep-lat gr-qc math.MP math-ph nlin.SI hep-ph physics.gen-ph math.QA physics.hist-ph math.DG physics.class-ph hep-ex nucl-ex hep-ph nucl-th hep-lat physics.ins-det physics.acc-ph astro-ph.HE physics.atom-ph astro-ph.CO cond-mat.mtrl-sci cond-mat.supr-con cond-mat.str-el cond-mat.mes-hall physics.app-ph physics.atm-clus cond-mat.other physics.chem-ph cond-mat.dis-nn physics.comp-ph cond-mat.soft physics.optics cond-mat.quant-gas cond-mat.str-el cond-mat.other cond-mat.dis-nn cond-mat.mes-hall physics.atom-ph cond-mat.stat-mech physics.atm-clus nlin.PS cond-mat.supr-con nucl-th physics.chem-ph hep-lat quant-ph nlin.CD physics.optics cond-mat.soft cond-mat.mtrl-sci physics.class-ph physics.plasm-ph physics.comp-ph physics.gen-ph math.MP math-ph hep-th nucl-ex hep-ph nlin.SI math.FA math.CA math.CV math.MG math.SP math.GN math.DG math.NT math.DS math.AP math.GM math.OA math.PR math.LO math.GT math.SG math.MP math-ph math.CO math.HO math.AC math.AG math.GR math.RA cs.SC math.NA math.ST stat.TH math.OC nlin.SI math.RT math.QA cs.CG eess.AS cs.CV cs.SD cs.CL eess.IV cs.MM cs.LG cs.NE cs.IR stat.ML cs.GR cs.AI cs.RO q-bio.NC cs.HC physics.med-ph eess.SP cs.DB q-bio.QM q-bio.GN cs.CR cs.AR cs.ET cs.SI stat.AP cs.CE cs.PF cs.DC cs.SE q-bio.TO cs.DL cs.PL cs.CY cs.MS nlin.SI math.AP math.NA math.PR math-ph math.MP cs.NA math.SP math.DS nlin.CD nlin.PS math.CA physics.class-ph q-fin.CP q-fin.MF math.OC q-fin.PR math.GM physics.comp-ph nlin.CG cond-mat.stat-mech physics.flu-dyn cs.SC math.FA math.HO cs.CE math.ST stat.TH math.DG physics.gen-ph physics.ao-ph quant-ph nlin.AO math.CV cs.SY cond-mat.dis-nn math.SG physics.plasm-ph physics.chem-ph 10: 高エネ物理:実験 9: 数学 11: 材料科学 12: アトムオーダー 14: 機械学習・AI 15: 数学:数値解析 13: 数学:トポロジーなど 8: 高エネ物理:理論 45

Slide 46

Slide 46 text

時系列に伴う領域の変化 46

Slide 47

Slide 47 text

時系列に伴う領域の変化 n 機械学習・AI や クオンツ など情報系が急増 u クオンツ系は10年で,AI系は5年で一気に領地を獲得 u 高エネ物理(実験)は領地が広く,おそらく論文ごとの独自性が高い? n 全体的な構造は安定しているように見える u 高エネ物理の理論と実験の間には,すこし距離ができつつある? 47

Slide 48

Slide 48 text

まとめ narXiv に登載された論文を調査 u分野でみると,2017年からの情報系の伸びが顕著 u投稿された論文の4割超にはDOIが付属 p 概ね4割超が,最終的に論文誌に採録されている可能性 p ただし,分野毎の偏りが大きく,情報系は投稿数の2割程度 p 出版までの間隔も分野の違いが大きいがarXiv 登録から概ね半年, 時間がかかる分野でも概ね1年以内で出版されている u分野間の共起関係は比較的安定 p分野毎の用語用法についても比較的安定 • 分散表現によるクラスタと,分野の相関が比較的高そう 48