Slide 15
Slide 15 text
各データについて ( Wikipedia, 入力データ)
Wikipedia のフロー
1. GBIFデータでフィルタリングされた各種の学名をキーとして、Wikipediaのダンプ or API から該当記事をDL.
2. 記事内の生態系情報と無関係な文章を削除. ノイズの低減.
3. 残ったテキストを文ごとに分割.
4. 文章フィルター (habitat, distribution, ecology、wet, alpine, calcareous, marsh などの環境に関する文章を選別)
比較用に、”habitat”, “keywords”, “species name”, “random” で文章をフィルタしたデータセットも別途用意.