Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Detecting Causal Language Use in Science Findings / Measuring Correlation-to-Causation Exaggeration in Press Releases

Detecting Causal Language Use in Science Findings / Measuring Correlation-to-Causation Exaggeration in Press Releases

研究室の日本語輪読会で発表したスライドです。

750d4d1ae846b2d342d99fced070db39?s=128

Kaito Sugimoto

March 28, 2022
Tweet

More Decks by Kaito Sugimoto

Other Decks in Research

Transcript

  1. 1. Detecting Causal Language Use in Science Findings 2. Measuring

    Correlation-to-Causation Exaggeration in Press Releases Kaito Sugimoto Aizawa Lab. M1 2021/03/28 1 / 22
  2. 紹介する論文 • EMNLP 2019 / COLING 2020 • 学術論文における argument

    mining のサーベイ論文の中で発見 • 内容が一続きなのでまとめて紹介 2 / 22
  3. どんな論文か? • どちらの論文も、サイエンスコミュニケーションにおいて correlation (相関関係) を causation (因果関係) として報じてしまう 問題を背景とした研究

    3 / 22
  4. 背景 • 相関関係 ≠ 因果関係 というのは有名な話 • しかしながら, 研究発表やプレスリリースにおいて, 相関関係の

    発見を因果関係のように表現してしまう問題が知られていた • 特に医療の世界では, 相関関係を調べる観察研究 (observational studies) と 因果関係を調べる介入研究 (intervention studies) に 厳密にジャンルが分かれているにもかかわらず, しばしば相関関 係の発見が因果関係の発見として取り扱われてきた • ex.「母親の肥満が子供の肥満を引き起こす」 • こうした問題は, 誤った医療判断や, 特定の人々の差別にまで繋がる • 過去の人手による研究でも, 観察研究のうちおよそ 30%もの研究 がそのような誤謬を犯していると報告されている 4 / 22
  5. 背景 どうしてそのような誤謬を犯してしまうのか? • 人間はそもそも相関関係を因果関係と誤って捉えがちである (from 心理学) • 研究者/報道者は contribution を誇張したい気持ちがある

    • (特にノンネイティブの)研究者/報道者が writing の訓練を受け ていない • 既にある他の論文の英語表現に影響を受けがち (分かる...) 5 / 22
  6. 1 つ目の研究の要旨 医療論文の各 conclusion の各文について, 相関関係を述べているか因 果関係を述べているかをアノテートしたデータセットを作り, 分類器 を訓練. その上で,

    以下のリサーチクエスチョンに答える. 1 相関関係を調べる観察研究の論文全体において、 (誤って)因果 関係の用語を使っているものはどの程度あるか? 2 そのような誤謬は近年増えているのか? 減っているのか? 3 論文の著者の国や言語的背景によってそのような誤謬の頻度の 差はあるのか? 6 / 22
  7. コーパス作成 • ある文に対して, その文が相関関係を述べているか, 因果関係を 述べているかを識別する分類器を学習したい • そのために, まずコーパスを作成する •

    具体的には PubMed の論文の structured abstract の conclusion の 文章(総数 3,061 文)に対してアノテーションを行う 7 / 22
  8. コーパス作成 8 / 22

  9. コーパス作成 なお, アノテートする際にサンプルで 30 本の論文で 𝜅 係数を調べたと ころ 0.98 だった

    → 人間のアノテーションのズレはほとんど起こら ない 9 / 22
  10. 分類器の学習 LinearSVM, BiRNN, BERT, BioBERT で比較 交差検証のスコア: おおむね高いスコアだが, (人間のアノテートのズレがほとんど起こ らないことを考えると)人間ほどうまく分類できていないとも言え

    そう 10 / 22
  11. 分類器はなぜ correlation/causation の分類を間違えてしまうのか? • Future work などを述べているところで因果関係っぽい表現を 使っているケース • 例:

    These findings pose the question: why has not the nutritional status of children improved, although the living conditions of their families have significantly improved? • improve は結論で因果関係を述べる際にしばしば用いられるので, 分類器は causal だと誤認識する(実際はこの文は結論とは関係 ないので no relationship と判定されるべき) • このほかにも, 因果関係を示す表現が文の節の中にあったり, マイ ナーな因果関係を示す表現が使われていたりする場合に間違える • → 分類器は表面的な単語をもとに判断してしまう 11 / 22
  12. 分類器をもとにした調査 • 2014 年位 PubMed は observational study というカテゴリを導入 した

    • このカテゴリに属する研究は観察研究であり, 因果関係を導くこ とはできないとあらかじめ分かっている • このうち, structured abstract を持つ論文で, conclusion 部分が 3 文 以下のものをフィルターして, 論文 37,746 件(文章数: 72,565 文)を抽出した 12 / 22
  13. RQ1 相関関係を調べる観察研究の論文全体において、 (誤って)因果関係 の用語を使っているものはどの程度あるか? Direct causal の文しか含まない論文が 21.7%, Direct causal

    の文を一部 含む論文が 32.4% →手で調べた既存研究の割合とほぼ同じくらい 13 / 22
  14. RQ2 誤って因果関係を述べている論文は近年増えているのか? 減ってい るのか? 特に強い増加・減少の傾向は見られない ただし, PubMed に observational study

    カテゴリが導入される前の論文 のことが調べられていないのが課題 14 / 22
  15. RQ3 国や言語的背景によって差はあるのか? 言語によりばらつきあり ドイツ語は学術論文で強い主張をすることが多いらしい(言語学の研 究で知られていた内容を裏付けている) 15 / 22

  16. 2 つ目の研究の要旨 論文の プレスリリース に焦点を移す 論文とそのプレスリリースのペアから成るコーパスを作成し, 前の研 究と同様に分類器を訓練する. そして, 元の論文では相関関係として適切に述べられている発見が,

    プレスリリースでは因果関係のように述べられてしまっているケース がどの程度あるのかを調べる. 16 / 22
  17. コーパス作成 調べる対象のプレスリリースは • EurekAlert! https://www.eurekalert.org/ • ScienceDaily https://www.sciencedaily.com/ これらのうち, doi

    リンクを含む記事はすぐに元の論文を対応づける ことができる また, doi リンクを含まなくても, Elasticsearch を使うことで高い精度 で元の論文と対応づけられるそうである 前の研究と同様, structured abstract を持つ医療論文でフィルターする 17 / 22
  18. コーパス作成 • 1 つ目の研究では, PubMed に observational study カテゴリが導入 されたのが

    2014 年であり, それ以前の研究が調べられないという 問題があった • そこで, LightGBM1 を訓練して, observational study 識別器を作成 した • したがって, この研究では 2014 年以前の論文についてもコーパス に含めることができている(最終的には論文-プレスリリースペ アが計 16,000 程度) 1なぜ BERT などの NLP 手法を使わなかったのが不明だが, F1 score で 0.95 くらい出せるらしい 18 / 22
  19. プレスリリースにおける correlation/causation 分類 プレスリリースの場合, 見出しと最初の 2 文に結論的な内容が含まれ ているというヒューリスティックが妥当なので, それに従って分類 する

    19 / 22
  20. 結果 • 元の論文では相関関係を述べているもの(6,244 本)のうち, プレ スリリースで因果関係を述べているのは 22 % (1,391 本)

    • しかし, そのような誇張は減少傾向にある 20 / 22
  21. 結果 • 大学によるプレスリリースの方が, ジャーナル(出版社)による プレスリリースよりも誇張をしがち • これは人手による先行研究の結果と一致 21 / 22

  22. まとめ・感想 • 論文の中で相関関係/因果関係の言葉遣いを調べるという, NLP の コミュニティの中だけではなかなか生まれなさそうなアイディ アで面白かった • First author

    の他の論文を見ると、政治や SNS のテキストマイニングの 研究を行ってきているようなので, 論文に関してもこのような独自の視 点を持てるのかもしれない • (この論文が論じる範囲を超えているが...)最終的には研究成果 を受け取る一般市民側もリテラシーを持っていないと, このよう なサイエンスコミュニケーションの問題は解決しなそうだなと いう気もした • BERT でも correlation/causation 分類が 100% うまくいくわけでは ないのは示唆的(単に学習データやモデルの問題なのか, 本質的 に機械学習アプローチでは不足している何かがあるのか...) 22 / 22