Upgrade to Pro — share decks privately, control downloads, hide ads and more …

【論文紹介】Detecting Causal Language Use in Science Findings / Measuring Correlation-to-Causation Exaggeration in Press Releases

【論文紹介】Detecting Causal Language Use in Science Findings / Measuring Correlation-to-Causation Exaggeration in Press Releases

研究室の日本語輪読会で発表したスライドです。
内容に問題や不備がある場合は、お手数ですが hellorusk1998 [at] gmail.com までご連絡お願いいたします。

Kaito Sugimoto

March 28, 2022
Tweet

More Decks by Kaito Sugimoto

Other Decks in Research

Transcript

  1. 1. Detecting Causal Language Use in Science Findings 2. Measuring

    Correlation-to-Causation Exaggeration in Press Releases Kaito Sugimoto Aizawa Lab. M1 2021/03/28 1 / 22
  2. 紹介する論文 • EMNLP 2019 / COLING 2020 • 学術論文における argument

    mining のサーベイ論文の中で発見 • 内容が一続きなのでまとめて紹介 2 / 22
  3. 背景 • 相関関係 ≠ 因果関係 というのは有名な話 • しかしながら, 研究発表やプレスリリースにおいて, 相関関係の

    発見を因果関係のように表現してしまう問題が知られていた • 特に医療の世界では, 相関関係を調べる観察研究 (observational studies) と 因果関係を調べる介入研究 (intervention studies) に 厳密にジャンルが分かれているにもかかわらず, しばしば相関関 係の発見が因果関係の発見として取り扱われてきた • ex.「母親の肥満が子供の肥満を引き起こす」 • こうした問題は, 誤った医療判断や, 特定の人々の差別にまで繋がる • 過去の人手による研究でも, 観察研究のうちおよそ 30%もの研究 がそのような誤謬を犯していると報告されている 4 / 22
  4. 背景 どうしてそのような誤謬を犯してしまうのか? • 人間はそもそも相関関係を因果関係と誤って捉えがちである (from 心理学) • 研究者/報道者は contribution を誇張したい気持ちがある

    • (特にノンネイティブの)研究者/報道者が writing の訓練を受け ていない • 既にある他の論文の英語表現に影響を受けがち (分かる...) 5 / 22
  5. 1 つ目の研究の要旨 医療論文の各 conclusion の各文について, 相関関係を述べているか因 果関係を述べているかをアノテートしたデータセットを作り, 分類器 を訓練. その上で,

    以下のリサーチクエスチョンに答える. 1 相関関係を調べる観察研究の論文全体において、 (誤って)因果 関係の用語を使っているものはどの程度あるか? 2 そのような誤謬は近年増えているのか? 減っているのか? 3 論文の著者の国や言語的背景によってそのような誤謬の頻度の 差はあるのか? 6 / 22
  6. コーパス作成 • ある文に対して, その文が相関関係を述べているか, 因果関係を 述べているかを識別する分類器を学習したい • そのために, まずコーパスを作成する •

    具体的には PubMed の論文の structured abstract の conclusion の 文章(総数 3,061 文)に対してアノテーションを行う 7 / 22
  7. 分類器はなぜ correlation/causation の分類を間違えてしまうのか? • Future work などを述べているところで因果関係っぽい表現を 使っているケース • 例:

    These findings pose the question: why has not the nutritional status of children improved, although the living conditions of their families have significantly improved? • improve は結論で因果関係を述べる際にしばしば用いられるので, 分類器は causal だと誤認識する(実際はこの文は結論とは関係 ないので no relationship と判定されるべき) • このほかにも, 因果関係を示す表現が文の節の中にあったり, マイ ナーな因果関係を示す表現が使われていたりする場合に間違える • → 分類器は表面的な単語をもとに判断してしまう 11 / 22
  8. 分類器をもとにした調査 • 2014 年位 PubMed は observational study というカテゴリを導入 した

    • このカテゴリに属する研究は観察研究であり, 因果関係を導くこ とはできないとあらかじめ分かっている • このうち, structured abstract を持つ論文で, conclusion 部分が 3 文 以下のものをフィルターして, 論文 37,746 件(文章数: 72,565 文)を抽出した 12 / 22
  9. コーパス作成 調べる対象のプレスリリースは • EurekAlert! https://www.eurekalert.org/ • ScienceDaily https://www.sciencedaily.com/ これらのうち, doi

    リンクを含む記事はすぐに元の論文を対応づける ことができる また, doi リンクを含まなくても, Elasticsearch を使うことで高い精度 で元の論文と対応づけられるそうである 前の研究と同様, structured abstract を持つ医療論文でフィルターする 17 / 22
  10. コーパス作成 • 1 つ目の研究では, PubMed に observational study カテゴリが導入 されたのが

    2014 年であり, それ以前の研究が調べられないという 問題があった • そこで, LightGBM1 を訓練して, observational study 識別器を作成 した • したがって, この研究では 2014 年以前の論文についてもコーパス に含めることができている(最終的には論文-プレスリリースペ アが計 16,000 程度) 1なぜ BERT などの NLP 手法を使わなかったのが不明だが, F1 score で 0.95 くらい出せるらしい 18 / 22
  11. まとめ・感想 • 論文の中で相関関係/因果関係の言葉遣いを調べるという, NLP の コミュニティの中だけではなかなか生まれなさそうなアイディ アで面白かった • First author

    の他の論文を見ると、政治や SNS のテキストマイニングの 研究を行ってきているようなので, 論文に関してもこのような独自の視 点を持てるのかもしれない • (この論文が論じる範囲を超えているが...)最終的には研究成果 を受け取る一般市民側もリテラシーを持っていないと, このよう なサイエンスコミュニケーションの問題は解決しなそうだなと いう気もした • BERT でも correlation/causation 分類が 100% うまくいくわけでは ないのは示唆的(単に学習データやモデルの問題なのか, 本質的 に機械学習アプローチでは不足している何かがあるのか...) 22 / 22