Upgrade to Pro — share decks privately, control downloads, hide ads and more …

この脅迫状を書いたのは誰か? コンピュータが明らかにする「文章の指紋」

Yuichiro Kobayashi
November 26, 2019
1.1k

この脅迫状を書いたのは誰か? コンピュータが明らかにする「文章の指紋」

Yuichiro Kobayashi

November 26, 2019
Tweet

More Decks by Yuichiro Kobayashi

Transcript

  1. かい人21面相からの挑戦状 全国の おかあちゃん え しょくよくの 秋や かしが うまいで かしやつたら なんというても

    森永やで わしらが とくべつに あじ つけたった 青さんソーダの あじついて すこし からくちや むしばに ならへんよって お子たちえ こおたりや からくちの かし どくいりと かいた 紙 はっている 3
  2. はかたから 東京までの 店に 20こ おいてある 青さん0.2グラムと 0.5グラムの 2しゅるい ある 10日したら

    どくいり かいとらんのを 30こ 全国の 店に おく そのあとも ぎょうさん よおい してるで たのしみに まっとれや 森永乳業は せいかと ちがう あんぜん やで かい人21面相 (1984年10月8日、各新聞社宛てに送付) 4
  3. グリコ・森永事件 O 1984〜1985年 O 江崎グリコの社長、兵庫県西宮市の自宅から誘拐され る O 身代金10億円と金塊100kgを要求する脅迫状 O 「かい人21面相」から、次々と脅迫状・挑戦状

    O 全国のスーパーに青酸ソーダ入りの菓子を置き、大手 食品メーカー6社に脅迫状を送り、多額の現金を要求 ↓ O 1994〜2000年 O 時効成立(→未解決事件) 5
  4. 犯人は2人? O ある新聞記者の勘 O 「脅迫状・挑戦状の書き手が途中で替わったのではな いか?」 O 「替わったという根拠は特にない。新聞記者の勘であ る」 ↓

    O コンピュータで分析することは可能か? O 23通の脅迫状・挑戦状をデータベース化 O 文章における名詞の使用率を調査 (村上 2004, pp. 18-21 ) 6
  5. やはり書き手は2人? O 結果の解釈 (1) O 10番目までの文章(平均低・バラツキ小)と、11番目 以降の文章(平均高・バラツキ大)では、書き手が交 替した O 結果の解釈

    (2) O 11番目以降の文章には、(a) 10番目までを書いた人物 が書いたもの(平均低)と、(b) 別の人物が書いたも の(平均高)、が混在している 10
  6. 作家・内田康夫の推理 O 『白鳥殺人事件』 O 挑戦状の文体には、2つの異なった傾向 O 無意識のうちに抑制のきいた文章(Aタイプ) O 極めてはしゃいだ感じの、上滑りな文章(Bタイプ) O

    夏以前の殆どがAタイプ、秋以降はBタイプ O 同じ大阪弁でも、微妙に用語の違い ↓ O 1人の人間が2つの形式を使い分けているというより、 2人の書き手が存在すると考えた方が合理的 11
  7. 文章の指紋 O コンピュータによる文章解析の前提 O 文章には、書いた人それぞれの特徴がある O 異なる人が書いた文章には、何らかの違いがある ↓ O 「文章の指紋」

    O 筆跡鑑定のできない文章の書き手を特定するのに有効 O タイプライターやワープロソフトで書かれた文章(例: かい人21面相の挑戦状) O 原典がなく、写本でしか伝わっていない文章(例:聖書、 源氏物語) 13
  8. 計量文献学の歴史 O ド・モルガンの書簡 (1851) O 平均単語長(総文字数÷総単語数)が書き手の識別に 有効であると主張 O 「1人の人間が2つの異なった主題について書いたもの の方が、2人の人間が同じ主題について書いたものよ

    りも、平均単語長は似るのではないか」 O 「このような方法によって、贋作を見出すことができ るようになるのではないか」 ↓ O それは本当か?? 16
  9. 「文章の指紋」はどこにある? O 品詞の割合 O 名詞? O 形容詞? O 副詞? O

    接続詞? O 語彙の使用 O 語彙の豊富さ? O 語彙の難しさ? O 文章の構造 O 文の長さ? O 係り受け関係? 19
  10. O 一人三人作家 O 昭和初期の流行作家である長谷川海太郎は、 3つのペ ンネームで作品を書き、それぞれ文体を変えたと言わ れている O 林不忘: 時代物の小説を発表

    O 谷譲次: 「めりけん物」と呼ばれる小説を発表 O 牧逸馬: 風俗小説を発表 ↓ O 書き手が意識的に文体を変えることは可能なのか? O 「文章の指紋」は消せるのか? 22
  11. かい人21面相 少年たち 新聞コラム 平均文長 16.9文字 19.4文字 17.4文字 漢字使用率 9.2% 17.9%

    13.8% 25 O 一見似たような文章を書いたとしても、文章の特徴を 表す様々な数値を一致させることは、簡単ではない (村上 2004, p. 28)
  12. 犯行声明文を書いたのは誰か? O パトリシア・ハースト事件(1974年) O 左翼過激派テロ組織によって、アメリカの新聞王の孫 娘パトリシアが誘拐される O カリフォルニア州の貧困過程に約200万ドルの食料品を 無料配布せよという要求がなされる O

    パトリシアの「私は組織にとどまり、一緒に戦う道を 選んだ」という肉声のテープが放送局に届く O パトリシアを含む組織のメンバーが銀行を襲撃する O パトリシアは、逮捕後、銀行強盗その他の容疑で起訴 される ↓ O 組織に加わったのは、本当にパトリシアの意志なの か? 27
  13. 言語分析は犯人逮捕につながるか? O 東京の保険金殺人事件(2003年) O 東京都台東区の路上で、ホームレスの男性の死体が発 見される O 警察は、ひき逃げ事件として捜査を開始するが、捜査 は困難を極める O

    死体には何度もひかれた痕があり、それ以外にも多く の不審な点がある O 事件から10日後、ワープロで書かれた目撃証言が警察 に届く O さらに数日後、ひき逃げ事件の犯人を名乗る男から、 「告白書・遺書」と書かれた手紙が届く 30
  14. コンピュータによる鑑定 O 分析データ O 目撃証言 O 告白書・遺書 O 兄が書いた上申書(過去に交通事故を起こした際、警 察に提出したもの)

    O 兄が書いた請求書(保険会社に提出したもの) O 全く別の人が書いた文章 O 分析項目 O どのような助詞を使っているかという頻度情報 O どの助詞の次にどの助詞を使っているかという頻度情 報 O どの文字の次に読点を打っているかという頻度情報 37
  15. 2015年度の社会学部の授業より O 社会学・心理学 O 社会心理学概論 O 犯罪社会学 O 犯罪心理学 O

    統計学・情報学 O 社会統計学 O 統計情報処理および実習 O 人間-機械コミュニケーション論 O 言語学 O 言語文化論 O 情報と言語 etc. etc.46
  16. 参考文献 O 石田基広・小林雄一郎 (2013). 『Rで学ぶ日本語テキスト マイニング』 ひつじ書房. O 金明哲 (1996).

    「読点から現代作家のクセを検証する」 『統計数理』44(1), 121-125. O 金明哲 (2009). 『テキストデータの統計科学入門』 岩波 書店. O 村上征勝 (1994). 『真贋の科学—計量文献学入門』 朝倉書 店. O 村上征勝 (2004). 『シェークスピアは誰ですか?—計量文 献学の世界』 文春新書. オススメ! O 樋口耕一 (2014). 『社会調査のための計量テキスト分析— 内容分析の継承と発展を目指して』 ナカニシヤ出版. 47