Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
保険関連文書の自動校正支援
Search
自然言語処理研究室
March 31, 2011
Research
0
37
保険関連文書の自動校正支援
丹治 広樹. 保険関連文書の自動校正支援. 長岡技術科学大学修士論文 (2011.3)
自然言語処理研究室
March 31, 2011
Tweet
Share
More Decks by 自然言語処理研究室
See All by 自然言語処理研究室
データサイエンス14_システム.pdf
jnlp
0
330
データサイエンス13_解析.pdf
jnlp
0
380
データサイエンス12_分類.pdf
jnlp
0
290
データサイエンス11_前処理.pdf
jnlp
0
400
Recurrent neural network based language model
jnlp
0
100
自然言語処理研究室 研究概要(2012年)
jnlp
0
100
自然言語処理研究室 研究概要(2013年)
jnlp
0
71
自然言語処理研究室 研究概要(2014年)
jnlp
0
67
自然言語処理研究室 研究概要(2015年)
jnlp
0
120
Other Decks in Research
See All in Research
ランサーズエージェント_フリーランスエンジニアの年収・キャリアの実態調査2024
lancers_pr
0
120
[輪講資料] Text Embeddings by Weakly-Supervised Contrastive Pre-training
hpprc
3
320
Alternative Photographic Processes Reimagined: The Role of Digital Technology in Revitalizing Classic Printing Techniques【SIGGRAPH Asia 2023】
toremolo72
0
450
Gmail の「メール送信者のガイドライン」強化から 1 ヵ月、今後予想されるメールセキュリティの変化とは
hirachan
1
250
Accurate Method and Variable Tracking in Commit History
tsantalis
0
280
プロシェアリング白書2024_PROSHARING_REPORT_2024
circulation
0
740
Rの機械学習フレームワークの紹介〜tidymodelsを中心に〜 / machine_learning_with_r2024
s_uryu
0
240
Azure Arc-enabled Serversを利用した ハイブリッド・マルチクラウド環境の管理 / Managing Hybrid Multi-cloud Environments with Azure Arc-enabled Servers
nttcom
0
220
第12回全日本コンピュータビジョン勉強会:画像の自己教師あり学習における大規模データセット
naok615
0
530
20240209 データを肴に熊本の交通を考える会「車1割削減、渋滞半減、公共交通2倍」をめざし世界に学ぼう
trafficbrain
0
890
Target trial emulationの概要
shuntaros
2
1.2k
Generative Spoken Dialogue Language Modeling [対話論文読み会@電通大]
yuta0306
1
140
Featured
See All Featured
Building Flexible Design Systems
yeseniaperezcruz
320
37k
Fight the Zombie Pattern Library - RWD Summit 2016
marcelosomers
228
16k
Design and Strategy: How to Deal with People Who Don’t "Get" Design
morganepeng
117
18k
Java REST API Framework Comparison - PWX 2021
mraible
PRO
18
6.9k
The Power of CSS Pseudo Elements
geoffreycrofte
62
5k
5 minutes of I Can Smell Your CMS
philhawksworth
199
19k
How GitHub Uses GitHub to Build GitHub
holman
468
290k
Producing Creativity
orderedlist
PRO
338
39k
Bash Introduction
62gerente
605
210k
Rails Girls Zürich Keynote
gr2m
91
13k
Facilitating Awesome Meetings
lara
43
5.6k
The Illustrated Children's Guide to Kubernetes
chrisshort
32
47k
Transcript
保険関連文書の 自動校正支援 電気系 山本研究室 07316982 丹治 広樹
背景 金融庁 保険会社 基礎書類 事業方法書 算出方法書 標準約款 派生書類 規定集 マニュアル
印刷約款 契約概要 流用 社員・代理店 契約者 申請 認可 etc. 2 各種保険協会 ガイドライン 遵守 人手入力 人手校正
使用する文書(基礎書類) 3 第1章 賠償責任条項 第1条 (用語の定義) この賠償責任条項において、 ~ ・ ・
・ 第2条 (保険金を支払う場合‐対人賠償) ・ ・ ・
使用する文書(派生書類) 4 Ⅰ 契約概要のご説明 ・ ・ ・ (2) 補償内容 主な補償内容は
~ 補償項目 保険金をお支払する場合 相手方 への賠償 対人賠償 対物賠償 自動車事故により、 ~ ・ ・ ・ ・ ・ ・ ・ ・ ・
使用する文書(派生書類) 4 Ⅰ 契約概要のご説明 ・ ・ ・ (2) 補償内容 主な補償内容は
~ 補償項目 保険金をお支払する場合 相手方 への賠償 対人賠償 対物賠償 自動車事故により、 ~ ・ ・ ・ ・ ・ ・ ・ ・ ・ 基礎書類と対応
背景 金融庁 保険会社 基礎書類 事業方法書 算出方法書 標準約款 派生書類 規定集 マニュアル
印刷約款 契約概要 流用 社員・代理店 契約者 申請 認可 etc. 5 各種保険協会 ガイドライン 遵守 人手による 校正が困難 人手入力 人手校正 数万ページ
目的 1. 派生書類と基礎書類の自動対応付けに より、人手による検索等の労力を削減 6 2. 自動で矛盾認識することにより、人手で 校正する派生書類の文書量を削減
目的 1. 派生書類と基礎書類の自動対応付けに より、人手による検索等の労力を削減 6 2. 自動で矛盾認識することにより、人手で 校正する派生書類の文書量を削減
対応付けの手法(1/3) 関連手法(頻度情報を用いた手法) 7 派生書類 基礎書類 単語TF・IDF or 単語のIDF 単語TF・IDF
or 単語のIDF 単語ベクトル 単語ベクトル 内積 or コサイン類似度 類似度
対応付けの手法 人手により校正するとき、何を参考にするか? 1. 派生書類の文中から手がかりとなる語を選定 2. 基礎書類でその語を検索し、対応を判断 例) ①お車の入替の場合(自動車を新たに取得し ~
②お車の譲渡の場合(ご契約に適用される ~ 約款 第7章 第8条(被保険自動車の入替) 約款 第7章 第7条(被保険自動車の譲渡) 8 1語で対応付け可能!
提案手法1(基礎書類の語を用いた手法) 対応付けの手法(2/3) 9 派生書類 基礎書類 手がかり語のヒット数 章のタイトル 条のタイトル 用語の定義
定義文 手がかり語 第1章 : 第2章 : 章のタイトル ・ ・ ・
対応付けの手法(3/3) 提案手法2(派生書類の語を用いた手法) 10 派生書類 基礎書類 単語のIDF 手がかり語 手がかり語のヒット数
対応付けの実験 実験条件 損害保険に関する資料 基礎書類 (保険約款、特約) : 3,868文 派生書類 (重要事項説明書)
: 964文 11 対応なし 1対1で対応 453文 対約款:215文 対特約:272文 (重複あり487文) 1対多 80文
対応付けの実験 実験結果 12 重み 尺度 IDF 内積 正解率 69.2%
TF・IDF コサイン類似度 56.9% 内積 コサイン類似度 39.2% 57.3% 基礎書類の語 42.5% 派生書類の語 39.2% 関連手法 提案手法1 提案手法2 - - 手法
対応付けの実験 実験結果 12 重み 尺度 IDF 内積 正解率 69.2%
TF・IDF コサイン類似度 56.9% 内積 コサイン類似度 39.2% 57.3% 基礎書類の語 42.5% 派生書類の語 39.2% 関連手法 提案手法1 提案手法2 - - 手法 正解率約7割で 派生書類の文を対応付けできた
対応付けの考察 人手で手がかり語を抽出した場合 派生書類から人手で手がかり語を抽出 基礎書類で手がかり語が最も多くヒットした章を提示 複数の語を用いた場合 派生書類の文に出現した全内容語を基礎書類と照合 派生書類の語を最も網羅していた章を提示 13
正解 不正解 全内容語\手がかり語 正解 不正解 20語 (9.3%) 67語 (31.2%) 81語 (37.7%) 47語 (21.9%)
対応付けの考察 人手で手がかり語を抽出した場合 派生書類から人手で手がかり語を抽出 基礎書類で手がかり語が最も多くヒットした章を提示 複数の語を用いた場合 派生書類の文に出現した全内容語を基礎書類と照合 派生書類の語を最も網羅していた章を提示 13
正解 不正解 全内容語\手がかり語 正解 不正解 20語 (9.3%) 67語 (31.2%) 81語 (37.7%) 47語 (21.9%) 1語で対応付けできる場合と 複数の語を見るべき場合の 判別が重要!
目的 1. 派生書類と基礎書類の自動対応付けに より、人手による検索等の労力を削減 14 2. 自動で矛盾認識することにより、人手で 校正する派生書類の文書量を削減
15 本研究における矛盾 数値の間違い 否定表現の間違い 使用している語の不統一 事故の日から180日以内に~ ⇔
事故の日から188日以内に~ 以下に該当しない場合 ⇔ 以下に該当する場合 等 + 契約者ご自身 ⇔ 契約者本人
矛盾認識の手法 1. 派生書類特有の単語を辞書に登録 2. 基準を用いて矛盾を含む文を認識 ”False Entailment Recognition”(Li et al.
2008) を参考に基準を作成 商品 本書 別紙 下表 等 16
使用した基準 数値の不一致 派生書類に出現した数値が基礎書類に存在しない 時間や日付の不一致 派生書類に出現した時間や日付が基礎書類に存在しない
単語の不一致 派生書類に出現した単語が基礎書類に存在しない 「すべて/いずれか」の不一致 派生書類に「すべて/いずれか」という表現が出現したとき、 同様の表現が基礎書類に存在しない 否定表現の不一致 派生書類に「~ない」等の否定表現が出現したとき、 同様の否定表現が基礎書類に存在しない 17
矛盾認識の実験 実験条件 生命保険に関する資料 基礎書類 (保険約款、特約) : 794文 派生書類 (契約概要、注意喚起情報)
: 224文 (うち矛盾を含む文 : 82文) 実験結果 再現率 適合率 圧縮率 0.85 0.69 0.46 224→102 18
矛盾認識の実験 実験条件 生命保険に関する資料 基礎書類 (保険約款、特約) : 794文 派生書類 (契約概要、注意喚起情報)
: 224文 (うち矛盾を含む文 : 82文) 実験結果 再現率 適合率 圧縮率 0.85 0.69 0.46 224→102 再現率0.85で 文書量を半分以下に削減できた 18
矛盾認識の考察 極性が定まっていない否定表現 具体例等を含んだ文 保険料をお支払いしない場合 等 共起語等を用いて場面を特定する必要がある 19 国内や海外旅行中に足を骨折した。
スカイダイビング、ハンググライダー搭乗等、 関連度等により具体例を除外する必要がある 等
まとめ(対応付け) 人手による校正を支援するために、基礎書類と 派生書類の自動対応付けを行った IDF と内積を用いた手法により、正解率約7割で 対応付けすることができた 手がかり語による手法は正解率約4割であった
複数の語を見るべき場合との判別が必要 20
まとめ(矛盾認識) 基礎書類と派生書類の間にある矛盾を認識した 5つの基準を用いた手法により、再現率0.85で 文書量を半分以下に削減できた 極性が定まらない否定表現の判別や具体例の 除去が課題である 21
ご清聴ありがとうございました
対応付けの考察 IDFおよび内積を用いた手法が最良 派生書類の文中で繰り返し使用する語は 「保険」「補償」等、対応付けの参考にならない 基礎書類の複数章に言及する文もある 21 基礎書類との対応が文の長さに依存しないた め、文の長さで正規化するコサイン類似度より
内積の方が適している 1文中での語の出現回数は意味をもたない
対応付けの考察 頻度情報を用いた手法 文の類似度で判断するため、 「人身」「搭乗者」等の重要語を考慮できていない 基礎書類および派生書類の語を用いた手法 主に単語で判断するが重要語が不適切なため、 誤った対応をとった 22
重要語抽出の手法を適用して重み付け 周辺文脈も考慮
矛盾認識の成功例 基礎書類にそろえるべき表現 基礎書類と一致しない数値 極性が一意な場合の否定表現 ケガ(傷害) ご自身(本人) クーリング・オフ
等 188日(180日) 88%( ) 等 委託先に取扱いを委託しない場合 等 23
残された課題 1. 矛盾認識手法における再現率の向上 場面や極性の判定 具体例の除去 2. 対応付けの精度向上
重要語の検討 3. 対応のない文の判定および1対多の対応付け 4. 各種校正支援システムの実用化 24