文書をデータ化し見える化へ

(Python を用いて) 文書をデータ化し (Python を用いて) 文書をデータ化し (Python を用いて) 文書をデータ化し (Python
を用いて) 文書をデータ化し (Python を用いて) 文書をデータ化し (Python を用いて) 文書をデータ化し見える化へ見える化へ見える化へ見える化へ見える化へ見える化へ Code for Japan summit 2019 Code for Japan summit 2019 Code for Japan summit 2019 Code for Japan summit 2019 Code for Japan summit 2019 Code for Japan summit 2019 - 2019-09-29 - - 2019-09-29 - - 2019-09-29 - - 2019-09-29 - - 2019-09-29 - - 2019-09-29 - @terapyon @terapyon @terapyon @terapyon @terapyon @terapyon 1 / 73

Self introduction Self introduction Self introduction Self introduction Self introduction
Self introduction Manabu TERADA Manabu TERADA Manabu TERADA Manabu TERADA Manabu TERADA Manabu TERADA ( 寺田学) ( 寺田学) ( 寺田学) ( 寺田学) ( 寺田学) ( 寺田学) Python エンジニア Python エンジニア Python エンジニア Python エンジニア Python エンジニア Python エンジニア一般社団法人PyCon JP 代表理事一般社団法人PyCon JP 代表理事一般社団法人PyCon JP 代表理事一般社団法人PyCon JP 代表理事一般社団法人PyCon JP 代表理事一般社団法人PyCon JP 代表理事一般社団法人Python エンジニア育成推進協会顧問理事一般社団法人Python エンジニア育成推進協会顧問理事一般社団法人Python エンジニア育成推進協会顧問理事一般社団法人Python エンジニア育成推進協会顧問理事一般社団法人Python エンジニア育成推進協会顧問理事一般社団法人Python エンジニア育成推進協会顧問理事 Plone Foundation Ambassador Plone Foundation Ambassador Plone Foundation Ambassador Plone Foundation Ambassador Plone Foundation Ambassador Plone Foundation Ambassador PSF Contributing member PSF Contributing member PSF Contributing member PSF Contributing member PSF Contributing member PSF Contributing member Member of NVDA Japanese Team Member of NVDA Japanese Team Member of NVDA Japanese Team Member of NVDA Japanese Team Member of NVDA Japanese Team Member of NVDA Japanese Team                                     2 / 73

Our company Our company Our company Our company Our company
Our company CMS Communications Inc. CMS Communications Inc. CMS Communications Inc. CMS Communications Inc. CMS Communications Inc. CMS Communications Inc. https://www.cmscom.jp https://www.cmscom.jp https://www.cmscom.jp https://www.cmscom.jp https://www.cmscom.jp https://www.cmscom.jp Plone を使って、大学のサイトとか企業サイトなどを構築 Plone を使って、大学のサイトとか企業サイトなどを構築 Plone を使って、大学のサイトとか企業サイトなどを構築 Plone を使って、大学のサイトとか企業サイトなどを構築 Plone を使って、大学のサイトとか企業サイトなどを構築 Plone を使って、大学のサイトとか企業サイトなどを構築 Python 関連の技術顧問 Python 関連の技術顧問 Python 関連の技術顧問 Python 関連の技術顧問 Python 関連の技術顧問 Python 関連の技術顧問技術集団( フロント、サーバサイド、インフラ) 技術集団( フロント、サーバサイド、インフラ) 技術集団( フロント、サーバサイド、インフラ) 技術集団( フロント、サーバサイド、インフラ) 技術集団( フロント、サーバサイド、インフラ) 技術集団( フロント、サーバサイド、インフラ) 教育系ツールもサポート教育系ツールもサポート教育系ツールもサポート教育系ツールもサポート教育系ツールもサポート教育系ツールもサポート Plone Plone Plone Plone Plone Plone, , , , , , Pyramid and Open edX Pyramid and Open edX Pyramid and Open edX Pyramid and Open edX Pyramid and Open edX Pyramid and Open edX データ分析系の業務も行っているデータ分析系の業務も行っているデータ分析系の業務も行っているデータ分析系の業務も行っているデータ分析系の業務も行っているデータ分析系の業務も行っている                                     3 / 73

4 / 73

5 / 73

PyCon JP PyCon JP PyCon JP PyCon JP PyCon JP
PyCon JP 2019 年９月中旬に大田区産業プラザで開催した 2019 年９月中旬に大田区産業プラザで開催した 2019 年９月中旬に大田区産業プラザで開催した 2019 年９月中旬に大田区産業プラザで開催した 2019 年９月中旬に大田区産業プラザで開催した 2019 年９月中旬に大田区産業プラザで開催した 1000 人規模 1000 人規模 1000 人規模 1000 人規模 1000 人規模 1000 人規模地方でPython のチュートリアルイベントを開催地方でPython のチュートリアルイベントを開催地方でPython のチュートリアルイベントを開催地方でPython のチュートリアルイベントを開催地方でPython のチュートリアルイベントを開催地方でPython のチュートリアルイベントを開催女性のコミュニティPyLadies.Tokyo とも連携し支援女性のコミュニティPyLadies.Tokyo とも連携し支援女性のコミュニティPyLadies.Tokyo とも連携し支援女性のコミュニティPyLadies.Tokyo とも連携し支援女性のコミュニティPyLadies.Tokyo とも連携し支援女性のコミュニティPyLadies.Tokyo とも連携し支援                         6 / 73

セッションの内容セッションの内容セッションの内容セッションの内容セッションの内容セッションの内容日本語の文書をデータとして扱う(10 分) 日本語の文書をデータとして扱う(10 分)
日本語の文書をデータとして扱う(10 分) 日本語の文書をデータとして扱う(10 分) 日本語の文書をデータとして扱う(10 分) 日本語の文書をデータとして扱う(10 分) 文章から何が見えてくるか考える(5 分) 文章から何が見えてくるか考える(5 分) 文章から何が見えてくるか考える(5 分) 文章から何が見えてくるか考える(5 分) 文章から何が見えてくるか考える(5 分) 文章から何が見えてくるか考える(5 分) 日本語の難しさ(5 分) 日本語の難しさ(5 分) 日本語の難しさ(5 分) 日本語の難しさ(5 分) 日本語の難しさ(5 分) 日本語の難しさ(5 分) 日本語以外の場合(5 分) 日本語以外の場合(5 分) 日本語以外の場合(5 分) 日本語以外の場合(5 分) 日本語以外の場合(5 分) 日本語以外の場合(5 分) Python を使って日本語を扱う(10 分) Python を使って日本語を扱う(10 分) Python を使って日本語を扱う(10 分) Python を使って日本語を扱う(10 分) Python を使って日本語を扱う(10 分) Python を使って日本語を扱う(10 分) Web サイトのデータを使った実践(15 分) Web サイトのデータを使った実践(15 分) Web サイトのデータを使った実践(15 分) Web サイトのデータを使った実践(15 分) Web サイトのデータを使った実践(15 分) Web サイトのデータを使った実践(15 分) その他の応用を考える(5 分) その他の応用を考える(5 分) その他の応用を考える(5 分) その他の応用を考える(5 分) その他の応用を考える(5 分) その他の応用を考える(5 分) Q&A (10 分) Q&A (10 分) Q&A (10 分) Q&A (10 分) Q&A (10 分) Q&A (10 分)                                                 7 / 73

日本語の文書をデータとして扱う日本語の文書をデータとして扱う日本語の文書をデータとして扱う日本語の文書をデータとして扱う日本語の文書をデータとして扱う日本語の文書をデータとして扱うデジタル化デジタル化デジタル化デジタル化
デジタル化デジタル化扱いやすいデータとは扱いやすいデータとは扱いやすいデータとは扱いやすいデータとは扱いやすいデータとは扱いやすいデータとは文書にラベル( 番号など) を付ける文書にラベル( 番号など) を付ける文書にラベル( 番号など) を付ける文書にラベル( 番号など) を付ける文書にラベル( 番号など) を付ける文書にラベル( 番号など) を付ける文書の構造別に分ける ( タイトル、概要、本文、補足など) 文書の構造別に分ける ( タイトル、概要、本文、補足など) 文書の構造別に分ける ( タイトル、概要、本文、補足など) 文書の構造別に分ける ( タイトル、概要、本文、補足など) 文書の構造別に分ける ( タイトル、概要、本文、補足など) 文書の構造別に分ける ( タイトル、概要、本文、補足など) 構造別に、文を単語に分ける構造別に、文を単語に分ける構造別に、文を単語に分ける構造別に、文を単語に分ける構造別に、文を単語に分ける構造別に、文を単語に分ける単語ごとにラベル付け・形態素解析 ( 品詞に分けるとか) 単語ごとにラベル付け・形態素解析 ( 品詞に分けるとか) 単語ごとにラベル付け・形態素解析 ( 品詞に分けるとか) 単語ごとにラベル付け・形態素解析 ( 品詞に分けるとか) 単語ごとにラベル付け・形態素解析 ( 品詞に分けるとか) 単語ごとにラベル付け・形態素解析 ( 品詞に分けるとか) 不要な単語の処理不要な単語の処理不要な単語の処理不要な単語の処理不要な単語の処理不要な単語の処理                                           8 / 73

日本語の文書をデジタル化日本語の文書をデジタル化日本語の文書をデジタル化日本語の文書をデジタル化日本語の文書をデジタル化日本語の文書をデジタル化紙に書かれている状態だと扱えない紙に書かれている状態だと扱えない紙に書かれている状態だと扱えない紙に書かれている状態だと扱えない
紙に書かれている状態だと扱えない紙に書かれている状態だと扱えない OCR するとか、人手で入力するとか OCR するとか、人手で入力するとか OCR するとか、人手で入力するとか OCR するとか、人手で入力するとか OCR するとか、人手で入力するとか OCR するとか、人手で入力するとかデジタルデータにすることが最初の一歩デジタルデータにすることが最初の一歩デジタルデータにすることが最初の一歩デジタルデータにすることが最初の一歩デジタルデータにすることが最初の一歩デジタルデータにすることが最初の一歩                   9 / 73

扱いやすいデータとは扱いやすいデータとは扱いやすいデータとは扱いやすいデータとは扱いやすいデータとは扱いやすいデータとは構造化されたデータ構造化されたデータ構造化されたデータ構造化されたデータ
構造化されたデータ構造化されたデータ例えば例えば例えば例えば例えば例えば文書が番号で管理されている文書が番号で管理されている文書が番号で管理されている文書が番号で管理されている文書が番号で管理されている文書が番号で管理されている文書内のタイトルや概要文が個別に管理されている文書内のタイトルや概要文が個別に管理されている文書内のタイトルや概要文が個別に管理されている文書内のタイトルや概要文が個別に管理されている文書内のタイトルや概要文が個別に管理されている文書内のタイトルや概要文が個別に管理されている文書ごとのタグ付けがされている文書ごとのタグ付けがされている文書ごとのタグ付けがされている文書ごとのタグ付けがされている文書ごとのタグ付けがされている文書ごとのタグ付けがされている文書の更新日がわかる文書の更新日がわかる文書の更新日がわかる文書の更新日がわかる文書の更新日がわかる文書の更新日がわかる                                     10 / 73

文書にラベル( 番号など) を付ける文書にラベル( 番号など) を付ける文書にラベル( 番号など) を付ける文書にラベル(
番号など) を付ける文書にラベル( 番号など) を付ける文書にラベル( 番号など) を付ける文書毎に目印を付ける文書毎に目印を付ける文書毎に目印を付ける文書毎に目印を付ける文書毎に目印を付ける文書毎に目印を付ける文書にID をつけるとか文書にID をつけるとか文書にID をつけるとか文書にID をつけるとか文書にID をつけるとか文書にID をつけるとかファイル名 --> 文書ファイル名 --> 文書ファイル名 --> 文書ファイル名 --> 文書ファイル名 --> 文書ファイル名 --> 文書 URL --> 文書 URL --> 文書 URL --> 文書 URL --> 文書 URL --> 文書 URL --> 文書                         11 / 73

文書の中を構造別に分ける文書の中を構造別に分ける文書の中を構造別に分ける文書の中を構造別に分ける文書の中を構造別に分ける文書の中を構造別に分ける以下のような構造がある以下のような構造がある以下のような構造がある以下のような構造がある
以下のような構造がある以下のような構造があるタイトルタイトルタイトルタイトルタイトルタイトル概要文概要文概要文概要文概要文概要文本文本文本文本文本文本文公開日公開日公開日公開日公開日公開日補足など補足など補足など補足など補足など補足など                               12 / 73

文書の構造別に分ける( 図) 文書の構造別に分ける( 図) 文書の構造別に分ける( 図) 文書の構造別に分ける( 図) 文書の構造別に分ける( 図)
文書の構造別に分ける( 図) 13 / 73

構造別に、文を単語に分ける構造別に、文を単語に分ける構造別に、文を単語に分ける構造別に、文を単語に分ける構造別に、文を単語に分ける構造別に、文を単語に分ける単語に分割する単語に分割する単語に分割する単語に分割する
単語に分割する単語に分割する私の名前は寺田学です。エンジニアをしています。私の名前は寺田学です。エンジニアをしています。 [' 私', ' の', ' 名前', ' は', ' 寺田', ' 学', ' です', ' 。', ' エンジニア', [' 私', ' の', ' 名前', ' は', ' 寺田', ' 学', ' です', ' 。', ' エンジニア', ' を', ' し', ' て', ' い', ' ます', ' 。'] ' を', ' し', ' て', ' い', ' ます', ' 。'] by Janome by Janome by Janome by Janome by Janome by Janome       14 / 73

単語ごとにラベル付け・形態素解析単語ごとにラベル付け・形態素解析単語ごとにラベル付け・形態素解析単語ごとにラベル付け・形態素解析単語ごとにラベル付け・形態素解析単語ごとにラベル付け・形態素解析品詞に分ける品詞に分ける品詞に分ける品詞に分ける
品詞に分ける品詞に分ける読みを付加する読みを付加する読みを付加する読みを付加する読みを付加する読みを付加する単語の原形に変換する単語の原形に変換する単語の原形に変換する単語の原形に変換する単語の原形に変換する単語の原形に変換する                   15 / 73

私名詞, 代名詞, 一般,*,*,*, 私, ワタシ, ワタシ私名詞, 代名詞,
一般,*,*,*, 私, ワタシ, ワタシの助詞, 連体化,*,*,*,*, の, ノ, ノの助詞, 連体化,*,*,*,*, の, ノ, ノ名前名詞, 一般,*,*,*,*, 名前, ナマエ, ナマエ名前名詞, 一般,*,*,*,*, 名前, ナマエ, ナマエは助詞, 係助詞,*,*,*,*, は, ハ, ワは助詞, 係助詞,*,*,*,*, は, ハ, ワ寺田名詞, 固有名詞, 人名, 姓,*,*, 寺田, テラダ, テラダ寺田名詞, 固有名詞, 人名, 姓,*,*, 寺田, テラダ, テラダ学名詞, 固有名詞, 人名, 名,*,*, 学, マナブ, マナブ学名詞, 固有名詞, 人名, 名,*,*, 学, マナブ, マナブです助動詞,*,*,*, 特殊・デス, 基本形, です, デス, デスです助動詞,*,*,*, 特殊・デス, 基本形, です, デス, デス。記号, 句点,*,*,*,*, 。, 。, 。。記号, 句点,*,*,*,*, 。, 。, 。エンジニア名詞, 一般,*,*,*,*, エンジニア, エンジニア, エンジニアエンジニア名詞, 一般,*,*,*,*, エンジニア, エンジニア, エンジニアを助詞, 格助詞, 一般,*,*,*, を, ヲ, ヲを助詞, 格助詞, 一般,*,*,*, を, ヲ, ヲし動詞, 自立,*,*, サ変・スル, 連用形, する, シ, シし動詞, 自立,*,*, サ変・スル, 連用形, する, シ, シて助詞, 接続助詞,*,*,*,*, て, テ, テて助詞, 接続助詞,*,*,*,*, て, テ, テい動詞, 非自立,*,*, 一段, 連用形, いる, イ, イい動詞, 非自立,*,*, 一段, 連用形, いる, イ, イます助動詞,*,*,*, 特殊・マス, 基本形, ます, マス, マスます助動詞,*,*,*, 特殊・マス, 基本形, ます, マス, マス。記号, 句点,*,*,*,*, 。, 。, 。。記号, 句点,*,*,*,*, 。, 。, 。 16 / 73

不要な単語の処理不要な単語の処理不要な単語の処理不要な単語の処理不要な単語の処理不要な単語の処理ストップワード処理ストップワード処理ストップワード処理ストップワード処理
ストップワード処理ストップワード処理英語だと、英語だと、英語だと、英語だと、英語だと、英語だと、 a a a a a a やややややや the the the the the the のような冠詞を取り除くのような冠詞を取り除くのような冠詞を取り除くのような冠詞を取り除くのような冠詞を取り除くのような冠詞を取り除く日本語の助詞を取り除く日本語の助詞を取り除く日本語の助詞を取り除く日本語の助詞を取り除く日本語の助詞を取り除く日本語の助詞を取り除く意味を持たない記号などを取り除く意味を持たない記号などを取り除く意味を持たない記号などを取り除く意味を持たない記号などを取り除く意味を持たない記号などを取り除く意味を持たない記号などを取り除く                         17 / 73

文書から何が見えてくるか考える文書から何が見えてくるか考える文書から何が見えてくるか考える文書から何が見えてくるか考える文書から何が見えてくるか考える文書から何が見えてくるか考える文字を探し出す文字を探し出す文字を探し出す文字を探し出す
文字を探し出す文字を探し出す単語をひもとく単語をひもとく単語をひもとく単語をひもとく単語をひもとく単語をひもとく文書間の関連を見つける文書間の関連を見つける文書間の関連を見つける文書間の関連を見つける文書間の関連を見つける文書間の関連を見つける文書の自動タグ付け文書の自動タグ付け文書の自動タグ付け文書の自動タグ付け文書の自動タグ付け文書の自動タグ付け単語間の関係性単語間の関係性単語間の関係性単語間の関係性単語間の関係性単語間の関係性もしかして・スペルミス・表記揺れチェックもしかして・スペルミス・表記揺れチェックもしかして・スペルミス・表記揺れチェックもしかして・スペルミス・表記揺れチェックもしかして・スペルミス・表記揺れチェックもしかして・スペルミス・表記揺れチェック                                     18 / 73

文字を探し出す文字を探し出す文字を探し出す文字を探し出す文字を探し出す文字を探し出す検索検索検索検索
検索検索網羅的に捜査する網羅的に捜査する網羅的に捜査する網羅的に捜査する網羅的に捜査する網羅的に捜査する転置インデックスを作る転置インデックスを作る転置インデックスを作る転置インデックスを作る転置インデックスを作る転置インデックスを作る             19 / 73

転置インデックス(1) 転置インデックス(1) 転置インデックス(1) 転置インデックス(1) 転置インデックス(1) 転置インデックス(1) 文書1: Python はソフトウエア文書1:
Python はソフトウエア文書1: Python はソフトウエア文書1: Python はソフトウエア文書1: Python はソフトウエア文書1: Python はソフトウエア文書2: ソフトウエアを使ってアプリを作る文書2: ソフトウエアを使ってアプリを作る文書2: ソフトウエアを使ってアプリを作る文書2: ソフトウエアを使ってアプリを作る文書2: ソフトウエアを使ってアプリを作る文書2: ソフトウエアを使ってアプリを作る文書3: Python で検索エンジンを作る文書3: Python で検索エンジンを作る文書3: Python で検索エンジンを作る文書3: Python で検索エンジンを作る文書3: Python で検索エンジンを作る文書3: Python で検索エンジンを作る単語を文書ごとに番号付け単語を文書ごとに番号付け単語を文書ごとに番号付け単語を文書ごとに番号付け単語を文書ごとに番号付け単語を文書ごとに番号付け {'Python': 1, ' ソフトウエア': 1} {'Python': 1, ' ソフトウエア': 1} {' ソフトウエア': 2, ' 使う': 2, ' アプリ': 2, ' 作る': 2} {' ソフトウエア': 2, ' 使う': 2, ' アプリ': 2, ' 作る': 2} {'Python': 3, ' 検索': 3, ' エンジン': 3, ' 作る': 3} {'Python': 3, ' 検索': 3, ' エンジン': 3, ' 作る': 3}                   20 / 73

転置インデックス(2) 転置インデックス(2) 転置インデックス(2) 転置インデックス(2) 転置インデックス(2) 転置インデックス(2) 'Python': {1, 3}, 'Python':
{1, 3}, ' ソフトウエア': {1, 2}, ' ソフトウエア': {1, 2}, ' 使う': {2}, ' 使う': {2}, ' アプリ': {2}, ' アプリ': {2}, ' 作る': {2, 3}, ' 作る': {2, 3}, ' 検索': {3}, ' 検索': {3}, ' エンジン': {3} ' エンジン': {3} 21 / 73

転置インデックス(3) 転置インデックス(3) 転置インデックス(3) 転置インデックス(3) 転置インデックス(3) 転置インデックス(3) "Python and 作る"
で検索 "Python and 作る" で検索 "Python and 作る" で検索 "Python and 作る" で検索 "Python and 作る" で検索 "Python and 作る" で検索 'Python': {1, 3}, 'Python': {1, 3}, ' 作る': {2, 3}, ' 作る': {2, 3}, 文書3 が該当文書となる文書3 が該当文書となる文書3 が該当文書となる文書3 が該当文書となる文書3 が該当文書となる文書3 が該当文書となる {1, 3} & {2, 3} --> {3} {1, 3} & {2, 3} --> {3} 22 / 73

単語をひもとく単語をひもとく単語をひもとく単語をひもとく単語をひもとく単語をひもとく頻出頻度頻出頻度頻出頻度頻出頻度
頻出頻度頻出頻度ワードクラウドワードクラウドワードクラウドワードクラウドワードクラウドワードクラウド             23 / 73

文書間の関連を見つける文書間の関連を見つける文書間の関連を見つける文書間の関連を見つける文書間の関連を見つける文書間の関連を見つけるこの文書とこの文書は似ているか？この文書とこの文書は似ているか？この文書とこの文書は似ているか？この文書とこの文書は似ているか？
この文書とこの文書は似ているか？この文書とこの文書は似ているか？人は文書を読むと似ているかどうか分かる人は文書を読むと似ているかどうか分かる人は文書を読むと似ているかどうか分かる人は文書を読むと似ているかどうか分かる人は文書を読むと似ているかどうか分かる人は文書を読むと似ているかどうか分かる高速道路で40km の渋滞が発生高速道路で40km の渋滞が発生 5G ネットワークによる高速通信サービス開始 5G ネットワークによる高速通信サービス開始スマホの不正利用が発生スマホの不正利用が発生             24 / 73

文書の自動タグ付け文書の自動タグ付け文書の自動タグ付け文書の自動タグ付け文書の自動タグ付け文書の自動タグ付けニュースタイトルと考えるとニュースタイトルと考えるとニュースタイトルと考えるとニュースタイトルと考えると
ニュースタイトルと考えるとニュースタイトルと考えると高速道路で40km の渋滞が発生 --> 交通情報高速道路で40km の渋滞が発生 --> 交通情報 5G ネットワークによる高速通信サービス開始 --> 携帯電話サービス 5G ネットワークによる高速通信サービス開始 --> 携帯電話サービススマホの不正利用が発生 --> 携帯電話サービススマホの不正利用が発生 --> 携帯電話サービス       25 / 73

単語間の関係性単語間の関係性単語間の関係性単語間の関係性単語間の関係性単語間の関係性関連を見つける関連を見つける関連を見つける関連を見つける
関連を見つける関連を見つける似ている単語を見つける似ている単語を見つける似ている単語を見つける似ている単語を見つける似ている単語を見つける似ている単語を見つける ' ロボット' ' ロボット' (' 対話', 0.9823681116104126), (' 対話', 0.9823681116104126), (' 人間', 0.9746276140213013), (' 人間', 0.9746276140213013), ('ai', 0.9576572775840759), ('ai', 0.9576572775840759), (' 表情', 0.9486445188522339), (' 表情', 0.9486445188522339), (' アンドロイド', 0.9475428462028503) (' アンドロイド', 0.9475428462028503)             26 / 73

追加の機能追加の機能追加の機能追加の機能追加の機能追加の機能もしかしてもしかしてもしかしてもしかして
もしかしてもしかしてスペルミスを発見スペルミスを発見スペルミスを発見スペルミスを発見スペルミスを発見スペルミスを発見表記揺れチェック表記揺れチェック表記揺れチェック表記揺れチェック表記揺れチェック表記揺れチェック                   27 / 73

日本語の難しさ日本語の難しさ日本語の難しさ日本語の難しさ日本語の難しさ日本語の難しさ単語がスペースで区切られていない単語がスペースで区切られていない単語がスペースで区切られていない単語がスペースで区切られていない
単語がスペースで区切られていない単語がスペースで区切られていないアラビア数字でも全角・半角の2 つの表記があるアラビア数字でも全角・半角の2 つの表記があるアラビア数字でも全角・半角の2 つの表記があるアラビア数字でも全角・半角の2 つの表記があるアラビア数字でも全角・半角の2 つの表記があるアラビア数字でも全角・半角の2 つの表記がある同じ単語でも複数の表記がある同じ単語でも複数の表記がある同じ単語でも複数の表記がある同じ単語でも複数の表記がある同じ単語でも複数の表記がある同じ単語でも複数の表記があるキャラクタ数が多いキャラクタ数が多いキャラクタ数が多いキャラクタ数が多いキャラクタ数が多いキャラクタ数が多い                         28 / 73

単語がスペースで区切られていない単語がスペースで区切られていない単語がスペースで区切られていない単語がスペースで区切られていない単語がスペースで区切られていない単語がスペースで区切られていない My name is Manabu
Terada. I am an engineer My name is Manabu Terada. I am an engineer ['My', 'name', 'is', 'Manabu', 'Terada.', 'I', 'am', 'an', 'enginee ['My', 'name', 'is', 'Manabu', 'Terada.', 'I', 'am', 'an', 'enginee r'] r'] 英語 vs 日本語英語 vs 日本語英語 vs 日本語英語 vs 日本語英語 vs 日本語英語 vs 日本語私の名前は寺田学です。エンジニアをしています。私の名前は寺田学です。エンジニアをしています。 [' 私', ' の', ' 名前', ' は', ' 寺田', ' 学', ' です', ' 。', ' エンジニア', [' 私', ' の', ' 名前', ' は', ' 寺田', ' 学', ' です', ' 。', ' エンジニア', ' を', ' し', ' て', ' い', ' ます', ' 。'] ' を', ' し', ' て', ' い', ' ます', ' 。'] 29 / 73

アラビア数字でも全角・半角の2 つのアラビア数字でも全角・半角の2 つのアラビア数字でも全角・半角の2 つのアラビア数字でも全角・半角の2 つのアラビア数字でも全角・半角の2 つの
アラビア数字でも全角・半角の2 つの表記がある表記がある表記がある表記がある表記がある表記がある半角: "1", "2", "3" 半角: "1", "2", "3" 全角: " １", " ２", " ３" 全角: " １", " ２", " ３" 30 / 73

同じ単語でも複数の表記がある同じ単語でも複数の表記がある同じ単語でも複数の表記がある同じ単語でも複数の表記がある同じ単語でも複数の表記がある同じ単語でも複数の表記がある複数のキャラクタを使う珍しい言語複数のキャラクタを使う珍しい言語複数のキャラクタを使う珍しい言語複数のキャラクタを使う珍しい言語
複数のキャラクタを使う珍しい言語複数のキャラクタを使う珍しい言語漢字漢字漢字漢字漢字漢字カタカナカタカナカタカナカタカナカタカナカタカナひらがなひらがなひらがなひらがなひらがなひらがな                   31 / 73

キャラクタ数が多いキャラクタ数が多いキャラクタ数が多いキャラクタ数が多いキャラクタ数が多いキャラクタ数が多い常用漢字: 約2000 常用漢字: 約2000
常用漢字: 約2000 常用漢字: 約2000 常用漢字: 約2000 常用漢字: 約2000 漢字: 5 万とも言われている漢字: 5 万とも言われている漢字: 5 万とも言われている漢字: 5 万とも言われている漢字: 5 万とも言われている漢字: 5 万とも言われているひらがな・カタカナ: 100 ひらがな・カタカナ: 100 ひらがな・カタカナ: 100 ひらがな・カタカナ: 100 ひらがな・カタカナ: 100 ひらがな・カタカナ: 100                   32 / 73

日本語以外の場合日本語以外の場合日本語以外の場合日本語以外の場合日本語以外の場合日本語以外の場合英語英語英語英語
英語英語多くの欧米言語多くの欧米言語多くの欧米言語多くの欧米言語多くの欧米言語多くの欧米言語中国語や韓国語中国語や韓国語中国語や韓国語中国語や韓国語中国語や韓国語中国語や韓国語アラビア語系アラビア語系アラビア語系アラビア語系アラビア語系アラビア語系                         33 / 73

英語英語英語英語英語英語英語を単語に区切るのは簡単英語を単語に区切るのは簡単英語を単語に区切るのは簡単英語を単語に区切るのは簡単
英語を単語に区切るのは簡単英語を単語に区切るのは簡単英語のキャラクタ数英語のキャラクタ数英語のキャラクタ数英語のキャラクタ数英語のキャラクタ数英語のキャラクタ数 26 × 2 しかない 26 × 2 しかない 26 × 2 しかない 26 × 2 しかない 26 × 2 しかない 26 × 2 しかない数字や記号を入れても128 以下数字や記号を入れても128 以下数字や記号を入れても128 以下数字や記号を入れても128 以下数字や記号を入れても128 以下数字や記号を入れても128 以下                         34 / 73

多くの欧米言語多くの欧米言語多くの欧米言語多くの欧米言語多くの欧米言語多くの欧米言語多くの欧米言語がスペースで区切られている多くの欧米言語がスペースで区切られている多くの欧米言語がスペースで区切られている多くの欧米言語がスペースで区切られている
多くの欧米言語がスペースで区切られている多くの欧米言語がスペースで区切られているキャラクタ数も限られているキャラクタ数も限られているキャラクタ数も限られているキャラクタ数も限られているキャラクタ数も限られているキャラクタ数も限られている             35 / 73

中国語や韓国語中国語や韓国語中国語や韓国語中国語や韓国語中国語や韓国語中国語や韓国語日本語と同様にスペースで区切られていない日本語と同様にスペースで区切られていない日本語と同様にスペースで区切られていない日本語と同様にスペースで区切られていない
日本語と同様にスペースで区切られていない日本語と同様にスペースで区切られていないキャラクタ数が多いキャラクタ数が多いキャラクタ数が多いキャラクタ数が多いキャラクタ数が多いキャラクタ数が多い             36 / 73

アラビア語系アラビア語系アラビア語系アラビア語系アラビア語系アラビア語系右から表記をする右から表記をする右から表記をする右から表記をする
右から表記をする右から表記をする単語をスペースで区切られている単語をスペースで区切られている単語をスペースで区切られている単語をスペースで区切られている単語をスペースで区切られている単語をスペースで区切られているキャラクタ数も 28 × 約4 と少ないキャラクタ数も 28 × 約4 と少ないキャラクタ数も 28 × 約4 と少ないキャラクタ数も 28 × 約4 と少ないキャラクタ数も 28 × 約4 と少ないキャラクタ数も 28 × 約4 と少ない独立形・頭字・中字・尾字独立形・頭字・中字・尾字独立形・頭字・中字・尾字独立形・頭字・中字・尾字独立形・頭字・中字・尾字独立形・頭字・中字・尾字                         37 / 73

Python を使って日本語を扱う Python を使って日本語を扱う Python を使って日本語を扱う Python を使って日本語を扱う Python を使って日本語を扱う
Python を使って日本語を扱うここからが本題!! ここからが本題!! ここからが本題!! ここからが本題!! ここからが本題!! ここからが本題!! 38 / 73

Python を使って日本語を扱う Python を使って日本語を扱う Python を使って日本語を扱う Python を使って日本語を扱う Python を使って日本語を扱う
Python を使って日本語を扱う前提前提前提前提前提前提このセッションでは、このセッションでは、このセッションでは、このセッションでは、このセッションでは、このセッションでは、 OCR の話しはしません ( デジタルデータになっている前提) OCR の話しはしません ( デジタルデータになっている前提) OCR の話しはしません ( デジタルデータになっている前提) OCR の話しはしません ( デジタルデータになっている前提) OCR の話しはしません ( デジタルデータになっている前提) OCR の話しはしません ( デジタルデータになっている前提) Excel にデータがあるとする Excel にデータがあるとする Excel にデータがあるとする Excel にデータがあるとする Excel にデータがあるとする Excel にデータがあるとする             39 / 73

Python とは Python とは Python とは Python とは Python とは
Python とはプログラム言語プログラム言語プログラム言語プログラム言語プログラム言語プログラム言語動的型付け、コンパイル不要動的型付け、コンパイル不要動的型付け、コンパイル不要動的型付け、コンパイル不要動的型付け、コンパイル不要動的型付け、コンパイル不要シンプルな仕様で簡単に使い始められるシンプルな仕様で簡単に使い始められるシンプルな仕様で簡単に使い始められるシンプルな仕様で簡単に使い始められるシンプルな仕様で簡単に使い始められるシンプルな仕様で簡単に使い始められるデータ解析、機械学習などで使われているデータ解析、機械学習などで使われているデータ解析、機械学習などで使われているデータ解析、機械学習などで使われているデータ解析、機械学習などで使われているデータ解析、機械学習などで使われている Web システムやOS 基盤などでも使われている Web システムやOS 基盤などでも使われている Web システムやOS 基盤などでも使われている Web システムやOS 基盤などでも使われている Web システムやOS 基盤などでも使われている Web システムやOS 基盤などでも使われている                               40 / 73

Excel からPython のデータにする(1) Excel からPython のデータにする(1) Excel からPython のデータにする(1) Excel
からPython のデータにする(1) Excel からPython のデータにする(1) Excel からPython のデータにする(1) ライブラリを使うと簡単にできるライブラリを使うと簡単にできるライブラリを使うと簡単にできるライブラリを使うと簡単にできるライブラリを使うと簡単にできるライブラリを使うと簡単にできる openpyxl を使う openpyxl を使う openpyxl を使う openpyxl を使う openpyxl を使う openpyxl を使う >> >>> > import import openpyxl openpyxl >> >>> > wb wb = = openpyxl openpyxl. .load_workbook load_workbook( ("c2data-ja.xlsx" "c2data-ja.xlsx") ) >> >>> > ws ws = = wb wb. .active active >> >>> > ws ws[ ["C4" "C4"] ]. .value value '20171208_1' '20171208_1' 41 / 73

Excel からPython のデータにする(2) Excel からPython のデータにする(2) Excel からPython のデータにする(2) Excel
からPython のデータにする(2) Excel からPython のデータにする(2) Excel からPython のデータにする(2) ライブラリを使うと簡単にできるライブラリを使うと簡単にできるライブラリを使うと簡単にできるライブラリを使うと簡単にできるライブラリを使うと簡単にできるライブラリを使うと簡単にできる pandas を使う pandas を使う pandas を使う pandas を使う pandas を使う pandas を使う >> >>> > import import pandas pandas as as pd pd >> >>> > df df = = pd pd. .read_excel read_excel( ("c2data-ja.xlsx" "c2data-ja.xlsx") ) >> >>> > df df. .iloc iloc[ [2 2, , 2 2] ] '20171208_1' '20171208_1' 42 / 73

データをPython のstr として扱うデータをPython のstr として扱うデータをPython のstr として扱うデータをPython
のstr として扱うデータをPython のstr として扱うデータをPython のstr として扱う str: 文字列 str: 文字列 str: 文字列 str: 文字列 str: 文字列 str: 文字列 >> >>> > text text = = "Python は日本語を扱える。" "Python は日本語を扱える。" >> >>> > len len( (text text) ) 15 15 >> >>> > text text[ [: :6 6] ] 'Python' 'Python' 43 / 73

形態素解析エンジンで、単語を取得形態素解析エンジンで、単語を取得形態素解析エンジンで、単語を取得形態素解析エンジンで、単語を取得形態素解析エンジンで、単語を取得形態素解析エンジンで、単語を取得単語を最小限の単位に分けて、品詞を付加単語を最小限の単位に分けて、品詞を付加単語を最小限の単位に分けて、品詞を付加単語を最小限の単位に分けて、品詞を付加
単語を最小限の単位に分けて、品詞を付加単語を最小限の単位に分けて、品詞を付加 >> >>> > from from janome janome. .tokenizer tokenizer import import Tokenizer Tokenizer >> >>> > t t = = Tokenizer Tokenizer( () ) >> >>> > for for token token in in t t. .tokenize tokenize( ("Python は日本語を扱える" "Python は日本語を扱える") ): : . .. .. . print print( (token token) ) Python 名詞 Python 名詞, , 固有名詞固有名詞, , 組織組織, ,* *, ,* *, ,* *, ,Python Python, ,* *, ,* * は助詞は助詞, , 係助詞係助詞, ,* *, ,* *, ,* *, ,* *, , はは, , ハハ, , ワワ日本語名詞日本語名詞, , 一般一般, ,* *, ,* *, ,* *, ,* *, , 日本語日本語, , ニホンゴニホンゴ, , ニホンゴニホンゴを助詞を助詞, , 格助詞格助詞, , 一般一般, ,* *, ,* *, ,* *, , をを, , ヲヲ, , ヲヲ扱える動詞扱える動詞, , 自立自立, ,* *, ,* *, , 一段一段, , 基本形基本形, , 扱える扱える, , アツカエルアツカエル, , アツカエルアツカエル 44 / 73

形態素解析エンジンの種類形態素解析エンジンの種類形態素解析エンジンの種類形態素解析エンジンの種類形態素解析エンジンの種類形態素解析エンジンの種類 MeCab (Python バインディングがある) MeCab
(Python バインディングがある) MeCab (Python バインディングがある) MeCab (Python バインディングがある) MeCab (Python バインディングがある) MeCab (Python バインディングがある) Janome (Pure Python) Janome (Pure Python) Janome (Pure Python) Janome (Pure Python) Janome (Pure Python) Janome (Pure Python) Kuromoji (Java) Kuromoji (Java) Kuromoji (Java) Kuromoji (Java) Kuromoji (Java) Kuromoji (Java) NLTK ( 英語の場合) NLTK ( 英語の場合) NLTK ( 英語の場合) NLTK ( 英語の場合) NLTK ( 英語の場合) NLTK ( 英語の場合)                         45 / 73

形態素解析以外のアプローチ形態素解析以外のアプローチ形態素解析以外のアプローチ形態素解析以外のアプローチ形態素解析以外のアプローチ形態素解析以外のアプローチ N-gram N-gram N-gram N-gram
N-gram N-gram 2-gram の例 2-gram の例 2-gram の例 2-gram の例 2-gram の例 2-gram の例 >> >>> > text text = = "Python は日本語を扱える" "Python は日本語を扱える" >> >>> > sp sp = = [ [] ] >> >>> > for for i i in in range range( (len len( (text text) )) ): : . .. .. . if if i i != != len len( (text text) )- -1 1: : . .. .. . sp sp. .append append( (text text[ [i i] ] + + text text[ [i i+ +1 1] ]) ) [ ['Py' 'Py', , 'yt' 'yt', , 'th' 'th', , 'ho' 'ho', , 'on' 'on', , 'n は' 'n は', , ' は日' ' は日', , ' 日本' ' 日本', , ' 本語' ' 本語', , ' 語を' ' 語を', , ' を扱' ' を扱', , ' 扱え' ' 扱え', , ' える' ' える'] ] 46 / 73

英語の場合の単語を取得英語の場合の単語を取得英語の場合の単語を取得英語の場合の単語を取得英語の場合の単語を取得英語の場合の単語を取得スペースで区切れば、単語が取得できるスペースで区切れば、単語が取得できるスペースで区切れば、単語が取得できるスペースで区切れば、単語が取得できる
スペースで区切れば、単語が取得できるスペースで区切れば、単語が取得できる原形に戻すことはしておきたい原形に戻すことはしておきたい原形に戻すことはしておきたい原形に戻すことはしておきたい原形に戻すことはしておきたい原形に戻すことはしておきたい品詞が必要になる場合は、なにかしらのツールが必要品詞が必要になる場合は、なにかしらのツールが必要品詞が必要になる場合は、なにかしらのツールが必要品詞が必要になる場合は、なにかしらのツールが必要品詞が必要になる場合は、なにかしらのツールが必要品詞が必要になる場合は、なにかしらのツールが必要 >> >>> > text text = = "My name is Manabu Terada. I am an engineer" "My name is Manabu Terada. I am an engineer" >> >>> > text text. .split split( () ) [ ['My' 'My', , 'name' 'name', , 'is' 'is', , 'Manabu' 'Manabu', , 'Terada.' 'Terada.', , 'I' 'I', , 'am' 'am', , 'an' 'an', , 'enginee 'enginee r' r'] ]                   47 / 73

ノーマライズノーマライズノーマライズノーマライズノーマライズノーマライズ全角・半角をどちらかにしたい全角・半角をどちらかにしたい全角・半角をどちらかにしたい全角・半角をどちらかにしたい
全角・半角をどちらかにしたい全角・半角をどちらかにしたい大文字・小文字をどちからにしたい大文字・小文字をどちからにしたい大文字・小文字をどちからにしたい大文字・小文字をどちからにしたい大文字・小文字をどちからにしたい大文字・小文字をどちからにしたい原形やオリジナル表記にしたい原形やオリジナル表記にしたい原形やオリジナル表記にしたい原形やオリジナル表記にしたい原形やオリジナル表記にしたい原形やオリジナル表記にしたい >> >>> > import import unicodedata unicodedata >> >>> > text text = = "Py ｔｈon で日本語を扱えるｴﾝｼﾞﾆｱに２年でなるぞ。" "Py ｔｈon で日本語を扱えるｴﾝｼﾞﾆｱに２年でなるぞ。" >> >>> > new new = = unicodedata unicodedata. .normalize normalize( ('NFKD' 'NFKD', , text text) ) >> >>> > print print( (new new) ) Python で日本語を扱えるエンジニアに Python で日本語を扱えるエンジニアに2 2 年でなるぞ。年でなるぞ。                   48 / 73

文字列操作文字列操作文字列操作文字列操作文字列操作文字列操作 >> >>> > text
text = = "Python は日本語を扱える。" "Python は日本語を扱える。" >> >>> > text text. .upper upper( () ) 'PYTHON は日本語を扱える。' 'PYTHON は日本語を扱える。' >> >>> > text text. .replace replace( (" 日本語" " 日本語", , "Japanese" "Japanese") ) 'Python はJapanese を扱える。' 'Python はJapanese を扱える。' >> >>> > text text. .endswith endswith( (" 。" " 。") ) True True 49 / 73

Web サイトのデータを使った実践 Web サイトのデータを使った実践 Web サイトのデータを使った実践 Web サイトのデータを使った実践 Web サイトのデータを使った実践
Web サイトのデータを使った実践事前処理事前処理事前処理事前処理事前処理事前処理単語の頻出頻度をだす単語の頻出頻度をだす単語の頻出頻度をだす単語の頻出頻度をだす単語の頻出頻度をだす単語の頻出頻度をだす Top50 単語を出力 Top50 単語を出力 Top50 単語を出力 Top50 単語を出力 Top50 単語を出力 Top50 単語を出力ワードクラウドを出力するワードクラウドを出力するワードクラウドを出力するワードクラウドを出力するワードクラウドを出力するワードクラウドを出力するエントリー毎に似ているエントリーTop3 を出力エントリー毎に似ているエントリーTop3 を出力エントリー毎に似ているエントリーTop3 を出力エントリー毎に似ているエントリーTop3 を出力エントリー毎に似ているエントリーTop3 を出力エントリー毎に似ているエントリーTop3 を出力同じ意味を持つ単語を出力同じ意味を持つ単語を出力同じ意味を持つ単語を出力同じ意味を持つ単語を出力同じ意味を持つ単語を出力同じ意味を持つ単語を出力                                     50 / 73

例題の説明例題の説明例題の説明例題の説明例題の説明例題の説明大阪大学が運営する、ResOU では研究成果を紹介大阪大学が運営する、ResOU では研究成果を紹介
大阪大学が運営する、ResOU では研究成果を紹介大阪大学が運営する、ResOU では研究成果を紹介大阪大学が運営する、ResOU では研究成果を紹介大阪大学が運営する、ResOU では研究成果を紹介 https://resou.osaka-u.ac.jp/ https://resou.osaka-u.ac.jp/ https://resou.osaka-u.ac.jp/ https://resou.osaka-u.ac.jp/ https://resou.osaka-u.ac.jp/ https://resou.osaka-u.ac.jp/ ResOU の1200 エントリーを解析してみる ResOU の1200 エントリーを解析してみる ResOU の1200 エントリーを解析してみる ResOU の1200 エントリーを解析してみる ResOU の1200 エントリーを解析してみる ResOU の1200 エントリーを解析してみるワードクラウドを作るワードクラウドを作るワードクラウドを作るワードクラウドを作るワードクラウドを作るワードクラウドを作るエントリー間の関連を見るエントリー間の関連を見るエントリー間の関連を見るエントリー間の関連を見るエントリー間の関連を見るエントリー間の関連を見るよく使われている単語と同じ意味を持つ単語を探すよく使われている単語と同じ意味を持つ単語を探すよく使われている単語と同じ意味を持つ単語を探すよく使われている単語と同じ意味を持つ単語を探すよく使われている単語と同じ意味を持つ単語を探すよく使われている単語と同じ意味を持つ単語を探す                               51 / 73

52 / 73

事前処理事前処理事前処理事前処理事前処理事前処理データをExcel で取得データをExcel で取得
データをExcel で取得データをExcel で取得データをExcel で取得データをExcel で取得 Excel からPython のデータにする(Pandas) Excel からPython のデータにする(Pandas) Excel からPython のデータにする(Pandas) Excel からPython のデータにする(Pandas) Excel からPython のデータにする(Pandas) Excel からPython のデータにする(Pandas) データから形態素解析で単語化 (Janome) データから形態素解析で単語化 (Janome) データから形態素解析で単語化 (Janome) データから形態素解析で単語化 (Janome) データから形態素解析で単語化 (Janome) データから形態素解析で単語化 (Janome) ストップワードを取り除く (Janome) ストップワードを取り除く (Janome) ストップワードを取り除く (Janome) ストップワードを取り除く (Janome) ストップワードを取り除く (Janome) ストップワードを取り除く (Janome)                         53 / 73

事前処理の準備事前処理の準備事前処理の準備事前処理の準備事前処理の準備事前処理の準備 % %matplotlib inline matplotlib
inline import import numpy numpy as as np np import import pandas pandas as as pd pd import import matplotlib matplotlib. .pyplot pyplot as as plt plt from from bs4 bs4 import import BeautifulSoup BeautifulSoup from from janome janome. .tokenizer tokenizer import import Tokenizer Tokenizer from from janome janome. .charfilter charfilter import import UnicodeNormalizeCharFilter UnicodeNormalizeCharFilter from from janome janome. .tokenfilter tokenfilter import import CompoundNounFilter CompoundNounFilter, , POSKeepFilter POSKeepFilter from from janome janome. .tokenfilter tokenfilter import import LowerCaseFilter LowerCaseFilter, , TokenFilter TokenFilter from from janome janome. .analyzer analyzer import import Analyzer Analyzer 54 / 73

事前処理のコード(1) Excel からDF 事前処理のコード(1) Excel からDF 事前処理のコード(1) Excel からDF 事前処理のコード(1)
Excel からDF 事前処理のコード(1) Excel からDF 事前処理のコード(1) Excel からDF def def merged_str merged_str( (col col) ): : s s = = "" "" for for w w in in col col: : if if isinstance isinstance( (w w, , str str) ): : s s += += w w s s += += " " " " return return s s >> >>> > df df = = pd pd. .read_excel read_excel( ('c2data-ja.xlsx' 'c2data-ja.xlsx') ) >> >>> > df_small df_small = = pd pd. .DataFrame DataFrame( ([ [] ], , columns columns= =[ ["url" "url", , "data" "data"] ]) ) >> >>> > df_small df_small[ ["url" "url"] ] = = df df. .loc loc[ [: :, , "id" "id"] ]) ) >> >>> > df_small df_small[ ["data" "data"] ] = = df df. .loc loc[ [: :, , [ ["title" "title", , "sub_title" "sub_title", , "body" "body", , "description" "description"] ]] ]. .apply apply( (merged_str merged_str, , axis axis= =1 1) ) 55 / 73

事前処理のコード(2) StopWordFilter 事前処理のコード(2) StopWordFilter 事前処理のコード(2) StopWordFilter 事前処理のコード(2) StopWordFilter 事前処理のコード(2) StopWordFilter
事前処理のコード(2) StopWordFilter class class StopWordFilter StopWordFilter( (TokenFilter TokenFilter) ): : def def __init__ __init__( (self self, , filename filename) ): : self self. .stopwords stopwords = =[ [] ] with with open open( (filename filename, , 'r' 'r', , encoding encoding= ='utf-8' 'utf-8') ) as as f f: : for for line line in in f f: : self self. .stopwords stopwords. .append append( (line line. .strip strip( () )) ) def def apply apply( (self self, , tokens tokens) ): : for for token token in in tokens tokens: : if if token token. .surface surface in in self self. .stopwords stopwords: : continue continue yield yield token token 56 / 73

事前処理のコード(3) analyzer を設定事前処理のコード(3) analyzer を設定事前処理のコード(3) analyzer を設定事前処理のコード(3)
analyzer を設定事前処理のコード(3) analyzer を設定事前処理のコード(3) analyzer を設定 >> >>> > char_filters char_filters = = [ [UnicodeNormalizeCharFilter UnicodeNormalizeCharFilter( () )] ] >> >>> > token_filters token_filters = = [ [CompoundNounFilter CompoundNounFilter( () ), , POSKeepFilter POSKeepFilter( ([ [' 名詞' ' 名詞'] ]) ), , LowerCaseFilter LowerCaseFilter( () ), , StopWordFilter StopWordFilter( ('./resou-stopword.txt' './resou-stopword.txt') ) ] ] >> >>> > tokenizer tokenizer = = Tokenizer Tokenizer( () ) >> >>> > analyzer analyzer = = Analyzer Analyzer( (char_filters char_filters, , tokenizer tokenizer, , token_filters token_filters) ) 57 / 73

事前処理のコード(4) 単語リスト作成事前処理のコード(4) 単語リスト作成事前処理のコード(4) 単語リスト作成事前処理のコード(4) 単語リスト作成事前処理のコード(4) 単語リスト作成
事前処理のコード(4) 単語リスト作成 def def get_words get_words( (analyzer analyzer, , text text) ): : for for token token in in analyzer analyzer. .analyze analyze( (text text) ): : yield yield token token. .base_form base_form >> >>> > lines_words lines_words = = [ [] ] >> >>> > for for _ _, , ( (url url, , text text) ) in in df_small df_small. .loc loc[ [1 1: :, , [ ["url" "url", , "data" "data"] ]] ]. .iterrow iterrow s s( () ): : . .. .. . soup soup = = BeautifulSoup BeautifulSoup( (text text) ) . .. .. . lines_words lines_words. .append append( (( (url url, , list list( (get_words get_words( (analyzer analyzer, , soup soup. .get_ get_ text text( () )) )) )) )) ) 58 / 73

単語の頻出頻度をだす(1) 単語の頻出頻度をだす(1) 単語の頻出頻度をだす(1) 単語の頻出頻度をだす(1) 単語の頻出頻度をだす(1) 単語の頻出頻度をだす(1) words words = =
[ [] ] for for url url, , line line in in lines_words lines_words: : for for word word in in line line: : words words. .append append( (word word. .strip strip( () )) ) >> >>> > len len( (words words) ) 1708613 1708613 >> >>> > from from collections collections import import Counter Counter >> >>> > count count = = Counter Counter( (words words) ) >> >>> > len len( (count count) ) 105001 105001 59 / 73

単語の頻出頻度をだす(2) 単語の頻出頻度をだす(2) 単語の頻出頻度をだす(2) 単語の頻出頻度をだす(2) 単語の頻出頻度をだす(2) 単語の頻出頻度をだす(2) >> >>> > count
count Counter Counter( ({ {' 大阪大学発' ' 大阪大学発': : 8 8, , ' 軟骨再生治療法' ' 軟骨再生治療法': : 1 1, , ' 臨床応用' ' 臨床応用': : 60 60, , ' 最終段階' ' 最終段階': : 8 8, , ' 企業治験' ' 企業治験': : 10 10, , . .. .. . 60 / 73

Top50 単語を出力 Top50 単語を出力 Top50 単語を出力 Top50 単語を出力 Top50 単語を出力
Top50 単語を出力 >> >>> > top50 top50 = = count count. .most_common most_common( (50 50) ) >> >>> > top50 top50 [ [( (' 研究' ' 研究', , 5797 5797) ), , ( (' 研究成果' ' 研究成果', , 4443 4443) ), , ( (' 明らか' ' 明らか', , 2784 2784) ), , ( (' 研究グループ' ' 研究グループ', , 2249 2249) ), , ( (' 細胞' ' 細胞', , 2218 2218) ), , . .. .. . 61 / 73

ワードクラウドを出力するワードクラウドを出力するワードクラウドを出力するワードクラウドを出力するワードクラウドを出力するワードクラウドを出力する % %matplotlib inline matplotlib
inline import import matplotlib matplotlib. .pyplot pyplot as as plt plt from from wordcloud wordcloud import import WordCloud WordCloud >> >>> > top50_keys top50_keys = = [ [k k for for k k, , v v in in top50 top50] ] >> >>> > text text = = ' ' ' '. .join join( (w w for for w w in in words words if if w w in in top50_keys top50_keys) ) >> >>> > wordcloud wordcloud = = WordCloud WordCloud( (font_path font_path= ='./NotoSansJP-Bold.otf' './NotoSansJP-Bold.otf', , background_color background_color= ='white' 'white', , width width= =1024 1024, , height height= =674 674) ). .generate generate( (text text) ) >> >>> > plt plt. .imshow imshow( (wordcloud wordcloud, , interpolation interpolation= ='bilinear' 'bilinear') ) >> >>> > plt plt. .axis axis( ("off" "off") ) >> >>> > plt plt. .figure figure( () ) 62 / 73

ワードクラウドを出力結果ワードクラウドを出力結果ワードクラウドを出力結果ワードクラウドを出力結果ワードクラウドを出力結果ワードクラウドを出力結果 63 / 73

エントリー毎に似ているエントリーエントリー毎に似ているエントリーエントリー毎に似ているエントリーエントリー毎に似ているエントリーエントリー毎に似ているエントリーエントリー毎に似ているエントリー Top3 を出力 Top3 を出力
Top3 を出力 Top3 を出力 Top3 を出力 Top3 を出力 Doc2Vec を使う Doc2Vec を使う Doc2Vec を使う Doc2Vec を使う Doc2Vec を使う Doc2Vec を使う単語のリストとタグを紐付けたリストを作る単語のリストとタグを紐付けたリストを作る単語のリストとタグを紐付けたリストを作る単語のリストとタグを紐付けたリストを作る単語のリストとタグを紐付けたリストを作る単語のリストとタグを紐付けたリストを作るモデルを作る ( 学習) モデルを作る ( 学習) モデルを作る ( 学習) モデルを作る ( 学習) モデルを作る ( 学習) モデルを作る ( 学習) 似ているエントリーを出力似ているエントリーを出力似ているエントリーを出力似ているエントリーを出力似ているエントリーを出力似ているエントリーを出力                   64 / 73

単語のリストとタグを紐付けたリスト単語のリストとタグを紐付けたリスト単語のリストとタグを紐付けたリスト単語のリストとタグを紐付けたリスト単語のリストとタグを紐付けたリスト単語のリストとタグを紐付けたリスト from from gensim gensim.
.models models. .doc2vec doc2vec import import TaggedDocument TaggedDocument >> >>> > sentences sentences = = [ [] ] >> >>> > for for url url, , data data in in lines_words lines_words: : . .. .. . td td = = TaggedDocument TaggedDocument( (words words= =data data, , tags tags= =[ [url url] ]) ) . .. .. . sentences sentences. .append append( (td td) ) 65 / 73

モデルを作る ( 学習) モデルを作る ( 学習) モデルを作る ( 学習) モデルを作る
( 学習) モデルを作る ( 学習) モデルを作る ( 学習) >> >>> > model model = = models models. .Doc2Vec Doc2Vec( (sentences sentences, , dm dm= =0 0, , vector_size vector_size= =300 300, , window window= =15 15, , alpha alpha= =.025 .025, , min_alpha min_alpha= =.025 .025, , min_count min_count= =1 1, , sample sample= =1e 1e- -6 6) ) >> >>> > print print( ('\n 訓練開始' '\n 訓練開始') ) >> >>> > for for epoch epoch in in range range( (20 20) ): : . .. .. . print print( ('Epoch: {}' 'Epoch: {}'. .format format( (epoch epoch + + 1 1) )) ) . .. .. . model model. .train train( (sentences sentences, , total_examples total_examples= =model model. .corpus_count corpus_count, , epochs epochs= =model model. .epochs epochs) ) . .. .. . model model. .alpha alpha -= -= ( (0.025 0.025 - - 0.0001 0.0001) ) / / 19 19 . .. .. . model model. .min_alpha min_alpha = = model model. .alpha alpha 66 / 73

似ているエントリーを出力似ているエントリーを出力似ているエントリーを出力似ているエントリーを出力似ているエントリーを出力似ているエントリーを出力 >> >>> > ls_similar_doc
ls_similar_doc = = [ [] ] >> >>> > for for url url, , data data in in lines_words lines_words: : . .. .. . similar_doc similar_doc = = { {'url' 'url': : url url} } . .. .. . similar_ids similar_ids = = model model. .docvecs docvecs. .most_similar most_similar( (url url, , topn topn= =3 3) ) . .. .. . for for i i, , ( (cname cname, , value value) ) in in enumerate enumerate( (similar_ids similar_ids) ): : . .. .. . similar_doc similar_doc[ [f f'{i+1} 位' '{i+1} 位'] ] = = cname cname . .. .. . similar_doc similar_doc[ [f f'score{i+1}' 'score{i+1}'] ] = = f f"{value:.2f}" "{value:.2f}" . .. .. . ls_similar_doc ls_similar_doc. .append append( (similar_doc similar_doc) ) . .. .. . df_sim df_sim = = pd pd. .DataFrame DataFrame( (ls_similar_doc ls_similar_doc) )[ [[ ['url' 'url', , '1 位' '1 位', , '2 位' '2 位', , '3 位' '3 位', , 'score1' 'score1', , 'score2' 'score2', , 'score3' 'score3'] ]] ] . .. .. . df_sim df_sim. .to_excel to_excel( ('resou-sim.xlsx' 'resou-sim.xlsx') ) 67 / 73

同じ意味を持つ単語を出力同じ意味を持つ単語を出力同じ意味を持つ単語を出力同じ意味を持つ単語を出力同じ意味を持つ単語を出力同じ意味を持つ単語を出力 Word2Vec を使う Word2Vec を使う
Word2Vec を使う Word2Vec を使う Word2Vec を使う Word2Vec を使う >> >>> > from from gensim gensim. .models models import import word2vec word2vec >> >>> > sentences sentences = = word2vec word2vec. .Text8Corpus Text8Corpus( ('words.txt' 'words.txt') ) >> >>> > model model = = word2vec word2vec. .Word2Vec Word2Vec( (sentences sentences, , size size= =200 200, , min_count min_count= =20 20, , window window= =15 15) ) >> >>> > [ [w w for for w w in in model model. .wv wv. .most_similar most_similar( (positive positive= =[ [' ロボット' ' ロボット'] ]) )] ] [ [( (' 対話' ' 対話', , 0.9823681116104126 0.9823681116104126) ), , ( (' 人間' ' 人間', , 0.9746276140213013 0.9746276140213013) ), , ( ('ai' 'ai', , 0.9576572775840759 0.9576572775840759) ), , ( (' 表情' ' 表情', , 0.9486445188522339 0.9486445188522339) ), , ( (' アンドロイド' ' アンドロイド', , 0.9475428462028503 0.9475428462028503) ), , . .. .. .. . 68 / 73

編集距離とは編集距離とは編集距離とは編集距離とは編集距離とは編集距離とは以下は編集距離1 以下は編集距離1 以下は編集距離1 以下は編集距離1
以下は編集距離1 以下は編集距離1 intaresting intaresting interesting interesting Wikipedia に説明がある Wikipedia に説明がある Wikipedia に説明がある Wikipedia に説明がある Wikipedia に説明がある Wikipedia に説明がある https://ja.wikipedia.org/wiki/ レーベンシュタイン距離 https://ja.wikipedia.org/wiki/ レーベンシュタイン距離 https://ja.wikipedia.org/wiki/ レーベンシュタイン距離 https://ja.wikipedia.org/wiki/ レーベンシュタイン距離 https://ja.wikipedia.org/wiki/ レーベンシュタイン距離 https://ja.wikipedia.org/wiki/ レーベンシュタイン距離 70 / 73

編集距離を使った例編集距離を使った例編集距離を使った例編集距離を使った例編集距離を使った例編集距離を使った例もしかしては、編集距離を使うと実現できるもしかしては、編集距離を使うと実現できるもしかしては、編集距離を使うと実現できるもしかしては、編集距離を使うと実現できる
もしかしては、編集距離を使うと実現できるもしかしては、編集距離を使うと実現できる       71 / 73

その他の応用を考えるその他の応用を考えるその他の応用を考えるその他の応用を考えるその他の応用を考えるその他の応用を考えるアンケート結果から、専門性のある単語を抜き出すアンケート結果から、専門性のある単語を抜き出すアンケート結果から、専門性のある単語を抜き出すアンケート結果から、専門性のある単語を抜き出す
アンケート結果から、専門性のある単語を抜き出すアンケート結果から、専門性のある単語を抜き出す注目が上がっている単語をピックアップする注目が上がっている単語をピックアップする注目が上がっている単語をピックアップする注目が上がっている単語をピックアップする注目が上がっている単語をピックアップする注目が上がっている単語をピックアップする似ていて同じ意味の単語をまとめる似ていて同じ意味の単語をまとめる似ていて同じ意味の単語をまとめる似ていて同じ意味の単語をまとめる似ていて同じ意味の単語をまとめる似ていて同じ意味の単語をまとめるアンケートの自動タグ付け、似たアンケートを集計するアンケートの自動タグ付け、似たアンケートを集計するアンケートの自動タグ付け、似たアンケートを集計するアンケートの自動タグ付け、似たアンケートを集計するアンケートの自動タグ付け、似たアンケートを集計するアンケートの自動タグ付け、似たアンケートを集計するカナ文字列にして、読み仮名をふるカナ文字列にして、読み仮名をふるカナ文字列にして、読み仮名をふるカナ文字列にして、読み仮名をふるカナ文字列にして、読み仮名をふるカナ文字列にして、読み仮名をふる編集距離から表記揺れを見つける編集距離から表記揺れを見つける編集距離から表記揺れを見つける編集距離から表記揺れを見つける編集距離から表記揺れを見つける編集距離から表記揺れを見つける                                     72 / 73

Thank you! Thank you! Thank you! Thank you! Thank you!
Thank you! ご質問をお待ちしておりますご質問をお待ちしておりますご質問をお待ちしておりますご質問をお待ちしておりますご質問をお待ちしておりますご質問をお待ちしております @terapyon @terapyon @terapyon @terapyon @terapyon @terapyon 73 / 73

文書をデータ化し見える化へ

文書をデータ化し見える化へ

More Decks by Manabu TERADA

Other Decks in Technology

Featured

Transcript