Upgrade to Pro — share decks privately, control downloads, hide ads and more …

bert-tokenizerノードを触ってみた

Kawazu
December 04, 2021

 bert-tokenizerノードを触ってみた

Kawazu

December 04, 2021
Tweet

More Decks by Kawazu

Other Decks in Programming

Transcript

  1. 文章をTokenizerしてみた • 国内で報告された新型コロナウイルス感染症の感染者に係る報告を基にした追跡 調査の結果、感染者間の関連が認められた集団(クラスター)を地図上に表示した ものです。 ◦ [101,100,1635,100,1006,1702,30257,30233,30235,30265,1007,100,1636,102,0,0,...] • クラスターは、現時点で、同一の場において、5人以上の感染者の接触歴等が明ら かとなっていることを目安として記載しています。家族等への二次感染等を載せて

    いません。また、家族間の感染も載せていません。 ◦ [101,1702,30257,30233,30235,30265,30198,1635,100,1635,1794,30266,30197,30332,30194, 30176,30173,30191,1635,100,1636,100,1636,1677,30187,1635,100,1636,102,0,0,...] • 吾輩は猫である。名前はまだない。どこで生れたか頓(とん)と見当がつかぬ。何で も薄暗いじめじめした所でニャーニャー泣いていた事だけは記憶している。吾輩は ここで始めて人間というものを見た。 ◦ [101,100,1636,100,1636,100,1006,1666,30217,1007,100,1636,100,1636,100,1636,102,0,0,...]
  2. 文章をTokenizerしてみた • 国内で報告された新型コロナウイルス感染症の感染者に係る報告を基にした追跡 調査の結果、感染者間の関連が認められた集団(クラスター)を地図上に表示した ものです。 ◦ [101,100,1635,100,1006,1702,30257,30233,30235,30265,1007,100,1636,102,0,0,...] • クラスターは、現時点で、同一の場において、5人以上の感染者の接触歴等が明ら かとなっていることを目安として記載しています。家族等への二次感染等を載せて

    いません。また、家族間の感染も載せていません。 ◦ [101,1702,30257,30233,30235,30265,30198,1635,100,1635,1794,30266,30197,30332,30194, 30176,30173,30191,1635,100,1636,100,1636,1677,30187,1635,100,1636,102,0,0,...] • 吾輩は猫である。名前はまだない。どこで生れたか頓(とん)と見当がつかぬ。何で も薄暗いじめじめした所でニャーニャー泣いていた事だけは記憶している。吾輩は ここで始めて人間というものを見た。 ◦ [101,100,1636,100,1636,100,1006,1666,30217,1007,100,1636,100,1636,100,1636,102,0,0,...]
  3. (英語の)文章をTokenizerしてみた • The map shows the groups (clusters) that were

    found to be related among infected people as a result of follow-up surveys based on the reports of infected people with new coronavirus infections reported in Japan. ◦ [101,1996,4949,3065,1996,2967,1006,12906,1007,2008,2020,2179,2000,2022,3141,2426,10372,2111,2004,1 037,2765,1997,3582,1011,2039,12265,2241,2006,1996,4311,1997,10372,...] • Clusters are defined as having a known contact history of five or more infected persons in the same place at the present time. Secondary infection to family members is not included. Infection among family members is also not listed. ◦ [101,12906,2024,4225,2004,2383,1037,2124,3967,2381,1997,2274,2030,2062,10372,5381,1999,1996,2168,2 173,2012,1996,2556,2051,1012,3905,8985,2000,2155,...] • I am a cat. I don't have a name yet. I have no idea where I was born. All I remember is that I was crying in a dark and dank place. This was the first time I saw a human being. ◦ [101,1045,2572,1037,4937,1012,1045,2123,1005,1056,2031,1037,2171,2664,1012,1045,2031,2053,2801,207 3,1045,2001,2141,1012,2035,1045,3342,2003,...]
  4. うまくいかなかった仮説とやった感想 • そもそもTokenizerされた値はあくまで分かち書き後の値で、意味的に近しい単語 同士が近しい値にあるわけではない ◦ うどんが200くらいにあってラーメンが 10000くらいにある場合もある • Tokenizerされた値じゃなくて、文章の特徴量を出す必要がある ◦

    https://speakerdeck.com/kawazu/bertdewen-zhang-guan-lian-du-suan-chu-sitexi-retemiru • Tokenizerはそれ自体で自然言語処理をするのではなくて、処理のベース・つなぎ になるもの?(もうちょっと調べたい) • そもそも分かち書きなのにBERTは関係あったのか • MeCabに関連したノードは意外となかった(あると便利じゃないかな)