Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Twitter分析のための リアルタイム分析基盤 @第4回Twitter研究会

Twitter分析のための リアルタイム分析基盤 @第4回Twitter研究会

Yuya Unno

May 18, 2013
Tweet

More Decks by Yuya Unno

Other Decks in Technology

Transcript

  1. ⾃自⼰己紹介 l  海野  裕也 (@unnonouno) l  プリファードインフラストラクチャー l  情報検索索、レコメンド l  機械学習・データ解析研究開発

    l  Jubatus l  分散オンライン機械学習フレームワーク l  専⾨門 l  ⾃自然⾔言語処理理 l  テキストマイニング 2
  2. 災害時に利利⽤用可能なサービスを提供する l  災害時には様々なメディアからの情報が錯綜した l  Twitterなどを介してリアルタイムかつ⾝身近な情報が多く発信されたが、 必要な情報のみを集める⽅方法ができなかった l  実家がいわき市にある岡野原の個⼈人的な体験 l  TVやラジオ経由の情報は原発や県・市単位の情報のみ

    l  原発の情報は⼤大事だが今⽇日のご飯・移動⼿手段を困っている⼈人も多い l  ガソリンや⾷食料料はいつ/どこで配布するのか、避難できるのか l  各⼈人・各⽴立立場の⼈人にとって必要な情報が調べられるサービス l  キーワード検索索では不不⼗十分 l  災害時だけではなく、平常時から利利⽤用可能なサービス l  ユーザーに慣れてもらう、サービスも常時改善される 6
  3. 提案サービス l  時間/話題/地域/キーワード毎に情報をフィルタリング l  個⼈人・組織が必要な情報を集められるようなサービスを作る l  twitter、新聞、TV、レスキューの情報を横断フィルタリング l  テキスト情報から必要な情報は抽出 7

    時間 軸 地域(全国都道府県市町村レベル) トピック (避難・⽣生活イ ンフラなど) 時間・トピック・地域 キーワードを指定して フィルタリング •  例 •  3/11 15:00 – 16:00 •  福島県いわき市平地区 •  生活インフラ
  4. システム概要図 8 Twitter NHK 朝⽇日新聞 JCC (TV) 震災に関係する情報のみフィルタリ ング 地域情報の抽出

    要望トピックの抽出 情報フィルタリングエンジン + UI 地域情報は地名や駅名、 路路線名、ランドマーク名 から市町村レベルで推定 関連情報の抽出 トピックは本⽂文から推定 「避難, インフラ, ⾼高齢者, 医療療 」など 21トピック URLや内容のクラスタリ ングにより、関連情報を 抽出 ⽂文書分類器を震災関連 ハッシュタグを正解例例 にして学習し、分類
  5. Twitterとその他のメディアの⽐比較 Twitter (CGM) 既存メディア 情報の鮮度度 直近 遅れる 情報の信頼度度 デマも拡散する 精査されている

    情報の粒粒度度 局所的な情報 ⼤大域的な情報 情報の密度度 不不要な情報が殆ど 精査されている 10
  6. Twitterの良良さを活かすには? l  最新の情報を届ける l  リアルタイムに情報にアクセスできるようにする l  個別の情報を整理理する l  つぶやきに含まれる情報を抽出する l 

    細かく情報を整理理する l  有⽤用な情報だけをフィルタリングする l  情報の価値を判定する l  デマに惑わされない l  情報の信頼度度の評価 l  情報の⾃自動整理理 11
  7. 何故2つのアクセス⽅方式が必要なのか? l  能動型アクセス l  ユーザー固有の要求を提⽰示できる l  必ずしもユーザーがニーズを理理解していない l  想像の範囲外の要求を出せない l 

    受動型アクセス l  ユーザーは何もしなくても情報が⼊入ってくる l  想定外の情報も⼊入ってくる l  ユーザーのきめ細かい要求を反映しづらい 18 両者には相補的な関係になっている
  8. 先ほどのデモを⾒見見なおしてみる 19 Twitter NHK 朝⽇日新聞 JCC (TV) 震災に関係する情報のみフィルタリ ング 地域情報の抽出

    要望トピックの抽出 情報フィルタリングエンジン + UI 関連情報の抽出 事前に情報 を自動整理 アドホックな 情報検索
  9. テキスト全⽂文検索索におけるインデックス⽅方式の違い 転置ファイル N-gram Suffix Array 辞書の必要 必要 不不要 不不要 漏漏れのない検索索

    × ◦ ◦ 検索索速度度 ◦ △ ◦ インデックス構築速 度度 ◦ ◦ △ インデックスサイズ ◦ × × HDD搭載 ◦ △ × SSD搭載 ◦ ◦ ◎ 25 SSD利利⽤用時に最⼤大限の⼒力力を発揮
  10. SSDがストレージ・プロセッサ・ネットワークのト レードオフを⼤大きく変えた SSD (Crucial m4 256GB) HDD (Seagate ST2000DL003) Read

    415MB/s 140MB/s Write 260MB/s 140MB/s 4K Read IOPS 40000 150 4K Write IOPS 50000 400 26 SSDの特性を活かすことで スケーラブル・⾼高性能・低 コストな検索索基盤を実現 x100 FAST!!
  11. ⼤大規模データ分析のリアルタイム化 l  ⼤大規模データ分析のリアルタイム化に対するニーズは 急増中 l  Hadoop Summitにおいても、多くのセッションで“リアルタ イム”がテーマとなっている l  Google

    Dremel, Google BigQueryが発表され、 Apache Drill, Cloudera Impala等が注⽬目を集めている l  リアルタイム分析に必要とされる技術の複雑さは様々 l  Jubatusによるリアルタイム機械学習 l  ImpalaなどSQLベース、DWHの⼤大規模化 l  検索索技術をベースにしたアドホック分析 → Splunk、Solr Cloudなどを利利⽤用 29
  12. 技術的な克服 l  メモリとSSDのハイブリッド l  オンメモリのサーバーと、SSDサーバーの併⽤用で、直近のデー タはオンメモリですぐさま検索索結果に反映できる l  ⾼高頻度度の書き換えに弱いSSDを守る意味でも重要 l  追記に特化

    l  オンメモリサーバーにどんどん追記、古くなったらSSDに回す l  あふれたら古いデータから順番に消していって、最新の重要な データだけを保持できるように 30
  13. 様々な分野に適⽤用可能 l  データから有⽤用な規則、ルール、知識識、判断基準を抽出 l  データがあるところならば、どこでも使える l  様々な分野の問題に利利⽤用可能 35 レコメンデー ションクラス

    タリング 分類、識識別 市場予測 評判分析 情報抽出 ⽂文字認識識 ロボット 画像解析 遺伝⼦子分析 検索索ランキン グ ⾦金金融 医療療診断 適用分野
  14. 機械学習の⻑⾧長所 (1/4) データがあればすぐ試せる l  分類ルールを学習したい場合、正解事例例がいくつかあれ ば学習可能 l  質問:データがどれくらいあったらうまくいくのか? l  答え:正解事例例が1つしかなくても動く、多ければ精度度

    は⾼高くなる l  以下のファクターで正解事例例はより多く必要とする l  問題の複雑さ l  正解事例例に含まれるノイズ量量 l  学習モデルの複雑さ l  実際は数⼗十から数百、⼈人⼿手で作れる規模が殆ど l  すぐ試せる 39
  15. 機械学習の⻑⾧長所 (2/4) メンテナンスフリー l  学習の元となるデータを与え続ければ最適化される l  ルールベースの場合、ルールをメンテナンスしなければ ならない l  時間経過とともに運⽤用コストが⼤大きくなり、例例外も次々と発⽣生

    l  ⼈人の引き継ぎや、システム統合が発⽣生した場合、メンテナンス は⾮非常に困難になる l  機械学習の場合は、ルールではなく、データをメンテナ ンスする必要がある l  ⾃自由度度はルールベースより⾼高く、スケールする 40
  16. 機械学習の⻑⾧長所 (3/4) 問題に対してスケールする l  問題のデータサイズを増やしたり、分類対象数を増やし たり、他の似た問題にも展開可能 l  ある部署でうまくいっていた⼿手法を他の部署や会社でも展開可 能 l 

    例例:ニュース記事の5カテゴリへの分類を次のように変 更更可能 l  カテゴリ数を5から100に増やす l  分類対象をニュース以外にもブログやメールにも増やす 41
  17. 機械学習の⻑⾧長所 (4/4) ⼈人や⼈人⼯工システムを凌凌駕する性能を出す l  速度度、網羅羅性、可⽤用性といった部分ではコンピュータが 凌凌駕する l  ⼈人はルールや評価関数をうまく表現できない場合も多い l  ⾔言語処理理・ゲーム・画像認識識・⾳音声認識識などは知識識表現が⼤大変

    l  ⼈人⼯工知能の研究分野では、知識識・ルール・評価関数を⼈人が明⽰示 的に与えることに限界があり、データからの獲得に⼒力力を⼊入れた l  箱庭的な問題だと精度度⾯面でも⼈人を凌凌駕する l  関係する特徴数が多い場合 l  医療療診断、広告最適化、スパム分類 l  評価関数が分からない場合: l  コンピュータ将棋/囲碁/チェス、機械翻訳、⾳音声認識識 42
  18. 機械学習の世界の分類 l  問題設定に基づく分類 l  教師有学習 / 教師無学習 / 半教師有学習 /

    強化学習 など .. l  戦うドメインの違い l  特徴設計屋(各ドメイン毎に, NLP , Image, Bio, Music) l  学習アルゴリズム屋(SVM, xx Bayes, CW, …) l  理理論論屋(統計的学習理理論論、経験過程、Regret最⼩小化) l  最適化実装屋 l  好みの違い l  Bayesian / Frequentist / Connectionist l  [Non-|Semi-]Parametric 43 この⼆二つの問題設定だけは 知っておいてほしいので説明
  19. 教師有り学習 l  ⼊入⼒力力 x に対して期待される出⼒力力 y を教える l  分析時には未知の x

    に対応する y を予測する l  y がカテゴリの場合を分類問題、実数値の場合を回帰問 題と呼ぶ l  分類 l  スパム判定、記事分類、属性推定、etc. l  回帰 l  電⼒力力消費予測、年年収予測、株価予測、etc. 44
  20. l  NTT SIC*とPreferred Infrastructureによる共同開発 l  2011年年10⽉月よりOSSで公開 http://jubat.us/ Jubatus 48 リアルタイム

    ストリーム 分散並列列 深い解析 * NTT研究所 サイバーコミュニケーション研究所   ソフトウェアイノベーションセンタ
  21. 機械学習はスケーラブルかつリアルタイムに l  Jubatusは2つの流流れを融合している 49 WEKA         1993-­‐ SPSS

                 1988-­‐   Mahout            2006-­‐   Online  ML  alg.   Structured   Perceptron  2001   PA  2003,  CW  2008   リアルタイム   オンライン Batch   小規模   単体   大規模   分散並列   Jubatus    2011-­‐  
  22. バッチ学習 l  解析対象のデータが全てある 状態で解析を⾏行行う l  速度度が遅い l  データ全体の保持が必要 l  実装は⼀一般的に煩雑

    l  データを1つずつ受け取るた びに解析を⾏行行う l  速度度が速い l  データを保持する必要がない l  実装は⼀一般的に単純 l  近年年急速に研究が進んでいる 50 オンライン学習 近年年の多くの場⾯面でオンライン学習を採⽤用
  23. Jubatusの機能概要 l  Jubatusでは様々な分析⼿手法をサポート l  多値分類・回帰 l  統計 l  近傍探索索 l 

    グラフ解析 l  外れ値検出 l  これらを組合せることにより、多くの課題を解決が可能 l  スパムフィルタ(メール分類) l  電⼒力力消費量量予測(回帰) l  ユーザー属性推定(レコメンデーション) l  ログからの異異常検知(外れ値検出) l  攻撃の標的になりやすいハブノードの発⾒見見(グラフの中⼼心性) 53
  24. まとめ l  情報源としてのTwitterの可能性 l  リアルタイムで粒粒度度の細かい情報源としての活⽤用ができる l  ⼤大量量のデータから必要な情報を抜き出す技術が必要 l  情報検索索技術 l 

    ユーザーの欲しい情報を⾒見見つけ出す技術 l  事前にどこまで情報を整理理できるかが肝 l  機械学習技術 l  データの分類・整理理を⾃自動的に⾏行行う技術 l  急速にリアルタイム処理理、⼤大量量処理理の技術開発が進んでいる 56
  25. 今後の予定 l  デモサービスをベースに実⽤用化・提供を⽬目指す l  (再掲)災害時にいざ使おうとするとうまくいかない。 平常時からも使ってもらえるようなサービスを考える l  被災者や関係当局の話を聞き、何が必要であるかを絞る l  システム側の技術的課題

    l  全メディア情報をリアルタイムに分析して安定して提供できる 基盤 l  秒間1万tweet、秒間数百万〜~数千万の位置情報を処理理 l  サンプリング/サマリではなく、細かい粒粒度度のまま提供可能 l  名寄せ・地域情報の推定(⾔言及位置、ユーザーの位置) 65
  26. 0" 500" 1000" 1500" 2000" 2500" 3000" 2011'03'11'09:00:00" 2011'03'11'11:00:00" 2011'03'11'13:00:00"

    2011'03'11'15:00:00" 2011'03'11'17:00:00" 2011'03'11'19:00:00" 2011'03'11'21:00:00" 2011'03'11'23:00:00" 2011'03'12'01:00:00" 2011'03'12'03:00:00" 2011'03'12'05:00:00" 2011'03'12'07:00:00" 2011'03'12'09:00:00" 2011'03'12'11:00:00" 2011'03'12'13:00:00" 2011'03'12'15:00:00" 2011'03'12'17:00:00" 2011'03'12'19:00:00" 2011'03'12'21:00:00" 2011'03'12'23:00:00" 2011'03'13'01:00:00" 2011'03'13'03:00:00" 2011'03'13'05:00:00" 2011'03'13'07:00:00" 2011'03'13'09:00:00" 2011'03'13'11:00:00" 2011'03'13'13:00:00" 2011'03'13'15:00:00" 2011'03'13'17:00:00" 2011'03'13'19:00:00" 2011'03'13'21:00:00" 2011'03'13'23:00:00" 2011'03'14'01:00:00" 2011'03'14'03:00:00" 2011'03'14'05:00:00" 2011'03'14'07:00:00" 2011'03'14'09:00:00" 2011'03'14'11:00:00" 2011'03'14'13:00:00" 2011'03'14'15:00:00" 2011'03'14'17:00:00" 2011'03'14'19:00:00" 2011'03'14'21:00:00" 2011'03'14'23:00:00" 2011'03'15'01:00:00" 2011'03'15'03:00:00" 2011'03'15'05:00:00" 2011'03'15'07:00:00" 2011'03'15'09:00:00" 2011'03'15'11:00:00" 2011'03'15'13:00:00" 2011'03'15'15:00:00" 2011'03'15'17:00:00" 2011'03'15'19:00:00" 2011'03'15'21:00:00" 2011'03'15'23:00:00" 2011'03'16'01:00:00" 2011'03'16'03:00:00" 2011'03'16'05:00:00" 2011'03'16'07:00:00" 2011'03'16'09:00:00" 2011'03'16'11:00:00" 2011'03'16'13:00:00" 2011'03'16'15:00:00" 2011'03'16'17:00:00" 2011'03'16'19:00:00" 2011'03'16'21:00:00" 2011'03'16'23:00:00" 2011'03'17'01:00:00" 2011'03'17'03:00:00" 2011'03'17'05:00:00" 2011'03'17'07:00:00" 2011'03'17'09:00:00" 2011'03'17'11:00:00" 2011'03'17'13:00:00" 2011'03'17'15:00:00" 2011'03'17'17:00:00" 2011'03'17'19:00:00" 2011'03'17'21:00:00" 2011'03'17'23:00:00" 2011'03'18'01:00:00" 2011'03'18'03:00:00" 2011'03'18'05:00:00" 2011'03'18'07:00:00"    !        都市圏に関する⾔言及は、殆どの発⾔言が帰宅宅困難者が発⽣生し た3/11 15:00〜~25:00に集中 67 都市圏に関しての⾔言及数 (渋⾕谷区、新宿区、台東区)
  27. 68 0" 500" 1000" 1500" 2000" 2500" 3000" 2011'03'11'09:00:00" 2011'03'11'11:00:00"

    2011'03'11'13:00:00" 2011'03'11'15:00:00" 2011'03'11'17:00:00" 2011'03'11'19:00:00" 2011'03'11'21:00:00" 2011'03'11'23:00:00" 2011'03'12'01:00:00" 2011'03'12'03:00:00" 2011'03'12'05:00:00" 2011'03'12'07:00:00" 2011'03'12'09:00:00" 2011'03'12'11:00:00" 2011'03'12'13:00:00" 2011'03'12'15:00:00" 2011'03'12'17:00:00" 2011'03'12'19:00:00" 2011'03'12'21:00:00" 2011'03'12'23:00:00" 2011'03'13'01:00:00" 2011'03'13'03:00:00" 2011'03'13'05:00:00" 2011'03'13'07:00:00" 2011'03'13'09:00:00" 2011'03'13'11:00:00" 2011'03'13'13:00:00" 2011'03'13'15:00:00" 2011'03'13'17:00:00" 2011'03'13'19:00:00" 2011'03'13'21:00:00" 2011'03'13'23:00:00" 2011'03'14'01:00:00" 2011'03'14'03:00:00" 2011'03'14'05:00:00" 2011'03'14'07:00:00" 2011'03'14'09:00:00" 2011'03'14'11:00:00" 2011'03'14'13:00:00" 2011'03'14'15:00:00" 2011'03'14'17:00:00" 2011'03'14'19:00:00" 2011'03'14'21:00:00" 2011'03'14'23:00:00" 2011'03'15'01:00:00" 2011'03'15'03:00:00" 2011'03'15'05:00:00" 2011'03'15'07:00:00" 2011'03'15'09:00:00" 2011'03'15'11:00:00" 2011'03'15'13:00:00" 2011'03'15'15:00:00" 2011'03'15'17:00:00" 2011'03'15'19:00:00" 2011'03'15'21:00:00" 2011'03'15'23:00:00" 2011'03'16'01:00:00" 2011'03'16'03:00:00" 2011'03'16'05:00:00" 2011'03'16'07:00:00" 2011'03'16'09:00:00" 2011'03'16'11:00:00" 2011'03'16'13:00:00" 2011'03'16'15:00:00" 2011'03'16'17:00:00" 2011'03'16'19:00:00" 2011'03'16'21:00:00" 2011'03'16'23:00:00" 2011'03'17'01:00:00" 2011'03'17'03:00:00" 2011'03'17'05:00:00" 2011'03'17'07:00:00" 2011'03'17'09:00:00" 2011'03'17'11:00:00" 2011'03'17'13:00:00" 2011'03'17'15:00:00" 2011'03'17'17:00:00" 2011'03'17'19:00:00" 2011'03'17'21:00:00" 2011'03'17'23:00:00" 2011'03'18'01:00:00" 2011'03'18'03:00:00" 2011'03'18'05:00:00" 2011'03'18'07:00:00" " !                 津波の被害が⼤大きかった地域は、 津波報道があった直後や、その後 も継続して⾔言及は多くみられた 津波の被害が⼤大きな地域についての⾔言及数 (⽯石巻市、⼤大船渡市、気仙沼市、多賀城市、 南相⾺馬市、相⾺馬市)
  28. 69 津波の被害が⼤大きかった地域については、津波報道があっ た直後および、その後も継続して話題は多くあった 0" 500" 1000" 1500" 2000" 2500" 3000"

    2011'03'11'09:00:00" 2011'03'11'11:00:00" 2011'03'11'13:00:00" 2011'03'11'15:00:00" 2011'03'11'17:00:00" 2011'03'11'19:00:00" 2011'03'11'21:00:00" 2011'03'11'23:00:00" 2011'03'12'01:00:00" 2011'03'12'03:00:00" 2011'03'12'05:00:00" 2011'03'12'07:00:00" 2011'03'12'09:00:00" 2011'03'12'11:00:00" 2011'03'12'13:00:00" 2011'03'12'15:00:00" 2011'03'12'17:00:00" 2011'03'12'19:00:00" 2011'03'12'21:00:00" 2011'03'12'23:00:00" 2011'03'13'01:00:00" 2011'03'13'03:00:00" 2011'03'13'05:00:00" 2011'03'13'07:00:00" 2011'03'13'09:00:00" 2011'03'13'11:00:00" 2011'03'13'13:00:00" 2011'03'13'15:00:00" 2011'03'13'17:00:00" 2011'03'13'19:00:00" 2011'03'13'21:00:00" 2011'03'13'23:00:00" 2011'03'14'01:00:00" 2011'03'14'03:00:00" 2011'03'14'05:00:00" 2011'03'14'07:00:00" 2011'03'14'09:00:00" 2011'03'14'11:00:00" 2011'03'14'13:00:00" 2011'03'14'15:00:00" 2011'03'14'17:00:00" 2011'03'14'19:00:00" 2011'03'14'21:00:00" 2011'03'14'23:00:00" 2011'03'15'01:00:00" 2011'03'15'03:00:00" 2011'03'15'05:00:00" 2011'03'15'07:00:00" 2011'03'15'09:00:00" 2011'03'15'11:00:00" 2011'03'15'13:00:00" 2011'03'15'15:00:00" 2011'03'15'17:00:00" 2011'03'15'19:00:00" 2011'03'15'21:00:00" 2011'03'15'23:00:00" 2011'03'16'01:00:00" 2011'03'16'03:00:00" 2011'03'16'05:00:00" 2011'03'16'07:00:00" 2011'03'16'09:00:00" 2011'03'16'11:00:00" 2011'03'16'13:00:00" 2011'03'16'15:00:00" 2011'03'16'17:00:00" 2011'03'16'19:00:00" 2011'03'16'21:00:00" 2011'03'16'23:00:00" 2011'03'17'01:00:00" 2011'03'17'03:00:00" 2011'03'17'05:00:00" 2011'03'17'07:00:00" 2011'03'17'09:00:00" 2011'03'17'11:00:00" 2011'03'17'13:00:00" 2011'03'17'15:00:00" 2011'03'17'17:00:00" 2011'03'17'19:00:00" 2011'03'17'21:00:00" 2011'03'17'23:00:00" 2011'03'18'01:00:00" 2011'03'18'03:00:00" 2011'03'18'05:00:00" 2011'03'18'07:00:00"          原発に近い地域の話題数は⽇日々⼤大きくなっていった 福島原発に近い地域についての⾔言及数 (いわき市、南相⾺馬市、相⾺馬市)
  29. 70 津波 0" 5000" 10000" 15000" 20000" 25000" 30000" 35000"

    40000" 45000" 50000" 2011(03(11(09:00:00" 2011(03(11(11:00:00" 2011(03(11(13:00:00" 2011(03(11(15:00:00" 2011(03(11(17:00:00" 2011(03(11(19:00:00" 2011(03(11(21:00:00" 2011(03(11(23:00:00" 2011(03(12(01:00:00" 2011(03(12(03:00:00" 2011(03(12(05:00:00" 2011(03(12(07:00:00" 2011(03(12(09:00:00" 2011(03(12(11:00:00" 2011(03(12(13:00:00" 2011(03(12(15:00:00" 2011(03(12(17:00:00" 2011(03(12(19:00:00" 2011(03(12(21:00:00" 2011(03(12(23:00:00" 2011(03(13(01:00:00" 2011(03(13(03:00:00" 2011(03(13(05:00:00" 2011(03(13(07:00:00" 2011(03(13(09:00:00" 2011(03(13(11:00:00" 2011(03(13(13:00:00" 2011(03(13(15:00:00" 2011(03(13(17:00:00" 2011(03(13(19:00:00" 2011(03(13(21:00:00" 2011(03(13(23:00:00" 2011(03(14(01:00:00" 2011(03(14(03:00:00" 2011(03(14(05:00:00" 2011(03(14(07:00:00" 2011(03(14(09:00:00" 2011(03(14(11:00:00" 2011(03(14(13:00:00" 2011(03(14(15:00:00" 2011(03(14(17:00:00" 2011(03(14(19:00:00" 2011(03(14(21:00:00" 2011(03(14(23:00:00" 2011(03(15(01:00:00" 2011(03(15(03:00:00" 2011(03(15(05:00:00" 2011(03(15(07:00:00" 2011(03(15(09:00:00" 2011(03(15(11:00:00" 2011(03(15(13:00:00" 2011(03(15(15:00:00" 2011(03(15(17:00:00" 2011(03(15(19:00:00" 2011(03(15(21:00:00" 2011(03(15(23:00:00" 2011(03(16(01:00:00" 2011(03(16(03:00:00" 2011(03(16(05:00:00" 2011(03(16(07:00:00" 2011(03(16(09:00:00" 2011(03(16(11:00:00" 2011(03(16(13:00:00" 2011(03(16(15:00:00" 2011(03(16(17:00:00" 2011(03(16(19:00:00" 2011(03(16(21:00:00" 2011(03(16(23:00:00" 2011(03(17(01:00:00" 2011(03(17(03:00:00" 2011(03(17(05:00:00" 2011(03(17(07:00:00" 2011(03(17(09:00:00" 2011(03(17(11:00:00" 2011(03(17(13:00:00" 2011(03(17(15:00:00" 2011(03(17(17:00:00" 2011(03(17(19:00:00" 2011(03(17(21:00:00" 2011(03(17(23:00:00" 2011(03(18(01:00:00" 2011(03(18(03:00:00" 2011(03(18(05:00:00" 2011(03(18(07:00:00"         トピック毎の⾔言及数 初期は津波と⽣生命維持についての話題 3/12 以降は、⽣生命維持、放射能、⽣生活インフラの話題 が多くみられた
  30. 0" 5000" 10000" 15000" 20000" 25000" 30000" 35000" 40000" 45000"

    50000" 2011(03(11(09:00:00" 2011(03(11(11:00:00" 2011(03(11(13:00:00" 2011(03(11(15:00:00" 2011(03(11(17:00:00" 2011(03(11(19:00:00" 2011(03(11(21:00:00" 2011(03(11(23:00:00" 2011(03(12(01:00:00" 2011(03(12(03:00:00" 2011(03(12(05:00:00" 2011(03(12(07:00:00" 2011(03(12(09:00:00" 2011(03(12(11:00:00" 2011(03(12(13:00:00" 2011(03(12(15:00:00" 2011(03(12(17:00:00" 2011(03(12(19:00:00" 2011(03(12(21:00:00" 2011(03(12(23:00:00" 2011(03(13(01:00:00" 2011(03(13(03:00:00" 2011(03(13(05:00:00" 2011(03(13(07:00:00" 2011(03(13(09:00:00" 2011(03(13(11:00:00" 2011(03(13(13:00:00" 2011(03(13(15:00:00" 2011(03(13(17:00:00" 2011(03(13(19:00:00" 2011(03(13(21:00:00" 2011(03(13(23:00:00" 2011(03(14(01:00:00" 2011(03(14(03:00:00" 2011(03(14(05:00:00" 2011(03(14(07:00:00" 2011(03(14(09:00:00" 2011(03(14(11:00:00" 2011(03(14(13:00:00" 2011(03(14(15:00:00" 2011(03(14(17:00:00" 2011(03(14(19:00:00" 2011(03(14(21:00:00" 2011(03(14(23:00:00" 2011(03(15(01:00:00" 2011(03(15(03:00:00" 2011(03(15(05:00:00" 2011(03(15(07:00:00" 2011(03(15(09:00:00" 2011(03(15(11:00:00" 2011(03(15(13:00:00" 2011(03(15(15:00:00" 2011(03(15(17:00:00" 2011(03(15(19:00:00" 2011(03(15(21:00:00" 2011(03(15(23:00:00" 2011(03(16(01:00:00" 2011(03(16(03:00:00" 2011(03(16(05:00:00" 2011(03(16(07:00:00" 2011(03(16(09:00:00" 2011(03(16(11:00:00" 2011(03(16(13:00:00" 2011(03(16(15:00:00" 2011(03(16(17:00:00" 2011(03(16(19:00:00" 2011(03(16(21:00:00" 2011(03(16(23:00:00" 2011(03(17(01:00:00" 2011(03(17(03:00:00" 2011(03(17(05:00:00" 2011(03(17(07:00:00" 2011(03(17(09:00:00" 2011(03(17(11:00:00" 2011(03(17(13:00:00" 2011(03(17(15:00:00" 2011(03(17(17:00:00" 2011(03(17(19:00:00" 2011(03(17(21:00:00" 2011(03(17(23:00:00" 2011(03(18(01:00:00" 2011(03(18(03:00:00" 2011(03(18(05:00:00" 2011(03(18(07:00:00" +,')(/            '-*, .$&%   ! "#  71 全てのトピック毎の⾔言及数 プライバシー/乳幼児/医療療/安否確認/放射能/気象情報/ 津波/⽣生命維持/⽣生活インフラ/⽣生活・くらし/衛⽣生/被災者 ⽀支援/⾷食⽣生活/⾼高齢者/障害者
  31. 転置ファイル Inverted File Indexing l  各単語毎に、どの⽂文書に出現したかを記録 l  ⻑⾧長所 シンプル、速い、分散処理理しやすい l 

    短所 検索索漏漏れが⽣生じる  フレーズ検索索が苦⼿手 東京 10 15 16 20 21 22 東寺 10 15 …. 文書番号を記録
  32. 接尾辞配列列 Suffix Arrays (SA) l  全接尾辞を辞書式順序でソートした結果 l  ⻑⾧長所  漏漏れがない、どんなクエリでも⾼高速 l  短所  索索引が⼤大きい、構築に時間がかかる

    abracadabra$ 11 $ 10 a$ 7 abra$ 0 abracadabra$ 3 acadabra$ 5 adabra$ 8 bra$ 1 bracadabra$ 4 cadabra$ 6 dabra$ 0 abracadabra$ 1 bracadabra$ 2 racadabra$ 3 acadabra$ 4 cadabra$ 5 adabra$ 6 dabra$ 7 abra$ ・・・ dabra = dabra$ 辞書式
 順序
 ソート 出現位置(先頭位置からのオフセット) 例:dabraを検索する 1.  配列 SA の大きさは 11 なので配列インデックス の中心値 5 から検索 2.  SA[5] = 8 、この 8 は “abracadabra” の “bra” の
 出現位置を指している 3.  検索クエリの "dabra" と "bra" を比較すると "dabra" の方が辞書式順で大きい 4.  よって検索範囲は SA[5] から SA[11] の間に絞 り込まれる 5.  SA[5] と SA[11] の間 → SA[8] = 6 6.  SA[8] = 6 の 6 は “abracadabra” の dabra に
 一致。よって dabra の出現位置は 6 と判明