情報検索の基礎 第5章 インデックスの圧縮

情報検索の基礎 第5章 インデックスの圧縮

名古屋検索勉強会 #5 インデックスの圧縮の会におけるazさんの発表資料を代理でアップロード致しました
https://search-nagoya.connpass.com/event/129190/

情報検索の基礎
第5章 インデックスの圧縮

インデックスの圧縮
5.1 検索システムにおける用語の統計的性格
5.1.1 ヒープの法則:用語数を推量する
5.1.2 ジップの法則:用語の分布をモデル化する
5.2 辞書の圧縮
5.2.1 文字列としての辞書
5.2.2 ブロックストレージ
5.3ポスティングファイルの圧縮
5.3.1 可変バイトコード
5.3.2 γコード
5.4引用文献と参考図書 (→省略)

146f04b4645afc2de2fe9d5bad51cc89?s=128

nishiokya

May 08, 2019
Tweet

Transcript

  1.        

  2.  1 2 1 1 3 2 1 1 3

    2 1 .1 5 4 1
  3. • Ø • Ø ü ü 3 ü 5 3

    ü Ø ü 2
  4. • I • e • e I.1 , D •

    ) ( 6663 4 I2 0, 3 ( 4 .1 , • { t 5 ( o • I ( } e I DI ( } DI d c I ( } e ; Im • 5
  5. . 1 • 0 C - 50 - V e

    5 1 3 R
  6. • W ” Øs r 0 • ” “ O

    Øsc ” 0 0 ,0 m e i M l o e sc ” 6 c nO O DO ( ) • ” O Øbr cp y Ø e i Ø M br cp E W O O
  7. . ! = #$% ! : $ 6 4 7

    1 . 30 ≤ # ≤ 100 9 * ≈ 0.5 log12 ! = * log12 $ + log12 # 0 log12 ! = log12 #$% = log12 $% + log12 # # = 101.45 ≈ 44 44×1,000,0202.5: ≈ 38.323 ≈ 38.365 ( )
  8. • ! • . • 5 • 5 • .

    4 . 8 4 1 48 2 48 2 . 8 8 30 ≤ ! ≤ 100
  9. 21 . cf# ∝ 1 & '( ') l '#

    l : p 9 Z a i w sf ( ) '# cf# = c&+ , = −1
  10. • • • Ø 1 Ø 0

  11. • M • u G eB • C tC BV

    (.,C G R 02 2 4 0-1 ( ( ( + , r ) : Cs G u = 8
  12. B 8 = 2 7 2, 4 6 1 3

    ) 0 , ( 0  log$ 3.2×10+ ≈ 22 7( ) 0 ) ) ( , + /. /. ( M
  13. • , 1 • M 4 • , 5 7

    B= ! 3.M ! − 1 0 ! − 1 ×3 ! . 5 ! = 4 , M 0 0
  14. • M! Ø! B = 4 • ) / )

    ) + , +. Ø8 80 = 6 = ) 1 2 3 ( ( +≈ ( ) ( ( ) ( +,
  15. • c 1 . 2 Ø B f B9 n

    Ø M 5d g Ø g i
  16. • B Ø ] Ø , ] B • 1

    Ø BM Ø 6 M ] Ø , ] M [ B 
  17. . 2"# = 524,288 2)* = 1,048,576 7 2,)( D

    8 < 800,000×200×6 = 96012 N 8I < 8 < 100,000,000×20/8 = 25012 21 2 21 0 2 1
  18. • b a 12 8 od n 8 • l

    a Ø h c r 2 0(1) 0, et Ø f et i v g v g8
  19. • V B ( () ) 0 1 0 Ø

    B : 2" + 2$ + 2% +2& +2' = 824 2+ + 2, = 5 2./ + 2.0 + 2.& + 2., + 2" + 2% +2& +2, = 214577 1 25045911645
  20. • 8( 39t 5t Ø b4 b4 b 1 0.2

    Ø b6 n l4 Ø b6 n 4 e B ( b : : • B e Ø : ØV 8 9 Ø 8 i s )9 9 ( 3 t
  21. • ( ) 0G • 3 • 1 2 •

    ( ) 3 0G • 1 2 3 • 0G ( ) • 1 ( ) 2
  22. • • 1 e = • f3 = ( )

    • ( ) • f3 ( ) • • f3 0 • g • f3 2
  23. • ( s2 • 0)1 log$ % • ) 1,

    log$ % + 1 • 2 log$ % + 1 • 1 ≤ % ≤ 2* 2*n f :G G log$ % • • :G : Ø e 333 o G hl: : G Ø Ø = : t + + g ( 0)1 log$ % ≈ 3.7 ) 1,
  24. • Ø m 4 5 12) Ø 01 1 r

    s Øe 0)1) 1 1 B m e n i f n u • p x • v ( M p Øu a s t v l t %
  25.     

  26.  2 6 • 6 • • 6 2 6

  27.  

  28. 

  29.  • ( • . ,2 7 = • 5

    . ,2 ) 0 1 2) 9 = . ,2 0 1 2) (
  30. 

  31. 

  32. !" = $ %&' " 1 )   !"

    ln ,