$30 off During Our Annual Pro Sale. View Details »

Full-text search

Full-text search

Presentation for my diploma thesis.

Janko Marohnić

April 23, 2015
Tweet

More Decks by Janko Marohnić

Other Decks in Programming

Transcript

 1. Računalna obrada teksta
  Janko Marohnić
  Voditelj rada:
  prof. dr. sc. Robert Manger

  View Slide

 2. Pretraživanje
  (punog teksta)

  View Slide

 3. Diskretno pretraživanje
  Organski uzgojena hrana
  …Najnovije istraživanje oko uzgoja hrane
  sugerira da je organski uzgojena hrana
  zdravija od konvencionalno uzgojene hrane,
  no ono nije dobro odjeknulo u svim
  znanstvenim krugovima…
  …Organski uzgojena hrana nije bitno zdravija
  niti ima bitno veće nutritivne vrijednosti, samo
  je bitno skuplja, zaključili su istraživači s
  uglednog američkog sveučilišta Stanford nakon
  niza provedenih istraživanja…
  …U SAD-u se prakticira obrada
  organskih vrtova, u kojem se hrana
  koja se uzgaja ne šprica pesticidima…

  View Slide

 4. Pretraživanje punog teksta
  Organski uzgojena hrana
  …Najnovije istraživanje oko uzgoja
  hrane sugerira da je organski
  uzgojena hrana zdravija od
  konvencionalno uzgojene hrane, no
  ono nije dobro odjeknulo u svim
  znanstvenim krugovima…
  …Organska hrana nije bitno zdravija
  niti ima bitno veće nutritivne
  vrijednosti, samo je bitno skuplja,
  zaključili su istraživači s uglednog
  američkog sveučilišta Stanford nakon
  niza provedenih istraživanja…
  …U SAD-u se prakticira obrada
  organskih vrtova, u kojem se hrana
  koja se uzgaja ne šprica pesticidima…

  View Slide

 5. Pretraživanje punog teksta
  Organski uzgojena hrana
  …Najnovije istraživanje oko uzgoja
  hrane sugerira da je organski
  uzgojena hrana zdravija od
  konvencionalno uzgojene hrane, no
  ono nije dobro odjeknulo u svim
  znanstvenim krugovima…
  …Organska hrana nije bitno zdravija
  niti ima bitno veće nutritivne
  vrijednosti, samo je bitno skuplja,
  zaključili su istraživači s uglednog
  američkog sveučilišta Stanford nakon
  niza provedenih istraživanja…
  …U SAD-u se prakticira obrada
  organskih vrtova, u kojem se hrana
  koja se uzgaja ne šprica pesticidima…
  1.
  2.
  3.

  View Slide

 6. 1. Indeksiranje
  2. Upit
  3. Rangiranje
  4. Prikaz podatka

  View Slide

 7. 1. Indeksiranje

  View Slide

 8. .pdf
  .doc .odt
  .html
  .rtf
  .ppt
  .xls
  .txt
  Preprocesiranje

  View Slide

 9. Analiza
  Detekcija rečenica
  Brojni stručnjaci ističu kako moderna
  prehrambena industrija koristi veliki broj
  sintetskih kemikalija, a mnoge od njih
  imaju potencijal oštetiti zdravlje ljudi koji
  su izloženi njihovim visokim
  koncentracijama ili čak i nižim
  koncentracijama, ali u duljem
  vremenskom periodu. Sve više ljudi
  postaje svjesno bezbrojnih kemikalija u
  konvencionalno proizvedenoj hrani. Iako
  su svi prehrambeni proizvodi morali proći
  nekakav test sigurnosti i kvalitete da bi
  dospjeli na tržište, većina testova
  provedena je uz financiranje tih istih
  proizvođača, tako da rezultat ne može biti
  potpuno objektivan.

  View Slide

 10. Analiza
  Detekcija rečenica
  Brojni stručnjaci ističu kako moderna
  prehrambena industrija koristi veliki broj
  sintetskih kemikalija, a mnoge od njih
  imaju potencijal oštetiti zdravlje ljudi koji
  su izloženi njihovim visokim
  koncentracijama ili čak i nižim
  koncentracijama, ali u duljem
  vremenskom periodu.
  Sve više ljudi postaje svjesno bezbrojnih
  kemikalija u konvencionalno proizvedenoj
  hrani.
  Iako su svi prehrambeni proizvodi morali
  proći nekakav test sigurnosti i kvalitete da
  bi dospjeli na tržište, većina testova
  provedena je uz financiranje tih istih
  proizvođača, tako da rezultat ne može biti
  potpuno objektivan.

  View Slide

 11. Analiza
  Tokenizacija
  Organski uzgojena hrana ne koristi
  kemikalije i pesticide.

  View Slide

 12. Analiza
  Tokenizacija
  Organski
  uzgojena
  hrana
  ne
  koristi
  kemikalije
  i
  pesticide

  View Slide

 13. Analiza
  Normalizacija veličine slova
  Organski
  uzgojena
  hrana
  ne
  koristi
  kemikalije
  i
  pesticide

  View Slide

 14. Analiza
  Normalizacija veličine slova
  organski
  uzgojena
  hrana
  ne
  koristi
  kemikalije
  i
  pesticide

  View Slide

 15. Analiza
  Eliminacija stop-riječi
  organski
  uzgojena
  hrana
  ne
  koristi
  kemikalije
  i
  pesticide

  View Slide

 16. Analiza
  Eliminacija stop-riječi
  organski
  uzgojena
  hrana
  koristi
  kemikalije
  pesticide

  View Slide

 17. Analiza
  Korjenovanje
  organsko
  uzgojeno
  hrana
  koristiti
  kemikalija
  pesticid

  View Slide

 18. Analiza
  Normalizacija dijakritičkih znakova
  čevapčić
  cevapcic

  View Slide

 19. Spremanje
  Organski uzgojena hrana ne
  koristi kemikalije i pesticide.
  organsko 1
  uzgojeno 2
  hrana 3
  koristi 5
  kemikalija 6
  pesticid 8

  Invertirani indeks

  View Slide

 20. 2. Upit

  View Slide

 21. Dodavanje sinonima
  pećina
  pećina OR špilja

  View Slide

 22. Ispravljanje zatipaka
  New Yrok
  New York

  View Slide

 23. Ispravljanje zatipaka
  Damerau-Levenshteinova udaljenost
  • umetanje
  • brisanje
  • supstitucija
  • transpozicija

  View Slide

 24. Ispravljanje zatipaka
  n-gram udaljenost
  udaljenost
  uda dalj alje ljen eno nos ost

  View Slide

 25. Ispravljanje zatipaka
  Double Metaphone
  Jeff
  "
  Geoff

  View Slide

 26. Ključne riječi tijelo željezo

  View Slide

 27. Fraze “svjetski kup”

  View Slide

 28. Booleovi operatori
  AND, OR, NOT
  jabuke AND banane

  View Slide

 29. Zamjenski znakovi bank*
  banka
  bankar
  bankarstvo
  bankariti

  View Slide

 30. Specificiranje polja naslov:matematika
  godina:>1985

  View Slide

 31. Automatsko
  nadopunjavanje
  atletika
  atletika
  atlanta
  at&t
  atrakcija

  View Slide

 32. 3. Rangiranje

  View Slide

 33. Model vektorskog polja
  1. “Ivica Kostelić odnosi pobjedu u skijaškom kupu”
  2. “Janica Kostelić odnosi pobjedu u svjetskom prvenstvu”
  1
  ivica
  2
  janica
  3
  kostelić
  4
  odnosi
  5
  pobjedu
  6
  u
  7
  skijaškom
  8
  svjetskom
  9
  kupu
  10
  prvenstvu
  1. (1, 0, 1, 1, 1, 1, 1, 0, 1, 0)
  2. (0, 1, 1, 1, 1, 1, 0, 1, 0, 1)

  View Slide

 34. Model vektorskog polja
  Upit
  Dokument
  0° = potpuno podudaranje upita i dokumenta
  relevantnost = cos α

  View Slide

 35. Težina riječi
  TF-IDF
  Term Frequency
  Inverse Document Frequency
  vektor · TF
  IDF

  View Slide

 36. Težina polja

  View Slide

 37. Blizina riječi
  Organski uzgojena hrana
  U organskim vrtovima se uzgaja hrana…

  View Slide

 38. 4. Prikaz rezultata

  View Slide

 39. Paginacija
  dokument 2
  dokument 3
  dokument 4
  dokument 5
  dokument 6
  dokument 7
  dokument 1

  stranica 1
  stranica 2

  View Slide

 40. Isticanje
  …Najnovije istraživanje oko uzgoja
  hrane sugerira da je organski
  uzgojena hrana zdravija od
  konvencionalno uzgojene hrane, no
  ono nije dobro odjeknulo u svim
  znanstvenim krugovima…

  View Slide

 41. Performanse

  View Slide

 42. Replikacija Indeks
  Indeks
  Indeks

  View Slide

 43. Replikacija Indeks
  Indeks
  Indeks

  View Slide

 44. Replikacija Indeks
  Indeks
  Indeks

  View Slide

 45. Cijepanje
  in
  de
  ks

  View Slide

 46. Cijepanje de
  in
  ks

  View Slide

 47. Cijepanje de
  in
  ks

  View Slide

 48. Implementacija

  View Slide

 49. View Slide

 50. View Slide