Upgrade to Pro — share decks privately, control downloads, hide ads and more …

[sl] Solr

[sl] Solr

Talk about basics of Solr

Jernej Virag

December 09, 2014
Tweet

More Decks by Jernej Virag

Other Decks in Programming

Transcript

  1. Solr • Kaj in zakaj? • Osnove iskanja vsebine •

    Osnovna konfiguracija • Jeziki in več jeder • Osvetljevanje in grupiranje 28.1.2013 Solr 2
  2. Iskanje po besedilih 28.1.2013 Solr 4 ? ljubljana ! 

    Protesti se nadaljujejo v Ljubljani, Bohinju, Ajdovščini in Murski Soboti
  3. „Pravilno“ iskanje 28.1.2013 Solr 9 Tokenizacija Normalizacija Krnjenje Kombiniranje Urad

    US-CERT je izjavil, da je »MD5 algoritem zlomljen in neprimeren za nadaljnjo uporabo«. urad uscert izjavil md5 algoritem zlomljen neprimeren nadaljnjo uporabo
  4. „Pravilno“ iskanje 28.1.2013 Solr 10 Tokenizacija Normalizacija Krnjenje Kombiniranje urad

    uscert izjavil md5 algoritem zlomljen neprimeren nadaljnjo uporabo urad uscert izjaviti md5 algoritem zlomljen neprimeren nadaljnji uporaba
  5. „Pravilno“ iskanje 28.1.2013 Solr 11 Tokenizacija Normalizacija Krnjenje Kombiniranje urad

    uscert izjaviti md5 algoritem zlomljen neprimeren nadaljnji uporaba urad urad uscert urad uscert izjaviti uscert uscert izjaviti uscert izjaviti md5 izjaviti izjaviti md5 izjaviti md5 algoritem …
  6. Namestitev 28.1.2013 Solr 16 • SOLR_HOME o solrconfig.xml - konfiguracija

    vseh jeder o news - jedro • conf - shema in konfiguracija jedra • data - indeks in podatki • lib - morebitne knjižnice
  7. Namestitev 24. 10. 2012 Solr 17 schema.xml Definicija polj, tipov

    polj in parametrov procesiranja teksta http://wiki.apache.org/solr/AnalyzersTokenizersTokenFilters
  8. Uporaba 24. 10. 2012 Solr 18 /update {"add": {"doc" :

    {"id" : "849323", "naslov": "Naslov članka…", … }, "commit" : {}, "delete": {"id" : "3829382" }, "delete": {"query“ : "*:*" } }
  9. Uporaba 24. 10. 2012 Solr 19 /select wt=json - json

    format, možni tudi drugi q=<poizvedba> - sama poizvedba fl=<polja> - polja za poizvedbo start=<začetek> - prva vrnjena vrstica (za paginacijo) rows=<št. vrstic> - število vseh vrstic (za paginacijo) sort=<polja> - sortiranje po poljih fq=<filter> - poizvedba za filtriranje
  10. Jeziki 24. 10. 2012 Solr 23 Dva pristopa 1.) Za

    vsak jezik eno jedro 2.) Dinamična polja
  11. Slovenščina 24. 10. 2012 Solr 26 Lemmagen http://lemmatise.ijs.si/ Knjižnica za

    Solr https://bitbucket.org/mavrik/slovene_lemmatizer
  12. Slovenščina 24. 10. 2012 Solr 27 <charFilter class="solr.HTMLStripCharFilterFactory"/> <tokenizer class="solr.StandardTokenizerFactory"/>

    <filter class="solr.ClassicFilterFactory" /> <filter class="solr.WordDelimiterFilterFactory" preserveOriginal="1" /> <filter class="solr.LowerCaseFilterFactory" /> <filter class="solr.StopFilterFactory" words="stopwords.txt" ignoreCase="true" /> <filter class="solr.ASCIIFoldingFilterFactory" /> <filter class="si.virag.solr.RdrLemmatizerFactory" dictionary="<pot_do_slovarjev>/lem-me-sl.bin" /> <filter class="solr.ShingleFilterFactory" maxShingleSize="3" outputUnigrams="true" />
  13. Angleščina 24. 10. 2012 Solr 28 <charFilter class="solr.HTMLStripCharFilterFactory"/> <tokenizer class="solr.StandardTokenizerFactory"/>

    <filter class="solr.WordDelimiterFilterFactory" preserveOriginal="1" /> <filter class="solr.LowerCaseFilterFactory"/> <filter class="solr.ASCIIFoldingFilterFactory"/> <filter class="solr.EnglishPossessiveFilterFactory" /> <filter class="solr.PorterStemFilterFactory" /> <filter class="solr.ShingleFilterFactory" maxShingleSize="3" outputUnigrams="true"/>
  14. Osvetljevanje 24. 10. 2012 Solr 30 /select hl=true - vklop

    osvetljevanja hl.fl=<polja> - polja za osvetlitev hl.fragsize=<št.znakov> - dolžina osvetljenega izseka hl.simple.pre=<značka> - začetek osvetlitve hl.simple.post=<značka> - konec osvetlitve http://wiki.apache.org/solr/HighlightingParameters
  15. Grupiranje 24. 10. 2012 Solr 31 /select facet=true - vklop

    osvetljevanja facet.field=<polja> - polja za osvetlitev facet.limit=<omejitev> - omejitev števila vrednosti facet.mincount=<št> - najmanjše število pojavitev http://wiki.apache.org/solr/SolrFacetingOverview
  16. Nasveti • SOLR NI BAZA!!!!! • Uporabljajte analizator v Solrju

    • Solr nima varnostne konfiguracije, preverjajte dostop do APIja • Poganjanjte na Oracle JVM, ne OpenJDK • Za produkte uporabljajte WorldDelimiterFilterFactory za ločevanje po številkah • Filtriranje stop-wordov je dvorezen meč 28.1.2013 Solr 32