Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Talks #72 - Catalin Francu - Dexonline and the ...

Talks #72 - Catalin Francu - Dexonline and the free Romanian language

Dexonline is an entire collection of Romanian language dictionaries with over 3 million users and 17 millions page views per month. With a community of wonderful volunteers behind, Dexonline distinguishes itself with the free, open licensing modle applied to its code and data. At Talks, Cătălin will give us both hardware and software useful insights about the technology behind dexonline.ro.

Talks by Softbinator

July 15, 2015
Tweet

More Decks by Talks by Softbinator

Other Decks in Programming

Transcript

  1. Ce (nu) este Dexonline • colecție de dicționare ale limbii

    române • alte subproiecte conexe • NU este făcut de lingviști • NU este subordonat Academiei • NU suntem autorii definițiilor
  2. Statistici • 3.000.000 de utilizatori unici lunar • 17.000.000 de

    pagini vizitate • circa 15 pagini / secundă la ore de vârf • scade la 50% în vacanțe • 370.000 de fani Facebook
  3. Istoric • fără frameworks • fără MediaWiki • browsere: IE

    5, Netscape 4, Galeon • suport șubred pentru Unicode • crowdsourcing cu F. R. Scrabble
  4. Experiența de învățare • Programator, sysadmin, măturător... • Scalarea practică

    nu se compară cu nimic teoretic • mysql_db_query() → AdoDB → Idiorm • ∅ → memcached, APC, Varnish • sugestiile PageSpeed
  5. Efortul manual și automatizarea • Lucrul cu text are erori

    inerente • Corectare iterativă • Uneori, migala este mai rapidă • Exemplu: confruntarea DEX '98 cu DEX '09
  6. Despre cooperare • Motivele pentru o licență GPL • Comparația

    cu Dicționarul Tezaur Sic vos non vobis nidificatis aves; Sic vos non vobis villera fertis oves; Sic vos non vobis mellificatis apes; Sic vos non vobis fertis aratra boves.
  7. Despre cooperare • Fonduri publice, domeniu public • Digitizarea limbii

    nu are sens fără eliberarea ei • Rezultate: dicționare de rime, aplicații pentru smart phones etc.
  8. Forme flexionare • forma de bază: semințelor → sămânță ➔

    click pe cuvânt ➔ căutare full-text ➔ parser de texte românești
  9. Abordarea heirupistă naivă notație singular plural baladĂ baladă balade estradĂ

    estradă estrade strADÅ stradă străzi ogrADÅ ogradă ogrăzi livÄDÅ livadă livezi
  10. DMLR (Alf Lombard) Modelul F62 nearticulat articulat nominativ-acuzativ singular (o)

    stradă strada plural (niște) străzi străzile genitiv-dativ singular (unei) străzi străzii plural (unor) străzi străzilor stradă: F62 cadă: F62 gardă: F62 zgardă: F62 livadă: F67 dovadă: F67
  11. Forme flexionare • DMLR importat în ~ 6 luni •

    F.R.Scrabble ne folosește pentru interfață • Win-win • Presupune dreptul de a publica versiuni îmbunătățite
  12. Codul-sursă al limbii române versiunea curentă (2015): @SAINTLUCIÁN, -Ă,@ $saintlucieni,

    -e,$ #s. m.# și #f.#, #adj.# @1.@ #S. m.# și #f.# Persoa @SAIT@ #s. n.# #v.# @site.@ @SAIVÁN,@ $saivane,$ #s. n.# @1.@ (#Reg.#) Adăpost de iarnă pentru oi (sau pentru vite); @SAKE@ #s. n.# Băutură alcoolică specifică Japoniei, obținută din orez fermentat, care se be @SAL,@ $saluri,$ #s. n.# (Rar) Plută mare, formată prin alăturarea mai multor plute mici. - Din @SAL1NITÁTE@ #s. f.# Conținutul în săruri al unei ape sau al un
  13. Concluzii • ingineria este ceva mult mai profund decât o

    sumă de unelte • trebuie să vedem imaginea de ansamblu • limba română este parte dintr-un patrimoniu • codul de legi, literatura, muzica...