Upgrade to Pro — share decks privately, control downloads, hide ads and more …

La Llei de Zipf

La Llei de Zipf

Ignacio Contreras Pinilla

December 17, 2013
Tweet

Other Decks in Education

Transcript

  1. Introducció (I) • La llei de Zipf aplica als llenguatges

    naturals. • Ens diu de les paraules: ◦ Unes poques s’utilitzen molt ◦ La majoria es fan servir poc ◦ La resta, gairebé no s’utilitza
  2. Introducció (II) • Donat: ◦ Un llenguatge natural ◦ Un

    corpus lingüístic: conjunt gran d’exemples d’ús real d’un llenguatge • La llei de Zipf descriu la distribució de les paraules segons la seva freqüència d’ aparició
  3. Definició (I) De forma més formal: • Ordenem les paraules

    segons la seva freqüència d’aparició al corpus • Observem que la distribució resultant segueix una llei de potències
  4. Definició (II) Podem aproximar la tendència de la distribució de

    la següent forma: • n és el rang de la paraula • a té un valor proper a 1
  5. Definició (III) De forma més genèrica: • f, freqüència •

    k, el rang • N, nombre de paraules de la població • s, factor proper a 1
  6. Demostració (I) Agafem una mostra de text prou gran: “El

    Quijote” de Cervantes Podem obtenir-ho en text pla mitjançant el Project Gutenberg.
  7. Demostració (II) Processem el text: • Identifiquem les paraules úniques:

    ◦ No distingirem entre majúscules i minúscules ◦ Ignorarem símbols extra al principi i final de cada paraula • Guardem el seu nombre d’aparicions al text • Ordenem les paraules segons el nombre d’ aparicions
  8. Demostració (III) Representem gràficament el resultat: • X: rang de

    la paraula • Y: percentatge d’aparicions al text
  9. Demostració (IV) • Les paraules més utilitzades són “que”, “de”

    i “y” • Un 50% del text està format només per 123 paraules úniques • El 60%, per 282 • El 80%, per 1321
  10. Conclusions • Amb un corpus més gran la corba seguiria

    s’ aproximaria encara més al model de la llei Zipf • És una bona mostra de l’economia del llenguatge (principi del mínim esforç)
  11. Bibliografia Lada A. Academic. “Zipf, Power-laws, and Pareto - a

    ranking tutorial”. HP Information Dynamics Labs. http://www.hpl.hp. com/research/idl/papers/ranking/ranking.html Geoff Kirby. “Zipf’s law”. UK Journal of Naval Science Volume 10, No. 3, pp 180-185. http://www.geoffkirby.co.uk/ZlPFSLAW.pdf 1o1.in. “Sematic Depth Analizer”. 1o1.in Laboratory. http://1.1o1.in/en/webtools/semantic-depth Wikipedia contributors. “Zipf's law”. Wikipedia, The Free Encyclopedia. October 4, 2013, 10:48 UTC. http://en.wikipedia.org/w/index.php?title=Zipf%27s_law&oldid=575709945.