Upgrade to Pro — share decks privately, control downloads, hide ads and more …

La Llei de Zipf

Sponsored · Your Podcast. Everywhere. Effortlessly. Share. Educate. Inspire. Entertain. You do you. We'll handle the rest.

La Llei de Zipf

Avatar for Ignacio Contreras Pinilla

Ignacio Contreras Pinilla

December 17, 2013
Tweet

Other Decks in Education

Transcript

  1. Introducció (I) • La llei de Zipf aplica als llenguatges

    naturals. • Ens diu de les paraules: ◦ Unes poques s’utilitzen molt ◦ La majoria es fan servir poc ◦ La resta, gairebé no s’utilitza
  2. Introducció (II) • Donat: ◦ Un llenguatge natural ◦ Un

    corpus lingüístic: conjunt gran d’exemples d’ús real d’un llenguatge • La llei de Zipf descriu la distribució de les paraules segons la seva freqüència d’ aparició
  3. Definició (I) De forma més formal: • Ordenem les paraules

    segons la seva freqüència d’aparició al corpus • Observem que la distribució resultant segueix una llei de potències
  4. Definició (II) Podem aproximar la tendència de la distribució de

    la següent forma: • n és el rang de la paraula • a té un valor proper a 1
  5. Definició (III) De forma més genèrica: • f, freqüència •

    k, el rang • N, nombre de paraules de la població • s, factor proper a 1
  6. Demostració (I) Agafem una mostra de text prou gran: “El

    Quijote” de Cervantes Podem obtenir-ho en text pla mitjançant el Project Gutenberg.
  7. Demostració (II) Processem el text: • Identifiquem les paraules úniques:

    ◦ No distingirem entre majúscules i minúscules ◦ Ignorarem símbols extra al principi i final de cada paraula • Guardem el seu nombre d’aparicions al text • Ordenem les paraules segons el nombre d’ aparicions
  8. Demostració (III) Representem gràficament el resultat: • X: rang de

    la paraula • Y: percentatge d’aparicions al text
  9. Demostració (IV) • Les paraules més utilitzades són “que”, “de”

    i “y” • Un 50% del text està format només per 123 paraules úniques • El 60%, per 282 • El 80%, per 1321
  10. Conclusions • Amb un corpus més gran la corba seguiria

    s’ aproximaria encara més al model de la llei Zipf • És una bona mostra de l’economia del llenguatge (principi del mínim esforç)
  11. Bibliografia Lada A. Academic. “Zipf, Power-laws, and Pareto - a

    ranking tutorial”. HP Information Dynamics Labs. http://www.hpl.hp. com/research/idl/papers/ranking/ranking.html Geoff Kirby. “Zipf’s law”. UK Journal of Naval Science Volume 10, No. 3, pp 180-185. http://www.geoffkirby.co.uk/ZlPFSLAW.pdf 1o1.in. “Sematic Depth Analizer”. 1o1.in Laboratory. http://1.1o1.in/en/webtools/semantic-depth Wikipedia contributors. “Zipf's law”. Wikipedia, The Free Encyclopedia. October 4, 2013, 10:48 UTC. http://en.wikipedia.org/w/index.php?title=Zipf%27s_law&oldid=575709945.