L’estadística es fa servir relacionada amb la llengua de moltes formes. Un dels exemples més clars és el de la desencriptació de missatges codificats. Un altre de ben conegut és del reconeixement d’autories de textos. La proposta d’aquesta setmana gira al voltant de les lletres, els mots i les frases.
A cada llengua hi ha una lletres que apareixen més que altres. En català, per exemple, les lletres més utilitzades són, per ordre: E, A, S, I, R... Si ens trobem un missatge codificat és possible que el signe que més es repeteixi es correspongui amb la E o la A. Analitzant l’estadística dels signes o lletres apareguts en el missatge codificat i comparant-la amb la de presència en el català podem arribar a descodificar un missatge encriptat.
Podeu fer una prova de desencriptar aquest text .
L' “estadístiques de les lletres” us pot servir de pista.
Podeu fer l'activitat interactiva al web del Calaix +ie.
Us proposem repartir en diferents grups quatre fragments codificats de forma lleugerament diferent, que junts formen un text complet i que es descodifiqui utilitzant eines estadístiques.
Un model de procés per fer-ho a l’aula pot ser el següent:
Si ens estimem més donar feta la taula de freqüència a continuació en teniu una:
L’activitat es pot completar proposant formes de complicar la codificació que dificultin la desencriptació o investigant mètodes històrics existents d’encriptar missatges. Podeu trobar una activitat relacionada, Missatges secrets, en el web Calaix +ie.
Es poden buscar quines són les vocals més usuals als noms dels nens i nenes o les consonants que surten més. Es pot utilitzar fent un joc semblant al “penjat” per endevinar noms en els que només es donen una part de les lletres i s’han de completar. Aquesta variació pot fer veure que unes lletres apareixen més que d’altres.
Aquesta activitat de Victòria Oliu la podeu trobar a l’ARC. Bàsicament consisteix en estudiar la longitud mitjana de les paraules i de la llargada mitjana dels fragments entre punts de dos autors i utilitzar les dades recollides per identificar a quin d’aquests d'ells correspon un tercer text anònim. A la fitxa de l’ARC hi trobareu el material necessari per a dur a terme l’activitat.
La llei de Zipf proposada pel lingüista Kingsley Zipf afirma que cada llengua té una constant que relaciona, amb proporció inversa, el rang que té una paraula en una llengua amb la freqüència que apareix. Així si “la” és la segona paraula (rang 2) que més apareix en català i multipliquem aquest número per la seva freqüència d’aparició obtindrem un resultat similar al de multiplicar 4, que és el rang de “el”, per la seva freqüència.
Per comprovar la veracitat de la llei convé utilitzar textos llargs o ajuntar dades des de tota la classe amb textos més curts. Amb un processador de textos. i l’eina reemplaça, que ens informa de la quantitat de reemplaços fets, es pot alleugerir el recompte de cada paraula.
Existeixen diferents fórmules que ens informen sobre la facilitat de lectura que té un text. La majoria relacionen longituds de paraules i de frases. A continuació teniu un parell que es oden treballar a l'aula comparant diferents textos (per autoria o per tipologia).