Lletres, paraules, frases...

L’estadística es fa servir relacionada amb la llengua de moltes formes. Un dels exemples més clars és el de la desencriptació de missatges codificats. Un altre de ben conegut és del reconeixement d’autories de textos. La proposta d’aquesta setmana gira al voltant de les lletres, els mots i les frases.

  • Missatges secrets

A cada llengua hi ha una lletres que apareixen més que altres. En català, per exemple, les lletres més utilitzades són, per ordre: E, A, S, I, R... Si ens trobem un missatge codificat és possible que el signe que més es repeteixi es correspongui amb la E o la A. Analitzant l’estadística dels signes o lletres apareguts en el missatge codificat i comparant-la amb la de presència en el català podem arribar a descodificar un missatge encriptat.

Podeu fer una prova de desencriptar aquest text .

L' “estadístiques de les lletres” us pot servir de pista.

Podeu fer l'activitat interactiva al web del Calaix +ie.

Us proposem repartir en diferents grups quatre fragments codificats de forma lleugerament diferent, que junts formen un text complet i que es descodifiqui utilitzant eines estadístiques.

Un model de procés per fer-ho a l’aula pot ser el següent:

  • Recol·lecció de dades: si no es vol donar feta l’estadística de freqüències en català es pot fer que, per parelles, facin un recompte de lletres d’una pàgina d’un llibre. Després es poden ajuntar les dades de tota la classe i calcular les freqüències relatives de cada lletra. També caldrà calcular les freqüències absolutes i relatives del text a descodificar. Si donem el text en format digital podem utilitzar eines de recompte ràpid com la que podeu trobar en aquest enllaç.

Si ens estimem més donar feta la taula de freqüència a continuació en teniu una:

  • Descodificació del text: a més de la comparació estadística es poden fer servir turcs lingüístics com buscar les paraules d’una sola lletra, de dues, de tres... els dígrafs, els apòstrofs, els plurals... Si el text s’ha donat en format digital es pot treballar amb un processador de textos i les eines cercar i reemplaçar. Convé que les lletres “clares” (les decodificades) estiguin en minúscula i les codificades amb majúscula.

L’activitat es pot completar proposant formes de complicar la codificació que dificultin la desencriptació o investigant mètodes històrics existents d’encriptar missatges. Podeu trobar una activitat relacionada, Missatges secrets, en el web Calaix +ie.

  • Adaptació a cicle inicial

Es poden buscar quines són les vocals més usuals als noms dels nens i nenes o les consonants que surten més. Es pot utilitzar fent un joc semblant al “penjat” per endevinar noms en els que només es donen una part de les lletres i s’han de completar. Aquesta variació pot fer veure que unes lletres apareixen més que d’altres.

  • Autors anònims

Aquesta activitat de Victòria Oliu la podeu trobar a l’ARC. Bàsicament consisteix en estudiar la longitud mitjana de les paraules i de la llargada mitjana dels fragments entre punts de dos autors i utilitzar les dades recollides per identificar a quin d’aquests d'ells correspon un tercer text anònim. A la fitxa de l’ARC hi trobareu el material necessari per a dur a terme l’activitat.

  • Investigar la llei de Zipf

La llei de Zipf proposada pel lingüista Kingsley Zipf afirma que cada llengua té una constant que relaciona, amb proporció inversa, el rang que té una paraula en una llengua amb la freqüència que apareix. Així si “la” és la segona paraula (rang 2) que més apareix en català i multipliquem aquest número per la seva freqüència d’aparició obtindrem un resultat similar al de multiplicar 4, que és el rang de “el”, per la seva freqüència.

Per comprovar la veracitat de la llei convé utilitzar textos llargs o ajuntar dades des de tota la classe amb textos més curts. Amb un processador de textos. i l’eina reemplaça, que ens informa de la quantitat de reemplaços fets, es pot alleugerir el recompte de cada paraula.

  • Fórmules de llegibilitat

Existeixen diferents fórmules que ens informen sobre la facilitat de lectura que té un text. La majoria relacionen longituds de paraules i de frases. A continuació teniu un parell que es oden treballar a l'aula comparant diferents textos (per autoria o per tipologia).