Identificació d'idioma
Identificació d'idioma
L'anàlisi de freqüències està basat en el fet que, donat un text, certes lletres o combinacions de lletres apareixen més sovint que altres, existint diferents freqüències per a elles. És més, hi ha una distribució característica de les lletres que és pràcticament la mateixa per a la majoria d'exemples d'aquest llenguatge.
Per exemple, en anglès la lletra E és molt comú, mentre que la X és molt rara. La frase mnemotècnica "Etaoin Shrdlu" agrupa les dotze lletres més freqüents en els textos anglesos.
En castellà, les vocals són molt freqüents, ocupant al voltant del 45% del text, sent la E i l'A les que apareixen en més ocasions, mentre que la freqüència sumada de F, Z, J, X, W i K no arriba al 2%.
La primera explicació ben documentada de l'anàlisi de freqüències (de fet de qualsevol tipus de criptoanàlisi) va ser donada al segle ix pel filòsof àrab Al-Kindi En Un manuscrit per al desxifratge de missatges criptogràfics (Ibraham, 1992). S'ha suggerit que l'estudi intens de l'Alcorà va revelar que l'àrab tenia una característica freqüència de lletres. El seu ús es va estendre i va ser tan usat a Europa durant el Renaixement que es van inventar pautes per intentar burlar l'estudi de les freqüències.
Activitat 6.
Busca un text d'un mínim de 15 línes escrit en català, castellà, anglès, francès o polonès (aquest text l'anomenarem el text misteriós).
Fes un anàlisi de la freqüència d'aparició de cada lletra de l'alfabet (sense tenir en compte els accents; és a dire "é", "è", "ê", "ë" i "e" es compten coma a "e") i representa-ho en un diagrama de barres.
Dona el diagrama que has construït a un company/a. Aquesta persona haurà d'obrir el full de càlcul freqüències d'aparició de lletres en diferents idiomes i decidir en quin idioma ha estat escrit el text misteriós.
Si vols pots utilitzar aquest full de càlcul per analitzar de manera automàtica la freqüència d'apariació de cada lletra en el text.