Dato che questo articolo ha una funzione introduttiva, sono presi in considerazione solo formati digitali definiti anteriormente al 2000, prima della diffusione dell'alta definizione (HD) . Notizie sui formati in uso nel momento in cui leggete possono essere trovati su wikipedia ( con molti più dettagli nella versione in inglese )
Diciamo subito che la piena comprensione di questo argomento è ostacolata da due ordini di fattori, il primo dei quali è che la materia è oggettivamente difficile e richiederebbe conoscenze di base di elettronica, di matematica superiore e di fisiologia e psicologia della percezione visiva.
A questo si aggiunge il non trascurabile problema che i vari formati del video digitale o sono standard "de facto" imposti da limitati cartelli di produttori che non hanno alcun interesse a divulgare dettagli sul funzionamento dei propri prodotti, per altro abbondantemente coperti da brevetti (AVI di Microsoft, Quik Time di Apple...) , o sono standard "ufficiali", risultato della collaborazione di molti specialisti ( Mini DV, MPEG, DVD ) nell'ambito di organismi appositamente costituiti, e in questo caso le specifiche dei formati si possono ottenere solo a pagamento.
Ad esempio le specifiche del Mini DV sono contenute nel documento IEC 61834 - ottenibile presso l'International Electrotechnical Commission www.iec.ch - che costa circa 450 euro .
Qui cercherò di dare alcune informazioni di base, necessariamente semplificate, rimandando il lettore più esperto e curioso ad alcuni dei numerosi siti che in Internet trattano l'argomento.
Nel video analogico avevamoo a che fare con standard ( PAL, SECAM e NTSC ) che riguardano la struttura del segnale e ne prescrivono i vari parametri, i cui principali sono il numero di fotogrammi al secondo, il rapporto tra altezza e larghezza dell'immagine, il numero di righe che la compongono, l'ampiezza e durata dei segnali di sincronismo, la modalità di codifica del colore. Oltre a ciò, esistevano vari formati di registrazione.
Con l'avvento del digitale le cose cambiano : nel momento in cui un video (inteso come una sequenza di fotogrammi accompagnati da suoni ) viene digitalizzato, esso viene trasformato in una sequenza di bit che in quanto tali possono essere trasmessi attraverso una grande varietà di canali e immagazzinati su una grande varietà supporti in maniera del tutto analoga a qualsiasi altro dato digitale.
Quando parliamo di formati digitali, quindi, ci riferiamo ai vari modi con i quali immagini e suoni possono essere codificati in un file o in un flusso di dati.
Analogamente a quanto avviene nella digitalizzazione dei suoni, la digitalizzazione delle immagini è un fatto concettualmente semplice: L'immagine viene suddivisa in un numero abbastanza grande di rettangolini chiamati pixel, e luminosità e colore di ogni pixel sono codificati in forma numerica. Più grande è il numero dei pixel, maggiore sarà la risoluzione ( ovvero la capacità di riprodurre piccoli dettagli ); più grande è la "parola" che codifica luminosità e colore di ogni pixel (in genere 8, 16, 24 bit ) maggiore sarà la "profondità di colore" ovvero la gamma dei toni riproducibili.
Se prendiamo un'immagine di tipo "bitmap" (suffisso .bmp), ne selezioniamo una piccola parte e andiamo a ingrandirla con un editor per immagini come Paint o Photoshop vedremo chiaramente che è composta da pixel, in questo caso quadrati.
In realtà le immagini presentate in questa pagina HTLM non hanno estensione .bmp ma .gif, dato che questo formato viene sicuramente riconosciuto da tutti i visualizzatori HTLM;
L'immagine a fianco mostra il riquadro "ritagliato" e ingrandito, che è formato da 320 pixel ( 20 x 16, compreso il contorno nero )
Se con un file editor ( ad esempio il freeware Hexplorer ) si apre il file dett.bmp ( in fondo a questa pagina ) si può osservarne facilmente la struttura:
Il file risulta costituito da 986 byte ( un byte è una "parola" da 8 bit che può assumere valori da 0 a 255 ) . I primi 26 byte contengono informazioni sul tipo di immagine e sul numero di righe e colonne di cui è costituita, i successivi 60 byte hanno tutti valore 0 e rappresentano la prima riga di pixel ( il bordo nero in basso);
00 00 00 3A 7E 78 3C 7C 77 3C 77 76 3D 75 78 35 68 70 1C 46 52 20 42 50 29 45 52 29 43 50 18 30 3E 9D B5 C2 D1 E6 F3 CF E3 F0 D3 DC ED CD D6 EA C4 CE F6 77 81 D3 5A 64 DD 00 00 00
0,0,0; 58,126,120; 60,124,119; 60,119,118; 61,117,120; 53,104,112; 28,70,82, 32,66,80; 41,69,82; 41,67,80; 24,48,62; 157,181,194; 209,230,243; 207,227,240; 211,220,237; 205,214,234; 196,206,246; 119,129,211; 90,100,221; 0,0,0;
A fianco sono riportati i 60 valori che rappresentano i 20 pixel della seconda riga (la prima colorata partendo dal basso)
Il primo gruppo di cifre è scritto con notazione esadecimale, così come appare nel text editor, dove ogni coppia di cifre rappresenta il valore di un byte. Il secondo gruppo presenta gli stessi numeri scritti nella più familiare forma decimale. Ogni terna di byte rappresenta il colore di un pixel, per l'esattezza il primo valore rappresenta il blu, il secondo il verde, il terzo il rosso.
Si può così constatare come la prima terna corrisponda al pixel nero ( a sinistra ), nella seconda prevale il verde, nella penultima il rosso, l'undicesima, che rappresenta il pixel più scuro, ha i valori più bassi mentre al quattordicesimo pixel, il più chiaro, corrispondono valori vicini al massimo.
Nell'esempio appena descritto è stata usata la notazione RGB, dove ogni pixel viene descritto da tre numeri, uno per il rosso, uno per il verde e uno per il blu. L'uso di tale sistema è ovviamente collegato al fatto che sui monitor i colori sono resi tramite triplette di fosfori per l'appunto rossi, verdi e blu.
Con semplici operazioni matematiche si può passare facilmente dalla notazione RGB a quella YUV, molto comune nel settore video. Nella notazione YUV, si usano ugualmente tre valori, ove però il primo indica la luminosità totale del pixel (luminanza), il secondo la differenza tra il valore del rosso e il valore della luminanza (R-Y), il terzo la differenza tra il blu e la luminanza (B-Y).
Il fatto di tenere separata l'informazione relativa al colore da quella relativa alla luminosità, unitamente ad alcune caratteristiche della fisiologia dell'occhio, permette di registrare con minore dettaglio la parte dell'informazione relativa al colore, e quindi di ridurre il numero di bit necessari per descrivere l'immagine, senza peggiorarne in maniera apprezzabile la qualità.
Nei formati broadcast (D-1, D-5, DigiBeta, BetaSX, Digital-S, DVCPRO50) le informazioni relative al colore vengono registrate con una frequenza dimezzata rispetto a quella con cui vengono registrati i valori della luminanza, cosa che viene indicata dicendo che la struttura di campionamento del colore è 4:2:2, ovvero che ogni quattro valori della luminanza (Y) vengono registrati due valori di U e di V.
Nei formati DV la frequenza di campionamento delle informazioni relative al colore è un quarto di quella della luminanza. Nell'NTSC si usa il formato 4:1:1 ( ogni quattro valori di luminanza si registrano i valori del colore ) mentre nel PAL e nei DVD i valori del colore vengono registrati ogni due pixel però una riga si e una riga no (4:2:0 - in pratica ogni gruppetto di 4 pixel - 2x2 - viene descritto da 6 valori, 4 relativi alla luminanza di ciascun pixel e 2 che descrivono il colore complessivo del gruppetto).
Dato che il nostro occhio vede i colori con una risoluzione più bassa di quella con cui vede le differenze di luminosità (per il semplice fatto che nella retina le cellule sensibili al colore, i coni, sono numericamente inferiori ai bastoncelli che sono invece sensibili alle variazioni di luminosità) la perdita di informazioni relative al colore non viene praticamente percepita.
Il motivo per cui conviene "comprimere" le immagini digitali, sia statiche che in movimento, è banale: per descrivere delle immagini compresse mi servono meno bit e quindi posso immagazzinarne di più su un dato supporto ( nastro o disco o memoria allo stato solido che sia ) e devo impegnare meno ampiezza di banda per trasmetterle.
Ciò che rende possibile comprimere le immagini senza degradarne molto la qualità è l'intrinseca ridondanza spaziale dell'informazione visiva: "se un pixel ha un certo colore, i pixel vicini con buona probabilità avranno un colore simile"; basta pensare al colore del cielo, al colore di una automobile, di un vestito, ecc.
JPEG è un metodo per la compressione delle immagini fisse i cui fondamenti sono stati poi applicati a molti dei formati digitali sviluppati per le immagini in movimento.
Acronimo di Joint Photographic Expert Group, nome dell'organizzazione che lo ha sviluppato, l'algoritmo di compressione prevede fondamentalmente quattro fasi:
1) l'immagine viene divisa in blocchetti di 8x8 pixel, dove, come abbiamo visto prima, ogni pixel è rappresentato da una tripletta di numeri.
2) su ogni blocchetto di 64 pixel viene applicata una formula matematica ( DCT , Discrete Cosine Transform = trasformata discreta del coseno ) che dà in uscita 64. valori. La DCT opera in maniera analoga alla trasformata di Fourier, descrivendo le variazioni di luminosità da un pixel all'altro in termini di " frequenze spaziali". Applicando la formula inversa, dai 64 coefficienti delle frequenze spaziali è possibile ricostruire integralmente i valori dei 64 pixel di partenza.
3) I coefficienti più bassi ( meno significativi) vengono eliminati. E' in questa fase che avviene l'effettiva compressione dell'immagine.
4) I dati vengono ordinati in modo da poter essere ulteriormente compattati.
Un'immagine jpeg può presentare un rapporto di compressione 1/20 (il file compresso occupa 1/20 dello spazio del file originale ) e risultare di qualità accettabile.
riferimenti:
"JPEG Compression Algorithm and Associated Data Structures" di Mark D. Schroeder -University of North Dakota
www.cs.und.edu/~mschroed/jpeg.html (non più disponibile in rete)
JPEG image compression FAQ di Tom Lane
http://www.faqs.org/faqs/jpeg-faq/part1/
Il formato DV, stabilito da un consorzio dei 10 massimi produttori di attrezzature video, oltre a essere implementato in una ampia famiglia di formati di registrazione su cassetta, rappresenta una struttura di dati, che combina assieme immagini (compresse con rapporto 1/5 con un algoritmo molto simile al jpeg) dati, (time-code, ora e data, altri dati specificati dall'utente) e 2-4 tracce audio.
Nello standard PAL (25 fotogrammi al secondo, formati ognuno da due field interlacciati – vedi immagine televisiva ) il formato DV prevede immagini da 720x576 pixel e audio campionato a 48 kHz oppure a 32 kHz.
riferimenti:
http://rogerjenn.googlepages.com/prosumerdvrecordingformats Consumer and Professional Digital Video (DV) Recording and Data Formats di Roger Jennings - ottimo articolo del 1995 aggiornato negli anni seguenti.
www.adamwilt.com DV, DVCAM, & DVCPRO by Adam Wilt.
Anche AVI,acronimo di Audio Video Interleave, di Microsoft, e QuickTime di Apple sono strutture di dati, in cui però le caratteristiche dell'immagine e dell'audio non sono stabilite a priori ma dipendono dal particolare codec ( il programma codificatore – decodificatore ) che viene utilizzato. Inoltre, Mentre il DV è un flusso di dati che può durare quanto si vuole , .avi è un tipo di file, cioè un insieme di dati di grandezza definita, con una certa struttura, che risiede da qualche parte in una memoria digitale e al quale può essere assegnato un nome.
riferimenti:
www.jmcgowan.com/avi.html John F. McGowan AVI overview ( ricco di informazioni anche approfondite ma abbastanza comprensibili )
http://msdn.microsoft.com/en-us/library/windows/desktop/dd318187(v=vs.85).aspx descrizione del formato AVI sul sito Microsoft
E' possibile ridurre ulteriormente le dimensioni di un file video sfruttando una importante caratteristica dell'immagine in movimento: “salvo casi eccezionali, ogni fotogramma è abbastanza simile a quello che lo precede”.
Sfruttando questa caratteristica sono stati sviluppati diversi schemi di compressione, ma i più importanti sono sicuramente la famiglia degli MPEG , che possono essere sia flussi di dati che files.
Il Moving Picture Experts Group, nato nel 1988 come un gruppo di lavoro all'interno dell'ISO/IEC con l'intento di definire uno standard di compressione di segnali digitali audio-video ha definito tre standard: MPEG-1 e MPEG-4, usati per la diffusione di filmati via internet e su cd, ed MPEG-2 utilizzato per il video di buona qualità, la TV digitale ( terrestre e satellitare ) e i DVD.
L'unità di base dell'MPEG è il GOP (group of pictures) ognuno dei quali è costituito da un fotogramma di tipo 'I' e da vari fotogrammi di tipo 'P' e 'B'.
I frame di tipo 'I' ( intra frame) sono compressi con lo stesso metodo usato nel jpeg e nel DV, ovvero la Discrete Cosine Transform, mentre per quelli di tipo 'P' (Predictive frame) e di tipo B (Bidirectionally-predictive frame ) viene registrata la differenza con il fotogramma 'I' di riferimento.
riferimenti:
Una descrizione molto chiara dell'MPEG, in italiano, utile per comprendere varie problematiche relative al video digitale, si trova su http://www.benis.it/dvd/mpeg/mpeg.htm, di Benedetto Benis
Il formato DVD VIDEO è stato definito alla fine del 1995 da un consorzio di produttori per realizzare un supporto su cui distribuire film e videogiochi. Definisce una struttura formata da diversi file, alcuni dei quali contengono il video vero e proprio ( codificato in MPEG 2 ) altri l'audio (che può essere codificato in vari modi), i sottotitoli e i menù che permettono la navigazione.
riferimenti:
DVD Demystified di Jim Taylor di cui esiste una traduzione in italiano a cura di Pierugo Mazzaccheri.
Può essere interessante dare un'occhiata al sito della Society of Motion Picture and Television Engineers (SMPTE) , uno degli organismi che stabilisce gli standard per cinema e TV.
indice del glossario voce successiva: Gestione dei materiali