1.3 Prelucrarea audio

Cele două simțuri principale ale omului sunt văzul și auzul. Corespunzător, o mare parte din DSP este legată de procesarea imaginilor și audio. Oamenii ascultă atât muzica, cât și vorbirea. DSP a făcut schimbări revoluționare în ambele domenii.

Muzica

Calea ce duce de la microfonul muzicianului la difuzorul audiofilului este remarcabil de lungă. Reprezentarea digitalăa datelor este importantă pentru a preveni degradarea frecvent asociată cu stocarea și manipularea analogică. Acest lucru este foarte familiar pentru oricine a comparat calitatea muzicală a casetelor cu discuri compacte. Într-un scenariu tipic, o piesă muzicală este înregistrată într-un studio de sunet pe mai multe canale sau piste. În unele cazuri, aceasta implică chiar și înregistrarea individuală a instrumentelor și cântăreților. Acest lucru este făcut pentru a oferi inginerului de sunet o mai mare flexibilitate în crearea produsului final. Procesul complex de combinare a pieselor individuale într-un produs final se numește mix down.DSP poate oferi mai multe funcții importante în timpul mixării, inclusiv: filtrarea, adunarea și scăderea semnalului, editarea semnalului etc.

Una dintre cele mai interesante aplicații DSP în pregătirea muzicii este reverberația artificială. Dacă canalele individuale sunt pur și simplu adăugate împreună, piesa rezultată sună fragilă și diluată, ca și cum muzicienii ar juca în aer liber. Acest lucru se datorează faptului că ascultătorii sunt puternic influențați de conținutul de ecou sau de reverberație al muzicii, care este, de obicei, minimizat în studioul de sunet. DSP permite ca ecourile și reverberațiile artificiale să fie adăugate în timpul mixării pentru a simula diferite medii de ascultare ideale. Ecouri cu întârzieri de câteva sute de milisecunde dau impresia de locații ale catedralei. Adăugarea de ecouri cu întârzieri de 10-20 de milisecunde oferă percepția unor camere de ascultare cu dimensiuni mai modeste.

Generarea de vorbire

Generarea și recunoașterea vorbelor sunt folosite pentru a comunica între oameni și mașini. Mai degrabă decât să folosiți mâinile și ochii, utilizați gura și urechile. Acest lucru este foarte convenabil când mâinile și ochii ar trebui să facă altceva, cum ar fi: conducerea unei mașini, efectuarea unei intervenții chirurgicale. Două abordări sunt utilizate pentru discursul generat de calculator: înregistrarea digitală și simularea tractului vocal. În înregistrarea digitală, vocea unui vorbitor uman este digitalizată și stocată, de obicei într-o formă comprimată. În timpul redării, datele stocate sunt decomprimate și transformate înapoi într-un semnal analogic. O întreagă oră de vorbire înregistrată necesită doar aproximativ trei megaocteți de spațiu de stocare, chiar și în cadrul capabilităților unor sisteme computerizate chiar mici. Aceasta este cea mai obișnuită metodă de generare a discursului digital folosită astăzi.

Simulatoarele tractului vocal sunt mai complicate, încercând să imite mecanismele fizice prin care oamenii creează vorbire. Tractul vocal uman este o cavitate acustică cu frecvențe de rezonanță determinată de dimensiunea și forma camerelor. Sunetul provine din tractul vocal într-una din cele două moduri de bază, numite sunete exprimate și fricative.Cu sunete exprimate, vibrația corzii vocale produce impulsuri aproape periodice de aer în cavitățile vocale. În comparație, sunetele fricative provin din turbulențele zgomotoase ale aerului la constricții înguste, cum ar fi dinții și buzele. Simulatoarele tractului vocal funcționează generând semnale digitale care seamănă cu aceste două tipuri de excitații. Caracteristicile camerei de rezonanță sunt simulate prin trecerea semnalului de excitație printr-un filtru digital cu rezonanțe similare. Această abordare a fost utilizată într-unul dintre primele succese ale DSP, Speak & Spell, un ajutor electronic de învățare pe scară largă pentru copii.

Recunoașterea vorbelor

Recunoașterea automată a discursului uman este mult mai dificilă decât generarea de vorbire. Recunoașterea vorbelor este un exemplu clasic de lucruri pe care creierul uman le face bine, dar computerele digitale o face slab. 1111111 Computerele digitale pot stoca și reapela cantități mari de date, pot efectua calcule matematice la viteze mari și pot efectua sarcini repetitive fără a fi plictisite sau ineficiente. Din păcate, computerele actuale au performanțe foarte slabe atunci când se confruntă cu date senzoriale brute. Invățarea unui computer să vă trimite o factură lunară electrică este ușoară. Învățarea aceluiași computer pentru a înțelege vocea dvs. este o întreprindere majoră.

Procesarea semnalelor digitale abordează, în general, problema recunoașterii vocale în două etape: extragerea caracteristică urmată de potrivirea caracteristicilor. Fiecare cuvânt din semnalul audio este izolat și apoi analizat pentru a identifica tipul de frecvență de excitație și de rezonanță. Acești parametri sunt apoi comparați cu exemplele anterioare de cuvinte vorbite pentru a identifica cea mai apropiată potrivire. Adesea, aceste sisteme sunt limitate la doar câteva sute de cuvinte; poate accepta vorbire numai cu pauze distincte între cuvinte; și trebuie să fie recalificat pentru fiecare vorbitor individual. În timp ce acest lucru este adecvat pentru multe aplicații comerciale, aceste limitări sunt umilitoare în comparație cu abilitățile auzului uman. Sunt multe de făcut în acest domeniu, cu recompense financiare extraordinare pentru cei care produc produse comerciale de succes.

Secțiunea următoare: Ecolocația