Wissen: Wie Computer Sprechen
Published in CHIP Nr. 10 Oktober 1980
-
Seit mehr als 40 Jahren wird an der Erzeugung synthetischer Sprache
gearbeitet. In jungster Zeit haben die Fortschritte der
Halbleitertechnologie erstmals die Moglichkeit eroffnet, die bisher rein
theoretischen Erkenntnisse in kostengunstige Schaltkreise umzusetzen.
Synthetische Sprachausgaben erlauben eine dem Menschen adaquate
Kommunikation mit Computern und Automaten und werden deshalb in
zunehmendem MaBe in der Technik eingesetzt. Zur vollstandigen
Kommunikation auf nahezu naturliche Weise fehlt nur noch die direkte
Spracheingabe. Hier ist das theoretische Verstandnis allerdings noch
nicht so weit ausgereift, wie dies bei der Sprachsynthese bereits der
Fall ist. Heute werden zur Sprachsynthese drei Verfahren verwendet:
Formantsynthese, lineare Pradiktion (LPC) und direkte Digitalisierung.
Ausgangsspannungsverlauf bei einem Wort mit
vokalartigem (stimmhaften) Anfang und stimmlosen Ende
-
Bei der Formantsynthese werden die Resonanzverhaltnisse des menschlichen
Sprechapparates in einem elektronischen Modell nachgebildet. Formanten
sind die akustischen Resonanzfrequenzen. Fur verstandliche Sprache
mussen zumindest die ersten drei Formanten (unterhalb 3 kHz)
nachgebildet werden. Bei stimmhaften Lauten werden steuerbare
Resonanzfilter mit einer Impulsfolge angesteuert, deren Rate der
Sprachgrundfrequenz entspricht.
Fur stimmlose Laute werden die Filter mit weiBem Rauschen angesteuert.
Die zeitlichen variierenden Koeffizienten der Filter kommen
beispielsweise aus einem Festwertspeicher (ROM). Die erforderliche
Datenmenge betragt wenige KBit pro Sekunde des Sprachsignals. Solche
Formantenvokoder konnen sowohl analog als auch mit digitalen
Schaltkreisen aufgebaut sein.
Zeitverlauf eines Sprachsignales fur eine
Mikrofonspannnung
- Bei diesem Verfahren werden mittels Pradiktionen die entsprechenden
Filterkoeffizienten errechnet. Die Synthesizer unterscheiden sich von
den Formantvokodern. Die Sprachqualitat ist proportio zur Anzahl der
Koeffizienten. Mit Datenraten von wenig mehr als einem KBit pro Sekunde
kann recht gute Verstandlichkeit erreicht werden.
Prinzip eines Formantvokoders
- Das einfachste Verfahren zur Speicherung und Wiedergabe von Sprache
ist das direkte Digitalisieren von elektronischen Signalen, weiche z.B.
von einem Mikrofon kommen. Bei digitalen Telefonsystemen wird die
Sprache auf 3,4 kHz bandbegrenzt, mit 8 kHz abgetastet und in einem
nichtlinearen Analog Digital Wandler in ein 8bit Datenwort umgesetzt.
Hierbei entsteht eine Datenrate von 8 kHz .8 bit = 64 Kbit/s. Um z.B.
einen Wortschatz mit 20 Worten von zusammen etwa 20 s. Dauer zu
speichern, benotigt man 20 s. 64 bit/s = 1280 Kbit Speicherplatz.
Um diesen immensen Speicherbedarf zu reduzieren, mussen verschiedene,
teilweise sehr aufwendige Verfahren zur Datenreduktion und
Redundanzminimalisierung angewendet werden. Mit Hilfe von
Computerprogrammen im 'Off line' Betrieb kann die Datenrate in die
GroBenordnung von 1,5 Kbit/s gebracht werden. Dieses Prinzip wird auch
beim Sprachgenerator UAA 1003 verwendet.
Spektren verschiedener Vokale
- Der Sprachgenerator UAA1003 von Intermetall (Freiburg) ist die erste
Einchipschaltung fur voll digitalisierte synthetische Sprachausgabe.
Dieser Baustein hat einen Wortschatz von etwa 25 Worten, weiche zu
verschiedenen Satzen verknupft werden konnen. Durch die Kombination
mehrerer komplizierter Verfahren zur Datenreduktion und
Redundanzminderung ist es gelungen, die erforderlichen Speicher,
Steuerung, Dekodierung und DigitalAnalog Wandler auf einem einzigen
MOSChip unterzubringen.
Der Baustein UAA1003 1 ist fur die Ansage der Uhrzeit in deutscher
Sprache programmiert. Dieses IC wandelt die von der Uhr im Siebensegment
Kode empfangene Zeitinformation in Sprache um. AuBerdem wird ein
Weckton erzeugt. Die Version UAA1003 2 ist fur die Zeitansage in
Franzosisch und die Version UAA1003 3 fur die Zeitansage in Englisch
programmiert.
Blockschaltbild des Sprachgenerators UAA1003
- Sobald der Sprachgenerator uber den Start Eingang aktiviert wird,
werden die Zustande der angeschlossenen Anzeigen Segmente in ein Latch
(einfacher Speicher) ubernommen. Das Dekoder ROM erkennt die zu dieser
Uhrzeit gehorende Wortfolge und gibt sie seriell an das Wortparameter
ROM. Hier sind den einzelnen Worten zugeordnete Steuerdaten gespeichert,
welche die Adressierlogik veranlassen, die benotigten Sprachpartikel
aus dem Sprachdaten ROM an den Daten Regenerator zu senden. Nachdem in
diesem die zeitlichen Verlaufe der Sprachsignale rekonstruiert wurden,
wandelt der DigitalAnalog Wandler diese in das analoge Ausgangssignal
um, das gefiltert, verstarkt und dann dem Lautsprecher zugefurhrt wird.
- Die Speicherung und Rekonstruktion der Sprachsignale geschieht im
UAA1003 voll digital. Die Datenerfassung geht von der naturlich
gesprochenen Aufnahme des erwunschten Wortschatzes aus. Der speicherbare
Wortschatz hat rund 20 s. Dauer. Wahlt man eine Bandbegrenzung auf 4
kHz, so benotigt man eine Abtactfrequenz von mindestens 8 kHz. Bel einer
Amplituden Quantisierung von 8 bit ergibt sich elne Datenrate von 64
Kbit/s. Fur 20 s. Sprache wird der Speicherbedarf somit 1,28 Mbit.
Verlauf des Formantenfrequenzen wahrend eines Wortes
- Im UAA1003 stehen aber als datenspeicher nur 25 Kbit zur Verfugung.
Daraus resultiert eine notige Datenreduktion im Verhaltnis von 50 :1.
Diese starke Reduktion wurde durch die Kombination verschiedener
Verfahren zur Datenreduktion und Redundanzminderung erreicht. Die
Sprachvorlage wird bandbegrenzt, digitalisiert und in den
Arbeitsspeicher eines ProzeBrechnersystemseingelesen. Diese Daten werden
dann 'offline' verarbeitet.
Die Naturlichkeit der Sprache wird dabei durch Beseitigung der
prosodischen Informationsanteile (Betonung, Grundfrequenzschwankungen
usw.) beeintrachtigt, nicht aber die relevante Sprachinformation. CHIP
- RDjan2001 NLnet, posted Tripod US june 2001
|
|