Miscellaneous‎ > ‎

UAA1003 (in German)

Wissen: Wie Computer Sprechen



Published in CHIP Nr. 10 Oktober 1980


  • Seit mehr als 40 Jahren wird an der Erzeugung synthetischer Sprache gearbeitet. In jungster Zeit haben die Fortschritte der Halbleitertechnologie erstmals die Moglichkeit eroffnet, die bisher rein theoretischen Erkenntnisse in kostengunstige Schaltkreise umzusetzen. Synthetische Sprachausgaben erlauben eine dem Menschen adaquate Kommunikation mit Computern und Automaten und werden deshalb in zunehmendem MaBe in der Technik eingesetzt. Zur vollstandigen Kommunikation auf nahezu naturliche Weise fehlt nur noch die direkte Spracheingabe. Hier ist das theoretische Verstandnis allerdings noch nicht so weit ausgereift, wie dies bei der Sprachsynthese bereits der Fall ist. Heute werden zur Sprachsynthese drei Verfahren verwendet: Formantsynthese, lineare Pradiktion (LPC) und direkte Digitalisierung.

Ausgangsspannungsverlauf bei einem Wort mit vokalartigem
(stimmhaften) Anfang und stimmlosen Ende

  • Formantsynthese:

  • Bei der Formantsynthese werden die Resonanzverhaltnisse des menschlichen Sprechapparates in einem elektronischen Modell nachgebildet. Formanten sind die akustischen Resonanzfrequenzen. Fur verstandliche Sprache mussen zumindest die ersten drei Formanten (unterhalb 3 kHz) nachgebildet werden. Bei stimmhaften Lauten werden steuerbare Resonanzfilter mit einer Impulsfolge angesteuert, deren Rate der Sprachgrundfrequenz entspricht. Fur stimmlose Laute werden die Filter mit weiBem Rauschen angesteuert. Die zeitlichen variierenden Koeffizienten der Filter kommen beispielsweise aus einem Festwertspeicher (ROM). Die erforderliche Datenmenge betragt wenige KBit pro Sekunde des Sprachsignals. Solche Formantenvokoder konnen sowohl analog als auch mit digitalen Schaltkreisen aufgebaut sein.

Zeitverlauf eines Sprachsignales fur eine Mikrofonspannnung

  • Lineare Pradiktion (LPC)

  • Bei diesem Verfahren werden mittels Pradiktionen die entsprechenden Filterkoeffizienten errechnet. Die Synthesizer unterscheiden sich von den Formantvokodern. Die Sprachqualitat ist proportio zur Anzahl der Koeffizienten. Mit Datenraten von wenig mehr als einem KBit pro Sekunde kann recht gute Verstandlichkeit erreicht werden.

  • Direkte Digita1isierung

Prinzip eines Formantvokoders

  • Das einfachste Verfahren zur Speicherung und Wiedergabe von Sprache ist das direkte Digitalisieren von elektronischen Signalen, weiche z.B. von einem Mikrofon kommen. Bei digitalen Telefonsystemen wird die Sprache auf 3,4 kHz bandbegrenzt, mit 8 kHz abgetastet und in einem nichtlinearen Analog Digital Wandler in ein 8bit Datenwort umgesetzt. Hierbei entsteht eine Datenrate von 8 kHz .8 bit = 64 Kbit/s. Um z.B. einen Wortschatz mit 20 Worten von zusammen etwa 20 s. Dauer zu speichern, benotigt man 20 s. 64 bit/s = 1280 Kbit Speicherplatz. Um diesen immensen Speicherbedarf zu reduzieren, mussen verschiedene, teilweise sehr aufwendige Verfahren zur Datenreduktion und Redundanzminimalisierung angewendet werden. Mit Hilfe von Computerprogrammen im 'Off line' Betrieb kann die Datenrate in die GroBenordnung von 1,5 Kbit/s gebracht werden. Dieses Prinzip wird auch beim Sprachgenerator UAA 1003 verwendet.

Spektren verschiedener Vokale

  • Sprachgenerator UAA1003

  • Der Sprachgenerator UAA1003 von Intermetall (Freiburg) ist die erste Einchipschaltung fur voll digitalisierte synthetische Sprachausgabe. Dieser Baustein hat einen Wortschatz von etwa 25 Worten, weiche zu verschiedenen Satzen verknupft werden konnen. Durch die Kombination mehrerer komplizierter Verfahren zur Datenreduktion und Redundanzminderung ist es gelungen, die erforderlichen Speicher, Steuerung, Dekodierung und DigitalAnalog Wandler auf einem einzigen MOSChip unterzubringen. Der Baustein UAA1003 1 ist fur die Ansage der Uhrzeit in deutscher Sprache programmiert. Dieses IC wandelt die von der Uhr im Siebensegment Kode empfangene Zeitinformation in Sprache um. AuBerdem wird ein Weckton erzeugt. Die Version UAA1003 2 ist fur die Zeitansage in Franzosisch und die Version UAA1003 3 fur die Zeitansage in Englisch programmiert.

Blockschaltbild des Sprachgenerators UAA1003

  • Sobald der Sprachgenerator uber den Start Eingang aktiviert wird, werden die Zustande der angeschlossenen Anzeigen Segmente in ein Latch (einfacher Speicher) ubernommen. Das Dekoder ROM erkennt die zu dieser Uhrzeit gehorende Wortfolge und gibt sie seriell an das Wortparameter ROM. Hier sind den einzelnen Worten zugeordnete Steuerdaten gespeichert, welche die Adressierlogik veranlassen, die benotigten Sprachpartikel aus dem Sprachdaten ROM an den Daten Regenerator zu senden. Nachdem in diesem die zeitlichen Verlaufe der Sprachsignale rekonstruiert wurden, wandelt der DigitalAnalog Wandler diese in das analoge Ausgangssignal um, das gefiltert, verstarkt und dann dem Lautsprecher zugefurhrt wird.

  • Datenerfassung

  • Die Speicherung und Rekonstruktion der Sprachsignale geschieht im UAA1003 voll digital. Die Datenerfassung geht von der naturlich gesprochenen Aufnahme des erwunschten Wortschatzes aus. Der speicherbare Wortschatz hat rund 20 s. Dauer. Wahlt man eine Bandbegrenzung auf 4 kHz, so benotigt man eine Abtactfrequenz von mindestens 8 kHz. Bel einer Amplituden Quantisierung von 8 bit ergibt sich elne Datenrate von 64 Kbit/s. Fur 20 s. Sprache wird der Speicherbedarf somit 1,28 Mbit.

Verlauf des Formantenfrequenzen wahrend eines Wortes

  • Im UAA1003 stehen aber als datenspeicher nur 25 Kbit zur Verfugung. Daraus resultiert eine notige Datenreduktion im Verhaltnis von 50 :1. Diese starke Reduktion wurde durch die Kombination verschiedener Verfahren zur Datenreduktion und Redundanzminderung erreicht. Die Sprachvorlage wird bandbegrenzt, digitalisiert und in den Arbeitsspeicher eines ProzeBrechnersystemseingelesen. Diese Daten werden dann 'offline' verarbeitet. Die Naturlichkeit der Sprache wird dabei durch Beseitigung der prosodischen Informationsanteile (Betonung, Grundfrequenzschwankungen usw.) beeintrachtigt, nicht aber die relevante Sprachinformation. CHIP
  • RDjan2001 NLnet, posted Tripod US june 2001
Comments