Im Anfang war das Wort – das gesprochene Wort. Das ist in der Geschichte der Menschheit so, aber auch in jedem Menschenleben: Vor dem Schreiben kommt das Schreien.
Schon in der Altsteinzeit vor 2,5 Millionen Jahren haben sich unsere Urahnen mit Lauten verständigt, und ab einem Jahr formulieren Kleinkinder ihren ersten Worte. Zum Vergleich: Schriftzeichen gibt es frühestens seit 6000 Jahren, und erst ab dem sechsten Lebensjahr erlernt man sie heute in der Schule.
«Für die Kommunikation ist Schrift nicht zwingend notwendig», sagt Volker Dellwo (47), Professor für Phonetik am Institut für Computerlinguistik der Universität Zürich. «Deshalb ist für die meisten Menschen das Sprechen intuitiver als das Schreiben.» Und er rechnet vor: Nicht mal die Hälfte aller 6000 Sprachen auf der Welt sei verschriftlicht.
Voice-ID ist der Ausweis der Zukunft
Die Stimme bestimmt unser Leben. Selbst wenn die Alphabetisierungsrate, also die Fähigkeit, lesen und schreiben zu können, gemäss Unesco heute weltweit bei über 80 Prozent liegt, kommunizieren Menschen überwiegend mündlich miteinander – ob zu Hause mit der Familie, im Büro in der Sitzung, am Telefon oder beim Einkauf.
Und die Stimme bestimmt unser Leben heute mehr denn je: Zu Zeiten der Digitalisierung sprechen Menschen zunehmend mit Maschinen, und diese mit ihnen. War das E-Mail ab Ende der 1980er-Jahre eine bequeme schriftliche Variante, um jemanden zu kontaktieren, den man am Telefon nicht sprechen konnte, so nimmt die Bedeutung dieses Kanals allmählich ab.
«Ich antworte via Whatsapp immer mehr mit einer gesprochenen Message, weil das schneller geht», sagt Dellwo. Digitale Geräte können aber nicht bloss Sprachnachrichten speichern, sondern auch erkennen und entsprechend darauf reagieren. Sprachassistenten wie Alexa von Amazon, Siri von Apple, Bixby von Samsung, Cortana von Microsoft oder der Google Assistant sind für manche Nutzer richtige Gesprächspartner.
Digitale Dialog-Teilnehmer haben allerdings grosse Ohren. Die Computersysteme hören nicht bloss den Inhalt, sondern auch Alter, Geschlecht und Herkunft der Person. Die Stimme wird zu einem Ausweis, Stichwort: Voice-ID. Und das ist nicht ganz unproblematisch, denn kluge Programme können mittlerweile Gefühle und psychische oder körperliche Erkrankungen des Sprechers erkennen.
Schnupfen verändert den Klang
Sprich mit mir, und ich sage dir, wer du bist: Immer mehr Firmen machen sich die Tatsache zunutze, dass die Stimme eines Menschen ebenso einmalig und unverwechselbar ist wie ein Fingerabdruck. In der Schweiz setzen Swisscom und Postfinance seit 2016 beziehungsweise 2018 bei ihren Hotlines auf eine Sprecherauthentifizierung.
«Gerade im Zusammenhang mit Finanzinstituten wird viel Geschrei veranstaltet, dass dadurch die Konten nicht mehr sicher seien», sagt Dellwo. «Aber das ist absolut nicht der Fall.» Mit der Spracherkennung erübrige sich die sonst übliche Abfrage persönlicher Daten wie Geburtsdatum oder Wohnadresse. Dellwo: «Es ist ungleich einfacher, diese Angaben von einer Person rauszufinden, als eine Kopie ihrer Stimme zu erstellen.»
Zudem steckt die Sprecherauthentifizierung immer noch in den Kinderschuhen. «Fingerabdruck und Iris weisen weniger Variabilität auf und eignen sich daher besser für die Erkennung», sagt Dellwo. Konkret klingt eine belegte Stimme bei Schnupfen anders. «Die Systeme müssen diese Variabilität besser verstehen, um die Erkennungssicherheit zu erhöhen», so Dellwo.
Die wirkliche Gefahr sei nicht die Imitation, sondern das Synthetisieren einer Stimme, indem man ihre Merkmale einspeise. «Ich könnte so Ihre Stimme nehmen und Sie Sachen sagen lassen, die Sie nie gesagt haben», so Dellwo. «Damit könnte man sogar ein Computermodell überlisten.» Er weist allerdings darauf hin, dass man dazu eine Menge Tonaufnahmen und zwei, drei Tage Arbeit benötige.
Phantombilder zu Stimmen, Stimme eines Phantoms
Lieber konzentriert sich Professor Dellwo auf seine Arbeitsgruppe «Phonetik und Sprachsignalverarbeitung», die es seit gut zwei Jahren am Zürcher Institut für Computerlinguistik gibt. Die Arbeitsgruppe betreibt unter anderem Grundlagenforschung in der Gerichtsmedizin und hilft dem Forensischen Institut der Zürcher Kantonspolizei bei der Aufklärung von Straftaten.
«Heute liegen bei Kriminalfällen sehr oft mündliche Beweise vor», sagt Dellwo. Vor 20, 30 Jahren habe noch kaum jemand ein Aufnahmegerät auf sich getragen, heute sei auf jedem Handy ein solches. Momentan arbeitet man mit Sprechervergleichen, wobei es darum geht, Stimmproben eindeutig einer Person zuordnen zu können. Auf diese Weise konnte die Polizei schon Täter überführen.
Auch wenn ihnen die Praxis recht gibt und die Trefferquote in simulierten Laborversuchen sehr hoch ist, raten Phonetiker davon ab, eine Urteilsbildung nur auf Stimmerkennung zu reduzieren. In einem weiteren Schritt will man deshalb zur Stimme ein Phantombild erstellen, denn jeder menschliche Klang hat anatomische Ursachen und lässt auf eine bestimmte Form des Vokaltrakts – Rachen, Mund- und Nasenraum – schliessen.
«Diese Phantombilder sind eine Zukunftsvision», sagt Dellwo. Ganz und gar gegenwärtig ist dafür der umgekehrte Weg, den Forscher an der Universität Tübingen (D) gegangen sind: Sie entlockten einem Phantom, einem im 3D-Drucker nachgebildeten Vokaltrakt einer gut erhaltenen ägyptischen Mumie, einen Ton, gaben also einem 3000 Jahre alten Priester eine Stimme, wie sie am 23. Januar im Fachmagazin «Scientific Reports» schrieben.
Frauen tönen tiefer als vor 50 Jahren
Das Tonschnipsel klingt ein bisschen wie die englischen Wörter «bed» oder «bad». «Ich finde das Ergebnis sehr interessant, da es veranschaulicht, wie die Stimme dieses Menschen geklungen haben kann», sagt Dellwo. Man dürfe die Ergebnisse jedoch nicht überinterpretieren, da zahlreiche wichtige Stimmmerkmale wie Intonation, Rhythmus oder Sprechgeschwindigkeit durch diese Methode nicht zu rekonstruieren waren.
Stimmen haben zwar anatomische und biografische Ursachen, weshalb etwa Brüder ähnlich klingen können. Aber Dellwo betont: «Die Vorliebe für Stimmen ist wie Mode – die verändert sich mit der Zeit.» So zeigen Studien, dass im deutschsprachigen Raum die Stimmhöhe bei Frauen sehr stark gesunken ist, ohne körperliche Veränderungen: Vor 50 Jahren waren es noch 250 bis 300 Hertz, heute sind es 150 bis 200 Hertz. Es gibt Theorien, die besagen, das habe mit einem männlicheren Auftreten der Frauen zu tun.
Auf der anderen Seite gibt es in Korea den Trend von Frauen zur sogenannten Aegyo-Stimme – sie sprechen dann künstlich hoch, um niedlich und schutzbedürftig zu erscheinen. «Für westliche Ohren klingt das eher absurd oder gar lächerlich und abstossend», sagt Dellwo. «Aber vielleicht müssen in 20 Jahren bei uns auch alle Frauen eine hohe Stimme sprechen, wenn sie attraktiv erscheinen wollen.»
Wie wir auch immer sprechen – weniger wird es nicht. «Wie zukünftig das Verhältnis von Schrift, Podcast und Video sein wird, ist schwer zu sagen», so Dellwo. «Aber ich bin überzeugt, dass wir keinen dieser Kommunikationskanäle verlieren werden, weil es Situationen gibt, in denen der eine gegenüber den anderen beiden deutliche Vorteile hat.» Sagts und schreibt ein E-Mail, in dem er seine Zitate in diesem Artikel freigibt.