Keine Medien-Innovationen, Events und Startups mehr verpassen? Abonniere den Innovation Loveletter des Media Lab Bayern! Will ich haben!

Künstliche Stimmen in der multimedialen Wissensvermittlung

19. Februar 2023

Künstliche Stimmen in der multimedialen Wissensvermittlung

„Ich habe eine Stimme, aber keinen Mund.“ Das ist Siris Antwort auf die Frage „Hey Siri, woher kommt deine Stimme?“. Unsere Gastautorin hat in ihrer Masterarbeit untersucht, was diese Aussage mit dem Einsatz künstlicher Stimmen in der multimedialen Wissensvermittlung zu tun hat.

Ein Gastbeitrag von Sarah Zimmermann

Wie oft hast du dir bei Erklärvideos schon gedacht “Wow, da hab’ ich echt gern zugehört. Das hat Spaß gemacht und da konnte ich mir die Inhalte richtig gut merken.”? Und wie oft war das Gegenteil - “Ich kann nicht zuhören. Ich langweile mich, ich drifte ab, ich kann so nicht lernen.” - der Fall? Ich schätze, sehr oft.

Wie kommt es, dass wir manchen Menschen gut zuhören können und anderen nicht? Klar, da können viele Aspekte mit rein spielen: Ist die Präsentation der Wissensvermittlung im Video ansprechend? Sind die Sätze klar und verständlich? Spricht die Person laut genug? Davon abgesehen trägt auch die Art und Weise, wie die Stimme für den Vortrag eingesetzt wird, zu unserem Lernerfolg bei. Das fängt schon damit an, ob die Stimme gefällt, und endet bei der komplexen Frage: Wie gut eignet sich die Sprechweise, um die Inhalte zu vermitteln?

Was ist Stimme eigentlich?

Ein kurzer Exkurs zu den Grundlagen: Ist Stimme „nur“ die Bewegung unserer Stimmlippen? Ein Ton, den unser Mund, unsere Zunge und andere Muskeln in Form bringen? Oder auch Ausdruck der Persönlichkeit? Ausdruck der Gesundheit vielleicht? Oder auch Ausdruck des Alters?

Die Antwort ist: Stimme ist das alles, und zwar gleichzeitig. Kein Wunder, dass sich Sprechwissenschaftler:innen und Philosoph:innen schon lange mit der Frage nach der Substanz der Stimme beschäftigen. Noch spannender wird es, wenn wir über menschliche Stimmen hinaus denken. Wenn Stimmen Ausdruck von Persönlichkeit oder Körper sind, was bedeutet das dann für künstliche Stimmen? Eine künstliche Stimme, die am Rechner programmiert wurde, hat ja eigentlich keinen Körper. Und eine Persönlichkeit hat sie auch eher nicht - oder doch?

Künstlich oder synthetisch?

Künstlich und synthetisch sind nur einige Beispiele, um nicht-menschliche Stimmen zu beschreiben. Oft werden diese Begriffe synonym benutzt, obwohl sie Unterschiedliches ausdrücken können:

Künstliche oder technische Stimmen erklingen nicht primär durch Vorgänge im Vokaltrakt eines Menschen. Also sind Sprachaufnahmen, auch wenn die Stimme hier technisch verändert bzw. komprimiert wurde, nicht künstlich oder technisch.

Demgegenüber stehen synthetische Stimmen, also Stimmen, die zwar einen menschlichen Input haben, aber eben synthetisiert, also absichtlich verändert wurden. Hierzu zählen zum Beispiel sogenannte Deep Fake Voices. Auf Grundlage von authentischen Audioaufnahmen können hierbei neue Sprechsequenzen erstellt werden.

Wie uns Stimmen beim Lernen unterstützen

Es gibt zahlreiche Forschungsergebnisse, die beschreiben, wie wir die Stimme so einsetzen können, dass sie gezielt die Wissensvermittlung unterstützt. Diese Forschungen beziehen sich dabei häufig auf Radionachrichten. In meiner Masterarbeit konnte ich aber herausarbeiten, dass sich die gewonnenen Ergebnisse auch auf das Lernen mit multimedialen Inhalten übertragen lassen, Lernvideos beispielsweise. Die Details dieser Forschungen gibt es beispielsweise in den Veröffentlichungen der Sprechwissenschaft der Universität Halle nachzulesen. An dieser Stelle genügt ein kleiner Einblick:

> Die Grundlage verständlichen Sprechens ist ein geeigneter Sprechtext.

> Die jeweils neue Information in einer neuen Sprecheinheit ist im Idealfall hervorgehoben, zum Beispiel durch melodische Akzente (also durch eine Bewegung der Sprechmelodie nach oben oder unten) oder durch dynamische Akzente (also durch mehr Druck beim Sprechen).

> Es ist sinnvoll, gedankliche Einheiten sprecherisch auch so umzusetzen. Das bedeutet: Wenn eine logische Sprecheinheit abgeschlossen ist, sollte das akustisch deutlich werden. Das kann zum Beispiel durch die Lösungstiefe (das Absenken der Sprechmelodie zum Ende hin) oder eine Pause umgesetzt werden.

Darüber hinaus spielt die soziale Wirkung der Stimme während der Wissensvermittlung eine große Rolle. Stimmen können mitreißen, langweilen und Assoziationen in uns wecken. Wenn wir Stimmen hören, stellen wir uns die sprechende Person vor, auch wenn wir sie nicht sehen. Ein wichtiger Teilaspekt der sozialen Funktion von Stimme ist die sogenannte Ansprechhaltung:

> Eine gerichtete Ansprechhaltung erkennst du daran, dass du beim Hören das Gefühl hast, angesprochen zu werden.

> Eine ungerichtete Ansprechhaltung erkennst du, wenn das nicht der Fall ist.

Vielleicht ist dir das bei Vorträgen schonmal aufgefallen: Wenn Menschen nur von ihren Notizen ablesen, entsteht für die Zuhörenden keine dynamische Sprechsituation. Das kann unsere Bereitschaft zuzuhören beeinflussen und dazu beitragen, dass wir das neue Wissen weniger aktiv in unser Gedächtnis integrieren. Damit verknüpft ist auch unser Eindruck davon, ob die Person uns überhaupt etwas erklären will oder nicht. Wenn wir merken ‘Hey, ich werde angesprochen, die Person richtet sich an mich und hat Lust, mir etwas zu erklären’, dann sind wir kognitiv aktiviert und können neue Inhalte besser verarbeiten.

Künstliche Stimmen für multimediale Lernprojekte

Wie oben schon angemerkt, spielen all diese lernförderlichen Aspekte auch bei künstlichen Stimmen eine Rolle. Wenn du also eine künstliche Stimme für dein multimediales Lernprojekt suchst, kannst du darauf achten, ob du diese formalen und sozialen Aspekte der Stimme entsprechend beeinflussen kannst.

  • Kannst du einzelne Wörter oder Wortgruppen hervorheben? Klingt der Satz dann noch natürlich?
  • Kannst du Sprecheinheiten voneinander durch Pausen abgrenzen?
  • Merkst du beim Zuhören, dass die Stimme am Ende von Sprecheinheiten merkbar in die Tiefe geht?
  • Klingt die Stimme sympathisch?
  • Fühle ich mich von der Stimme angesprochen?
  • Nimmt mich die Stimme mit und macht sie mir Lust zuzuhören?


In meiner Masterarbeit hat eine Vergleichsgruppe ein Video mit einer künstlichen Stimme gesehen, eine andere Gruppe das gleiche Video mit einer menschlichen Stimme. Auch einige Personen, die die künstliche Stimme hörten, gaben an, sich die Sprecherin leibhaftig vorstellen zu können.

Das bringt uns zum Anfang: Auch wenn Siri (stellvertretend für andere künstliche oder synthetische Stimmen) keinen Mund hat, weckt sie in uns soziale Assoziationen, wirkt emotional. Deswegen sollten wir diese Aspekte von künstlichen und synthetischen Stimmen bei der Auswahl unbedingt berücksichtigen. Sie spielen eine essentielle Rolle in der multimedialen Wissensvermittlung.


Sarah Zimmermann

Sarah Zimmermann studierte Rhetorik, Philosophie und Sprechwissenschaft an den Universitäten in Tübingen und Halle (Saale). Die erfolgreiche Wissensvermittlung und Wissenschaftskommunikation ist der rote Faden durch ihr Studium und wurde zum Thema beider Abschlussarbeiten. In ihrer Masterarbeit untersuchte sie, welchen Einfluss das Gefühl des angesprochen-seins auf die multimediale Wissensvermittlung haben kann und wie man sich diesem Forschungsfeld weiter annähern kann.

Das könnte dich auch interessieren

Mehr Blog