Jonas Gerding

freier Journalist, Kinshasa

1 Abo und 3 Abonnenten
Artikel

Frauenstimmen in Videokonferenzen: Komprimiertes Charisma

Ist das Netz schlecht, wirken vor allem Frauen in Videokonferenzen weniger charismatisch. Ein Problem, das sich beheben ließe. Nur fühlt sich niemand verantwortlich.


Ist Ihnen schon mal aufgefallen, dass die Stimme der Kollegin in der Videokonferenz manchmal etwas blechern klingt? Die Stimme des besten Freunds beim abendlichen Zoom-Plausch knarzt? Oder beim digitalen Get-Together manche Silben der Moderatorin während der Übertragung verschluckt werden? Der Grund dafür: Für die digitale Übertragung der Stimme müssen Audiodaten komprimiert werden. Und das verändert die Wahrnehmung einer Stimme. Je schlechter das Netz, desto stärker.

Grundsätzlich können gesunde Menschen Frequenzen zwischen 20 Hertz und dem Tausendfachen davon wahrnehmen. Wollte wer die Tonhöhen eines persönlichen Gesprächs vollständig live über das Internet verschicken, bräuchte er Übertragungsraten von 705 Kilobyte pro Sekunde. Üblich für eine ISDN-Verbindung sind jedoch gerade einmal 64 Kilobyte; läuft eine Videokonferenz über ein mobiles Datennetz, dann sind es schon mal noch weniger.


Videokonferenzdienste setzen daher auf eine ausgeklügelte Kompression der Audiodaten, schneiden beispielsweise Höhen und Tiefen ab, verändern das Volumen, die Melodizität und Klangtiefe einer Stimme. Die Verständlichkeit des Gesagten ist das, was für die Entwickler der dafür notwendigen Codierungen vor allem zählt. Das Problem: Wenn wir etwas sagen, kommen beim Gegenüber nicht nur sachliche Informationen an, sondern auch die schon erwähnten kaum wahrnehmbaren Zwischentöne. Werden nun Audiodaten komprimiert, kann es sein, dass das, was wir sagen, ganz anders ankommt. Dass wir weniger empathisch wirken, weniger entschlossen, weniger glaubwürdig. Und von diesem Problem sind, wieder einmal, Frauen stärker betroffen.  


Das hat Ingo Siegert herausgefunden. Er befasst sich an der Universität Magdeburg mit mobilen Dialogsystemen. In mehreren Studien widmet er sich seit Frühjahr 2020 der Frage: Wie wirkt unsere Stimme in Videokonferenzen? Im Januar 2021 hat er mit seinem Kollegen Oliver Niebuhr der University of Southern Denmark erste Ergebnisse dazu veröffentlicht: Bei Videokonferenzen sinkt offenbar das wahrgenommene Charisma – vor allem, wenn die Internetverbindung nicht gut ist (Frontiers in Communication: Siegert, Niebuhr, 2021). 


Für das Experiment haben die Forscher den Testpersonen aufgezeichnete Sätze von Männern und Frauen vorgespielt: einmal in WAV, einer hochwertigen und datenintensiven Codierung ohne große Verluste – und zum Vergleich mit stark komprimierten Versionen, um die in Deutschland leider nicht ganz unüblichen Situationen mit schwachem Netz nachzuahmen. Dafür nutzten sie AMR-WB, MP3, Opus und Speex. Die Probandinnen und Probanden sollten die Aufzeichnungen nach Eigenschaften bewerten, die auf das Charisma einer Person eingehen – unter anderem, ob sie inspirierend, enthusiastisch und attraktiv wirkten. In der Untersuchung fiel das Charisma bei männlichen Sprechern durchschnittlich um 6,5 Prozent, bei weiblichen hingegen um 20 Prozent.


Grundsätzlich sagt Siegert im Gespräch per Video: "Es ist verdammt viel, was da weggenommen wird, verglichen mit einer direkten Unterhaltung." Und wenn bestimmte Frequenzbereiche weggenommen würden, dann verändere sich eben die Wirkung der Stimme. "Es wird nicht darauf optimiert, Charisma zu übertragen."


Dass Männer und Frauen so ungleich wahrgenommen wurden, hat aber selbst Siegert überrascht. Zu Beginn war ihm und seinem Mitforscher unklar, weshalb Frauen mehr Charisma verlieren als Männer. War der Grund vielleicht bei den Hörerinnen und Hörern zu suchen, die männlichen Stimmen eher verzeihen, wenn sie in schlechter Audioqualität daherkommen? Frühere Studien zeigten bereits, dass Menschen tiefere Stimmen oft als attraktiver, kompetenter und vertrauenswürdiger wahrnehmen – Männerstimmen also.

In einer Folgestudie konnten Siegert und Niebuhr das verneinen (Elektronische Sprachsignalverarbeitung 2021: Siegert, Niebuhr, 2021). "Es liegt nicht daran, dass Frauen abgestraft werden, sondern daran, dass wichtige akustische Informationen schlicht nicht da sind", sagt Siegert. Stimmen mangelt es in der Übertragung am sonoren Sound, dem feinen Zittern, weichen oder rauen Eigenschaften. Sie kommen nicht in allen Höhen und Tiefen daher – oder fallen nicht zum Satzende. Und das betrifft Frauenstimmen im besonderen Maße.


Es geht dabei nicht nur um Kleinigkeiten, ein paar Frequenzen hier und da, die fehlen. Charisma zahlt auf den Gesamteindruck einer Person ein. Wer als charismatisch gilt, der wirkt oft auch eher vertrauenswürdig, überzeugend, entschlossen, sympathisch, enthusiastisch oder visionär (zum Beispiel Speech Communication: Rosenberg, Hirschberg, 200916th International Pragmatics Conference: Niebuhr, Wrzeszcz, 2019). Wie wir Stimmen wahrnehmen, kann offenbar sogar einen Einfluss darauf haben, wen wir wählen (Evolution and Human Behavior: Tigue et al., 2012). In einer Zeit wie der Corona-Pandemie, in der immer noch viele Bewerbungsgespräche per Videokonferenz abgehalten werden, Vorträge, vielleicht auch erste Dates, kann es Frauen also benachteiligen, wenn nicht alle Feinheiten ihrer Stimme am anderen Ende ankommen. Und es geht hier nicht nur um die Pandemie: Viele dieser Technologien werden uns wohl auch in Zukunft erhalten bleiben.


Die Ungleichbehandlung von Mann und Frau spiegelt sich immer wieder in Technologielösungen wider. Wenn Googles digitale Spracherkennung die Stimmen von Männern 13 Prozent besser versteht als die von FrauenAmazons Rekrutierungs-Algorithmen männliche gegenüber weiblichen Bewerbungen vorziehen oder eben Frauenstimmen in Videokonferenzen nicht so gut dargestellt werden, steckt dahinter das immer gleiche Muster: "Der Mann ist die Norm", sagt Dorothea Baur.


Die Schweizerin beschäftigt sich mit ethischen Fragen, die neue Technologien aufwerfen. Sie lehrt an der Hochschule für Wirtschaft in Zürich, hält Vorträge und berät Firmen. Oft geht es dabei um den Gender Bias, die Benachteiligung von Frauen. "Gender Bias gibt es nicht erst seit heute", sagt sie. Nicht grundsätzlich und auch nicht im Fall der Darstellung von Stimmen. Baur verweist auf Diskussionen, die es bereits in den Zwanzigerjahren in den USA gab: Die hohen Frequenzen von Radiostimmen wurden einfach abgeschnitten, Moderatorinnen waren dadurch schlechter zu verstehen als ihre männlichen Kollegen. Was zu der Wahrnehmung führte, dass Frauenstimmen schlicht nicht radiotauglich seien. "Daran sieht man, wie verwurzelt der Gender Bias ist", sagt Baur. Die jetzige Diskussion sei die Weiterführung der Diskriminierung von Frauen mit anderen Mitteln.


Stimmt das? Entwickeln Tech-Firmen an den Bedürfnissen von Frauen vorbei – oder sind derlei Probleme bekannt, werden sogar adressiert und brauchen nur etwas Zeit? Das sind Fragen, die vor allem die Anbieter der Videokonferenztools selbst am besten beantworten könnten. Aber an einer Diskussion zeigen die keinerlei Interesse. Die Macher der Videokonferenzlösungen Google Meet und Go To Meeting reagierten gar nicht erst auf eine Anfrage von ZEIT ONLINE. Bei Ciscos Webex, Microsofts Skype und Zoom konnte oder wollte niemand interviewt werden.


Auch die Kommunikationschefin des Unternehmens hinter der Fernsteuerungssoftware Teamviewer erwidert, keinen Kontakt zu den Entwicklern herstellen zu können: "Wir begrüßen natürlich jegliche Verbesserung von Codecs, insbesondere wenn ungewollt Nachteile für bestimmte Personengruppen entstehen", schreibt sie. Aber das Unternehmen würde gar nicht selbst an der Kompression der Audiodaten tüfteln, sondern auf die bekannteste und auch von Siegert getestete Codierung zurückgreifen: Opus.


Dazu muss man wissen, dass Anbieter wie Zoom die Software nicht alleine schreiben, sondern auf Audio-Codierungen anderer setzen. Erarbeitet werden solche Codierungen wie Opus und Speex in Open-Source-Projekten: Jeder und jede kann mitmachen und die Software mitgestalten. Aber weil dies Zeit und Expertise kostet, stellen bei derlei Vorhaben oft Firmen ihre Fachleute ab, um allgemein zugängliche Software voranzubringen, die sie für ihre Produkte nutzen können.


Von den Federführenden will sich jedoch weder jemand von Opus noch von den anderen in der Studie erwähnten Codierungen äußern. Mit einer Ausnahme: Frederik Nagel, Abteilungsleiter im Bereich Audio und Medientechnologie am Fraunhofer IIS in Erlangen. Das Institut hat unter anderem Codierungen entwickelt, die zum Beispiel Netflix einsetzt. Bekannt ist es aber vor allem dafür, dass es maßgeblich an einer Codierung mitgewirkt hat, die man von den ersten tragbaren digitalen Musikabspielgeräten kennt: MP3. 


Siegert hat diese Codierung auch in seiner Studie getestet, mit einer Übertragungsrate von 16 Kilobit pro Sekunde, also einer sehr niedrigen. "MP3 wurde nie für solche Raten entwickelt", sagt Nagel. Wenn Anbieter bei so niedrigen Bitraten Audiodaten übertragen müssten, würden sie auf andere Codierungen setzen, sagt er. MP3 sei deshalb bei Videokonferenztools nicht üblich.


Ohnehin seien die Bitraten im Test ungewöhnlich niedrig, kritisiert er. Tatsächlich kommen Siegerts Erkenntnisse daher, dass er die Stimmen bei niedrigen Übertragungsraten getestet hat. Das ist jedoch kein Fehler der Studie, sondern bewusst gewählt: "Uns ging es gerade darum, die Extrempunkte zu untersuchen", sagt Siegert. "Die Frage war, wie verhalten sich die Codecs bei nicht gerade unüblicher schlechterer Netzverbindung." Mit den Extrempunkten mag er es manchmal etwas zu ernst genommen haben. Für Speex beispielsweise nutzte er nur Bitraten von 3,95 Kilobit pro Sekunde, noch geringere als für MP3. Bei Opus aber, wo Frauenstimmen übrigens am stärksten diskriminiert wurden, testete Siegert jedoch mit einer realistischeren Bitrate von 34 Kilobit pro Sekunde.


Siegert und seine Co-Autoren haben eine Vermutung, warum Frauen im Vergleich zu Männern bei Videokonferenzen an Charisma einbüßen: "Es könnte sein, dass Codierungen für die Audio-Kompression grundsätzlich für männliche Stimmen optimiert sind", schreiben sie in ihrer Studie.


Nagel widerspricht dem im Gespräch mehrfach: Am Fraunhofer-Institut würden Codierungen auch mit weiblichen Stimmen getestet – und nicht nur dort. Denn das sehen auch die für die Branche standardisierten Testverfahren vor. Darüber hinaus seien beim Fraunhofer IIS auch Testhörerinnen ein Muss. 

Und: "Wir gestalten die Teams so divers wie möglich", sagt Nagel über die Entwicklungsabteilungen beim Fraunhofer, wo jedoch nach wie vor mehr Männer als Frauen arbeiten, wie er einschränkt: "Unter den Bewerbungen sind Frauen deutlich unterrepräsentiert. Daran können wir gerade wenig ändern."


Aber Nagel will auch klarstellen, dass das mit der Diskriminierung eigentlich nicht mehr in seinem Verantwortungsbereich liege. Denn das Fraunhofer Institut hält sich an internationale Standards für Audiotests. Und darüber, wie die standardisierten Tests gestaltet sind, entscheidet die International Telecommunication Union (ITU), ursprünglich 1865 gegründet, um Telegrafenmasten zu standardisieren. Mittlerweile ist die ITU eine zwischenstaatliche UN-Agentur, in der vor allem die 193 Mitgliedsstaaten das Sagen haben, aber auch Wissenschaftlerinnen, zivilgesellschaftliche Gruppen und Firmenvertreter mitreden.


Einer, der die Standards mitgestaltet, ist Ludovic Malfait. Er arbeitet eigentlich als Leitender Ingenieur für Mediensysteme bei Dolby Laboratories aus den USA, bekannt für Mehrkanal-Tonsysteme für Kino und Heimkino. Sein Arbeitgeber hat ihn für Tätigkeiten in der ITU-T freigestellt. Das ist die Standardisierungsabteilung der UN-Agentur. Dort ist Malfait Berichterstatter für eine Gruppe, die der Branche vorgibt, wie sie Audiodaten testen soll. Sie definiert nicht nur, ob unter den erprobten Stimmen auch weibliche sein sollen, sondern macht auch Angaben zu Frequenzen, Fragebögen und Bewertungskriterien.


Auf Siegerts Studie angesprochen, wendet Malfait ein, dass sich die Qualität von Daten von Sprechendem zu Sprechendem unterscheide. "Die Branche testet üblicherweise die allgemeine Qualität und das Verständnis mit verschiedenen Sprechenden, um die allgemeine Leistung der Codierungen zu optimieren", sagt er. Er räumt aber ein: "Derzeit gibt es innerhalb der ITU-T keine Arbeit in Verbindung mit der Bewertung von emotionalen Eigenschaften."


Doch selbst wenn ihn die Frage brennend interessieren würde: Die Entscheidung darüber, ob zukünftig auf Charisma getestet wird, sieht er nicht allein bei seinem Team innerhalb der UN-Agentur – sondern in der Unternehmenswelt. "Da die ITU-T von Industriebedürfnissen geprägt ist, müssten neue Aktivitäten in der Frage von den ITU-Mitgliedern vorgeschlagen und unterstützt werden." Sprich: Die Videokonferenzdienste müssten sich Änderungen wünschen, dann kämen sie vielleicht auch.


Womit sich der Kreis zu Zoom und den vielen anderen Anbietern schließt. Die Suche nach der Verantwortung und die Suche nach einer Lösung des Problems erinnern an einen Anruf bei einem Call Center, in dem man von einem Gesprächspartner zum nächsten weitergeleitet wird: Niemand will verantwortlich sein, niemand scheint an einer Lösung interessiert.


Dabei gibt es durchaus Lösungsansätze. Mit Tests, die Charisma berücksichtigten, könnten Entwickler erkennen, wo der Gender Bias liegt – und ihn bestenfalls beheben. Siegert sagt, dass sie sich auch daransetzen könnten, die Audiospuren von Menschen mit Stimmen unterschiedlich hoher Frequenzen zu identifizieren, zu gruppieren und unterschiedlich zu behandeln. Hohe Stimmen, wie sie üblicherweise Frauen haben, würden dann anders komprimiert als tiefe. Gelingt dies, würden weniger jener Audiodaten verloren gehen, die Frauen charismatisch erscheinen lassen. 


Digitalethikerin Baur hält Veränderungen für möglich. Sie stellt einen Vergleich zu Lieferketten in anderen Branchen her. "Dort gibt es eine geteilte Verantwortung, die über die gesamte Wertschöpfungskette hinweggeht." Grundlage dafür ist ein kürzlich vom Bundestag verabschiedetes Lieferkettengesetz. Demnach trägt ein Elektronikkonzern Verantwortung dafür, wenn Zulieferer bei der Förderung von Rohstoffen für Hardware keine ethischen Standards einhalten. Warum sollte das zukünftig nicht auch für Software gelten?




Zum Original