RUB » RUBIN » 

Sie sind hier

IT-Sicherheit 2016 » Mensch und Maschine im Internet unterscheiden

Mensch und Maschine im Internet unterscheiden

Audiocaptchas: eine Herausforderung für die Ohren

von Raffaela Römer  

28. April 2016

 

Um Spam zu vermeiden, muss man sich auf zahlreichen Webseiten als Mensch ausweisen, indem man eine schwer erkennbare Zeichenfolge eingibt. Für Sehbehinderte gibt es Audiocaptchas, deren Qualität aber ausbaufähig ist.

In einem speziellen Labor lässt Hendrik Meutzner die verschiedenen Audiocaptchas von Probanden testen. Zusätzliche Testpersonen findet er im Internet auf einer speziellen Crowdsourcing-Plattform.Hendrik Meutzner (links) mit einer Probandin im Akustiklabor. Konzentration ist gefragt, wenn sie die Audiocaptchas verstehen wollen.Dorothea Kolossa leitet die Arbeitsgruppe Kognitive Signalverarbeitung.Viele herkömmliche Audiocaptchas werden von Maschinen besser verstanden als von Menschen. Hendrik Meutzner hat unterschiedliche Audiocaptchas entwickelt, bei denen das anders ist.

Wer im Internet unterwegs ist, kommt an Captchas nicht vorbei. Die kleinen Felder mit den schwer leserlichen Buchstaben- oder Zahlenfolgen sollen dazu dienen, menschliche Internetnutzer von maschinellen zu unterscheiden, wobei Letztere unsere E-Mail-Postfächer mit Spam verstopfen.

Für sehende Menschen ist die Eingabeprozedur einfach nervig. Die Zeichen sind oft so schlecht zu lesen, dass wiederholte und zeitraubende Versuche notwendig sind. Für Sehbehinderte stellt sie jedoch ein echtes Problem dar. Die Lösung sind Audiocaptchas. Dabei hört der Nutzer ein synthetisch erzeugtes und mehr oder weniger verzerrtes Wort oder eine Folge von Ziffern oder Buchstaben, die er anschließend per Tastatur eingeben muss. Als sehendem User fallen einem die Audiocaptchas im Internet bisweilen gar nicht auf. Nicht jede Webseite hat eins, und da, wo sie angeboten werden, verstecken sie sich meist hinter einem kleinen Button, der nicht direkt ins Auge fällt. Doch Audiocaptchas funktionieren häufig schlecht, die verzerrte Sprache ist für Computer ähnlich gut zu verstehen wie für Menschen, wenn nicht sogar besser.

Prof. Dr. Dorothea Kolossa und ihr Doktorand Hendrik Meutzner (Abb.1) beschäftigen sich mit der Entwicklung sicherer Audiocaptchas. Dringen aus Meutzners Büro bisweilen gruselig verzerrte Laute mit viel Nachhall, so darf man sich daher nicht wundern. Immer wieder hört sich der 32-Jährige Audiocaptchas an. Für Ungeübte sind diese oft nur schwer zu verstehen. „Die Herausforderung ist, die Signale so schwierig zu machen, dass die Maschine Probleme damit hat, und gleichzeitig so einfach, dass Menschen die Aufgabe gut lösen können“, sagt Dorothea Kolossa, die die Arbeitsgruppe Kognitive Signalverarbeitung des Instituts für Kommunikationsakustik leitet.

Abb. 1© RUB, Roberto Schirdewahn

Doktorand Hendrik Meutzner und Professorin Dorothea Kolossa analysieren gemeinsam, wo die Unterschiede zwischen menschlicher und maschineller Sprachverarbeitung liegen. Dieses Wissen brauchen sie, um sichere Audiocaptchas entwickeln zu können.

Bei den Maschinen handelt es sich um automatische Spracherkenner. Solche Systeme kennt man zum Beispiel von Navigationsgeräten oder Handys, die sich per Sprachbefehl steuern lassen. „Bei den gängigen Audiocaptchas werden alle Ziffern und Buchstaben auf eine sehr ähnliche Art und Weise ausgesprochen. Das macht es Angreifern einfach, Modelle daraus abzuleiten und Spracherkenner darauf zu trainieren“, erklärt Meutzner.

Um sicherere Captchas zu entwickeln, analysieren er und Dorothea Kolossa, wo die Unterschiede zwischen menschlicher und maschineller Sprachverarbeitung liegen. Dazu gehört auch, dass die beiden sich mit den neurophysiologischen Grundlagen beschäftigen. Sie wollen nachvollziehen, wie das menschliche Gehirn mit eingehenden Sprachsignalen umgeht und wo es der Technik voraus ist. „Es ist zum Beispiel sehr aufschlussreich für uns zu verstehen, wie der Mensch zwei oder mehr gleichzeitig eingehende akustische Signale voneinander trennt“, sagt Dorothea Kolossa. Wenn man sie über beide Ohren präsentiert bekommt, kann der Mensch sogar bis zu fünf gleichzeitig eintreffende Signale auseinanderhalten. Fachleute nennen diesen Effekt auditorisches Streaming. Möglich wird das unter anderem durch die Zeitverzögerung, mit der die Töne an beiden Ohren eintreffen. Außerdem wirkt der zwischen den Ohren liegende Schädel dämpfend, sodass die Lautstärke der Signale an beiden Ohren meist unterschiedlich ist. Um mehr darüber zu erfahren, wie auditorisches Streaming genau realisiert wird, ist Dorothea Kolossa eine Kooperation mit der University of California, Berkeley eingegangen. Die Wissenschaftler betrachten dabei die neuronalen Signale vom Innenohr bis zum auditorischen Kortex.

Bei der Entwicklung neuer Audiocaptchas nutzt Hendrik Meutzner diese menschliche Überlegenheit aus. Eines seiner Captchas präsentiert den Hörerinnen und Hörern eine Folge von Zahlen, wobei sich immer zwei von ihnen teilweise überlagern. Zusätzlich erschwert Nachhall, das Gesprochene zu verstehen. Ein anderes seiner Captchas nutzt das menschliche Sprachverständnis. Es präsentiert dem Hörer eine Folge von Wörtern, von denen manche einen Sinn ergeben und der Rest Kauderwelsch ist. Der Mensch ist in der Lage, die sinnvollen Wörter zu erkennen. Der Maschine fällt das schwer, da sich die Wörter im Spektralbereich stark ähneln (Abb. 2). Bei diesem Captcha lag die menschliche Erfolgsrate bei 60 Prozent im Vergleich zu 14 Prozent bei der Maschine. Bei dem Audiocaptcha, das von einer großen Web-Suchmaschine momentan eingesetzt wird, liegt die Erfolgsrate für den Menschen hingegen bei 24 Prozent. Die Maschine ist ihm mit 63 Prozent Trefferrate haushoch überlegen; das hat Meutzner ebenfalls in eigenen Tests herausgefunden.

Abb. 2© Agentur der RUB, Zalewski

So sieht die Visualisierung des Audiocaptchas aus, bei dem sich sinnige und unsinnige Wörter abwechseln. Der obere Teil der Grafik zeigt die gesprochenen Phoneme als Wellenform, der untere als Spektrogramm. Gesprochen werden die Wörter „Expert“ und „Degree“, jeweils gefolgt von einem sinnlosen Wort.

Um zu prüfen, wie gut seine Captchas für Menschen zu lösen sind, nutzt Hendrik Meutzner zwei Methoden: Zum einen lädt er Probandinnen und Probanden in das institutseigene Audiometrielabor ein und lässt sie die Captchas lösen. Da er für seine Tests aber sehr viele Versuchspersonen braucht, lässt er die Captchas parallel im Internet auf einer speziellen Crowdsourcing-Plattform testen. „Dieses Vorgehen wird immer attraktiver in der Wissenschaft, denn es ist sehr mühsam und zeitaufwendig, Versuchspersonen vor Ort zu finden und die Tests mit ihnen durchzuführen. Auf der Crowdsourcing-Plattform haben wir die Möglichkeit, eine große Zahl von Versuchspersonen vergleichsweise einfach zu rekrutieren“, erzählt Meutzner. Abstriche muss man allerdings in der Qualität der Antworten machen. „Im Labor sind die Probanden einfach konzentrierter und die Rahmenbedingungen wie Ruhe und technisches Equipment sind optimal. Aber die Kombination von beiden Methoden ist für uns ideal.“

Kontakt zum Fachbereich

Prof. Dr. Dorothea Kolossa
Arbeitsgruppe Kognitive Signalverarbeitung
Horst-Görtz-Institut für IT-Sicherheit
Ruhr-Universität Bochum
Tel.: 0234 32 28965
E-Mail: dorothea.kolossa@rub.de

Hendrik Meutzner
Arbeitsgruppe Kognitive Signalverarbeitung
Horst-Görtz-Institut für IT-Sicherheit
Ruhr-Universität Bochum
Tel.: 0234 32 29638
E-Mail: hendrik.meutzner@rub.de

Download hochauflösender Bilder

Markieren Sie die gewünschten Bilder und akzeptieren Sie unsere Nutzungsbedingungen.
Der Download der gewählten Bilder erfolgt als ZIP-Datei.

Nutzungsbedingungen
Die Verwendung der Bilder ist nur im Kontext der Berichterstattung zu
RUBIN – Wissenschaftsmagazin der RUB und unter Angabe der entsprechenden Copyrights für die Presse frei.



Ich akzeptiere die Nutzungsbedingungen.