Was leistet die Sprachsteuerung ?

Stand der Technik bei Navigationsgeräten

Der Navi-Hersteller TomTom bietet ab sofort ein neues Oberklasse-Gerät mit kostenlosen Kartenupdates über drei Jahre an. Das Go Live 1015 HDT&M ist mit einem kapazitiven Touchscreen mit einer Diagonale von 13 Zentimetern (5 Zoll) ausgestattet. Zur weiteren Ausstattung gehören eine Bluetooth-Freisprechfunktion und Sprachsteuerung, Fahrspur- und Parkassistent, tageszeitabhängige Routenführung sowie die Ansage von Straßennamen. Eine neue Halterung soll das Gerät fest an seinem Platz an der Windschutzscheibe halten. Mehr bei www.mobile-next.de ... Navi-Vergleich bei www.chip.de ... Meinungen zu diesem Gerät: www.idealo.de ...

Fahrspurassistent

Ein schönes, technisches Spielzeug, manchmal auch wirklich nützlich! In heutigen Navigationsgeräten stecken mehr als 10 Jahre Entwicklungsarbeit. Inzwischen ist auch das billigste Navi ausreichend mit Karten versorgt und in der Lage, eine Route zu berechnen und den Fahrer zum Ziel zu bringen. Schwerpunkte heutiger Entwicklungen sind die Ergonomie der Bedienung und nützliche Funktionen, die das Navigieren ergänzen.

Vorteile

Sehr empfindlicher GPS-Empfänger
Permanenter Internet-Zugang inclusive
Kostenlose Updates der Karten und des Systems für drei Jahre
Sehr detaillierte Europa-Karten, selbst getestet in Italien und Korsika
Fahrspurassistent (Standbild für unübersichtliche Kreuzungen/Abbiegungen, s.o.)
Sprachsteuerung ...!
POI = Sonderziele wie z.B. Tankstellen, Parkplätze und Hotels (augmented reality)
Wahlweise 2D- oder 3D-Ansicht der Karte
Warnungen via Internet 50 Km im Voraus vor Staus, Unfällen und Baustellen
Synchronisation mit einem Smartphone via Bluetooth: Freisprecheinrichtung
Gut durchdachte Halterung an der Windschutzscheibe

Nachteile

Falsche Warnung bei Geschwindigkeitsüberschreitung: Karten nicht aktuell
Button Sonderziel (POI) falsch im Menü eingeordnet:
Versteckt unter "Route ändern" / "Ziel ändern" - Unmöglich!
Nur eine deutsche Stimme für die Sprachsteuerung (Yannick)
Update nicht automatisch via Internet, sondern über PC-Anschluss
Eingabe "Ortsname, Stadtzentrum" ist möglich, "Ortsname, Hafen, Bahnhof o.ä." wäre wünschenswert

Navigieren mit Sprachsteuerung

Diese Sprachsteuerung ist eine Befehlssteuerung. Das System erkennt keine Sätze, sondern nur vorgegebene Befehle. Beispiel: "Ton aus", "Lauter", "Navigiere zu einer Adresse" usw. Ungefähr 50 solcher Befehle sind vorgegeben und müssen vom Benutzer gelernt werden. Die Toleranz des Systems ist sehr gering. "Navigiere zu Adresse" wird beispielsweise nicht akzeptiert. Deswegen muss das System nach jedem Befehl nachfragen und erwartet eine Bestätigung (Ja oder Nein). Bei Orts- und Strassennamen werden zur Sicherheit Alternativen zur Auswahl angezeigt. Das System muss (leider) auch vor jeder Spracheingabe durch einen Touch auf den Bildschirm aktiviert werden, weil es durch die Umgebungsgeräusche (Gespräche, Radio ...) irritiert wird.

Beispiele für TomTom Sprachbefehle

Wichtig ist auch die Länge und Menge der Ansagen. Manche Nutzer bevorzugen knappe Hinweise, andere wollen ausführlicher informiert werden. Solche Unterschiede sind bei diesem System an einstellbare Stimmen gekoppelt. Leider gibt es bisher für die deutsche Version zwar drei unterschiedliche Stimmen (Lisa, Werner und Yannick), aber nur eine (ausführliche) ist eine "Computerstimme" (Yannick) und kann für die Sprachsteuerung verwendet werden. Das ist gegenwärtig noch ein wirklicher Nachteil.

Obwohl man hier erst von rudimentärer Sprachsteuerung sprechen kann wird in der Praxis aber deutlich, wie nützlich bereits eine unausgereifte Sprachsteuerung sein kann: Schneller als über die Sprachsteuerung kann man keine Position als Favorit kennzeichnen, den Wetterbericht anfordern oder die auf langen Strecken sinnlosen und deshalb nervigen Ansagen aus- und einschalten.

Siri von Apple

Siri (Akronym von Speech Interpretation and Recognition Interface) ist eine Software von Apple, die der Erkennung und Verarbeitung von natürlich gesprochener Sprache dient und so Funktionen eines persönlichen Assistenten erfüllen soll. Die Sprachdaten werden bei bestehender Internetverbindung an einen Apple-Server übertragen, dort verarbeitet und das Ergebnis an das Endgerät zurückgemeldet. Das Vorläuferkonzept stammt ursprünglich von der gleichnamigen Siri Inc., die Apple im Jahr 2010 übernommen hatte.

Siri war in iOS 5 ausschließlich für das iPhone 4S verfügbar. Auf allen Apple-Geräte mit iOS 6 ist Siri jetzt auch Nutzbar (iPad, iPhone und iPpod toach).

Das Programm kann als persönlicher Assistent agieren, indem es auf Fragen des Nutzers passende Antworten liefert oder Kommandos ausführt, die sonst eine manuelle Eingabe erfordern. Der besondere Nutzen liegt also darin, das Gerät mit der Siri-Software ohne Augenkontakt für komplexere Aufgaben bedienen zu können. Um Siri zu aktivieren, wird zu Beginn der Home-Knopf gedrückt und kurz gehalten. Danach reagiert Siri auf Zurufe, die in der Folge beispielsweise Anrufe zu Personen im Telefonbuch aufbauen, Kalendereinträge vornehmen, Erinnerungen zu Veranstaltungen oder Gedächtnisstützen aufnehmen kann. Mehr bei http://de.wikipedia.org ...

Beispiele für Siri-Sprachbefehle - Auszug aus der Siri-Liste

Die "Siri-Liste" zeigt, dass bestimmte kurze Sätze wie Sprachbefehle behandelt werden. Allerdings sind deutlich zwei unterschiedliche Klassen von Befehlen zu unterscheiden: "Wie ist der Schlusskurs von X gestern?" ist eine Anfrage, die mit einer Zahl (mit eineindeutigen Daten) zu beantworten ist (s.o., rechts). Das gilt auch für den Satz "Mach ein Foto". Eine grundsätzlich andere Qualität haben Anfragen wie beispielsweise "Erzähle mir einen Witz" (s.o., links). Hier gibt es viele Antwortmöglichkeiten und das System muss sich für eine (die richtige!) entscheiden und u.U. nachfragen.

Der Unterschied zwischen Siri und TomTom besteht darin, dass für Siri im Hintergrund eine Datenbank vorhanden sein muss, um Anfragen der zweiten Klasse von Befehlen bedienen zu können. Die dritte Klasse von Anfragen wird derzeitig von keinem System beherrscht: "Sollte man menschliche Zellen klonen?"

Siri ist besser als die Sprachsteuerung von TomTom. Aber Siri ist in der deutschen Sprache längst nicht so gut wie in English, die Fehlerhäufigkeit ist hoch. Siri befindet sich erst in der Startphase. Heute kann man sich damit viel eher amüsieren, als dass Siri als zuverlässiger Assistent fungiert.

Facit Sprachsteuerung

Wie die Beispiele TomTom und Siri zeigen, steckt die Sprachsteuerung heute noch sehr in den Anfängen. Von der "Interpretation" gesprochener Sätze durch eine Software kann heute noch nicht die Rede sein. Siri ist komplexer und auch besser als TomTom, aber auch Siri ist nicht mehr, als eine komfortable Befehlssteuerung. Der Aufwand dafür ist sehr hoch, die Decodierungssoftware steckt nicht im Gerät, sondern in den Servern bei Apple.

Heute funktioniert die Umcodierung von Sprache in Schrift (Spracherkennung) für einzelne Worte zufriedenstellend und mit einer Zuverlässigkeit von 98 bis 99 Prozent (Diktiersoftware). Das gleiche gilt für die Zuordnung von decodierten Befehlen zu den zugehörigen Aktionen. Allerdings steigt dabei die Fehlerrate deutlich an. Massive Probleme aber bereitet die Erkennung nicht gelernter, ganz normale Sätze und vor allen Dingen die Beantwortung dieser Sätze! Hier liegt der Hund noch lange begraben ...

Genau dieses Frage-Antwort-Spiel auf menschlichem Niveau ist Voraussetzung für die intelligente Mensch-Maschine-Kommunikation. Heutige Sprachsteuerungen sind nicht mehr als Befehlssteuerungen. Das gilt auch für Siri, denn die Reaktionen von Siri auf komplexe Fragen sind vorprogrammiert und dienen nur zur Erheiterung. Das hat mit Kommunikation sehr wenig zu tun. Ein Gag, mehr nicht. Aber gerade bei Siri wird deutlich, wo das Problem liegt:

Maschinen können heute nicht Sprache, sondern nur einzelne Worte verstehen. Die Struktur von Sätzen, also den kompletten Informationsgehalt, verstehen sie nicht. Noch grösser aber sind die Schwierigkeiten, auf einen einfachen Satz in menschlicher Sprache "angemessen" zu antworten. Dafür müsste die Software auf eine Datenbank zugreifen, die das menschliche Wissen repräsentiert und die Urteilskraft des Menschen nachbildet. Ob das je gelingen kann, ist sehr fraglich.

Trotz grosser Einschränkungen sind die heute vorhanden Sprachsteuerungen bereits sehr nützlich, wie man beispielsweise bei den Navigationsgeräten sieht. Hier liegt ein grosses Entwicklungspotential. Deshalb sind zunehmend Anwendungen in vielen Bereichen der IT-Technik zu beobachten (Browser, TV, Auto usw.).

Wie intelligent Sprachsteuerungen in den nächsten 10 Jahren werden können, ist sehr schwer abzuschätzen. Ich bin skeptisch, dass mehr als die Verbesserung der Zuverlässigkeit der Befehlssteuerung in diesem Zeitraum erreichbar ist. Aber auch am Beispiel der heute noch rudimentären Sprachsteuerung sieht man, wie weit weg die gegenwärtige Technik noch von intelligenten Maschinen ist. Auch die Sprache erweist sich als viel komplexer, als man sich je hat vorstellen können. Sprache ist und erfordert Intelligenz! Perfekte Sprachsteuerung ist identisch mit KI und gleichzeitig Voraussetzung für die intelligente Mensch-Maschine-Kommunikation.

Perfekte Kommunikation zwischen Mensch und Maschine mit der natürlichen Sprache wäre eine neue technische Revolution. Alle anderen Eingabegeräte wären überflüssig: Maus, Tastatur, Touch usw. Aber daran ist heute höchstens in ersten Ansätzen zu denken.

Nachrichten zur Sprachsteuerung

Textroboter

In der schwedischsprachigen Wikipedia hat fast die Hälfte der dortigen Artikel ein Textroboter mit dem Autorennamen Lsjbot generiert. Die Software durchsucht verschiedene Online-Quellen, sammelt Daten und produziert daraus Texte, die in das Wikipedia-Format passen. Und die Roboter, kurz Bots, schreiben eifrig: Jetzt gab Wikipedia bekannt, dass sie just den Millionsten Artikel veröffentlicht hat. Den Text, der diese Marke geknackt hat, hat ein Textroboter erstellt. Darin behandelt er die Schmetterlingsart "Erysichton elaborata":

Auf Deutsch übersetzt sähe der gesamte Artikel seinen Angaben zufolge wie folgt aus: "Erysichton elaborata ist eine von Lucas 1900 beschriebene Motte. Erysichton elaborata ist in der Gattung Erysichton und der Familie der Bläulinge enthalten. Es sind keine Unterarten aufgelistet. Es wird diskutiert, ob es sich um eine eigene Art handelt oder ob sie eine Unterart von Erysichton palmyra ist." Mehr bei www.sueddeutsche.de ...

23.06.2013 15:46

Links zu Sprachsteuerung

App Indigo: Sprachsteuerung für Windows Phone und Android www.gulli.com ...

„Siri Eyes Free“: Siri Auto steckt im Stau www.techfieber.de ...

Google revolutioniert die Spracheingabe www.oe24.at ... (Übertrieben optimistisch!)

Siri, der persönliche Sprachassistent http://de.wikipedia.org ...

Fragen und Antworten zu Siri www.apple.com ...

Die grosse Siri-Liste www.my-restore.com ...

Siri kontert bei zu langen Fragen www.apfelpage.de ...

Dragon NaturallySpeaking, Diktiersoftware www.nuance.de/

Welche Handy-Sprachsteuerung gehorcht am besten? www.welt.de ...

Sprachsteuerung für Chrome 25 www.heise.de ...

Sprachsteuerung: Was folgt nach Siri & Co? www.chip.de ...

Literatur zur Spracherkennung www.heise.de ...

Jürgen Albrecht, 17. Mai 2013
update: 18.08.2014

BACK