München / Regensburg / Neubiberg. Lust auf leckere Zitronen-Muffins oder lieber was Deftiges wie Rindsrouladen? „Mykie“ (My kitchen elf) projeziert das passende Rezept flink auf die Fliesenwand. Und obendrein sagt der elektronische Küchenhelfer vom Hausgeräte-Hersteller BSH in München die nötigen Arbeitsschritte auf.

Das Besondere: Der kleine Roboter mit den Zwinkeraugen kann hören, sprechen und ist vernetzt mit weiteren Geräten im Haus: Im Kühlschrank „schaut“ er nach, ob alle Zutaten da sind, und er heizt schon mal den Backofen vor. Zwischendurch beantwortet er Fragen nach dem Wetter – oder ob der Wäschetrockner im Keller schon fertig ist. Die acht eingebauten Mikrofone verstehen, wonach sich der Mensch erkundigt.

Noch gibt es von Mykie nur wenige Exemplare. Doch die Entwickler von BSH loten damit aus, was im vernetzten Heim künftig alles möglich ist.

Plaudern statt Knöpfe drücken: Sprachsteuerung ist praktisch, um elektronische Geräte zu bedienen. Nicht nur zu Hause in der Küche, auch unterwegs hilft sie, dass sich Menschen und Maschinen immer besser verstehen. Die Technik entwickelt sich rasch. Das zeigt ein Blick auf das Mobiltelefon. Es ist das von vielen Menschen am meisten genutzte elektronische Gerät. Schon jeder zweite Besitzer bedient sein Smartphone per Stimme, wie eine Befragung des Digitalverbands Bitkom ergab.

„Die Software ist inzwischen so ausgereift, dass selbst komplexe Befehle oder Fragen gut verstanden, ausgeführt und beantwortet werden“, sagt Bitkom-Hauptgeschäftsführer Bernhard Rohleder. Bekannte anrufen, Textnachrichten verfassen und das Internet nach Wettervorhersagen oder Fußballergebnissen durchforsten, das machen die Deutschen laut Umfrage per Spracheingabe am liebsten.

Das klappt schon ziemlich gut – auch wenn digitalen Assistenten wie „Siri“, „Cortana“, „Alexa“ und Co. gewollt oder ungewollt noch manche witzige Antwort entschlüpft. Experten glauben an die Technik: Noch 2017 dürften Computer zum ersten Mal gesprochene Worte genauso gut verstehen wie Menschen, meldete etwa der amerikanische Elektronik-Branchenverband CTA zu Jahresbeginn. 2013 lag die Fehlerquote der Spracherkennung noch bei 23 Prozent.

Mit Elektronik, die auf Zuruf reagiert, lassen sich heute schon viele vernetzte Geräte steuern. Die nötige Technik liefert beispielsweise der Münchner Chiphersteller Infineon. Man kombiniert Radarsensoren und Silizium-Mikrofone, was die Genauigkeit der Spracherkennung noch deutlich erhöht.

Bisher machte vor allem lautes Stimmengewirr es den Programmen schwer, Anweisungen eindeutig zu erkennen, denn die Software „hört“ immer auf das lauteste Geräusch im Raum. Auch Lärm von draußen, Husten oder ein laufendes Fernsehgerät störten den Empfang. „Die Kombination von Radar und Mikrofon macht Spracherkennung so präzise, dass sie Stimmen auch in schwierigen Situationen fehlerfrei erkennen kann“, so Fabian Schiffer, ein Sprecher von Infineon. Und so funktioniert die Technik, an der das Unternehmen tüftelt: Der Radarchips tastet permanent den Raum ab und ermittelt, wer gerade spricht. Die Mikrofone werden dann automatisch auf diese Person ausgerichtet und „folgen“ ihr. Dafür entwickelte der Münchner Chiphersteller spezielle Sensoren und Mikrofone. Beide werden in Regensburg in der Oberpfalz gefertigt.

Neben Sprache werden zudem Gesten zur Steuerung vernetzter Geräte eingesetzt. Auch hier treibt Infineon seine Forschungen mit Hochdruck voran. Gemeinsam mit Partner Google entwickelt man die Steuerung per Fingerzeig weiter, in der jede Menge Mikroelektronik aus Bayern verbaut wird. Ziel ist die Erstellung eines ganzen Gesten-Alphabets, mit dem man zum Beispiel TV-Geräte leichter bedienen kann.

Auch Lichttechnik-Hersteller Osram widmet sich mit seiner Tochter Opto Semiconductors in Regensburg dem Thema seit Jahren intensiv. Zur Kontrolle digitaler Geräte setzt die Firma auf infrarote Leuchtdioden, Sensor- und Lasertechnologie.

Mit dem starken Infrarotlicht aus der Diode wird die Umgebung gleichmäßig ausgeleuchtet. Kamerasensoren gelingt es dadurch, selbst kleinste Gesichts- und Körperbewegungen gut zu erkennen und umzusetzen.

Dank Laserlichtquellen kann man beispielsweise ohne Controller eine Runde Beachvolleyball zu Hause an der Spielekonsole spielen. Die Technik erkennt die Bewegungen und zeigt sie dann auf dem Bildschirm.

Anwendungen im Auto sind weitere Möglichkeiten für den Einsatz von Gestensteuerung mittels Licht. So lässt sich etwa mit einem kurzen Wink die Klimaanlage drosseln und mit einem Wackeln der Zehenspitze berührungslos der Kofferraum öffnen. Praktisch, wenn man mit Einkaufstüten in beiden Armen vor dem Fahrzeug steht.

Der Vorteil der Technik, gerade am Steuer: Das Infrarotlicht wird von den Kamerasensoren gut empfangen, vom menschlichen Auge jedoch kaum wahrgenommen. Es stört also nicht.

Ein Wink wechselt den Radiosender

Autohersteller BMW setzt in vielen Modellen ebenfalls auf Sprache und Gesten im Wagen, etwa zur Steuerung von Telefon, Navi, Musikanlage und Assistenzsystemen. Ein Wink vor dem Display wechselt den Radiosender oder stellt die Musik leiser. Eine Kamera im Dachhimmel des Fahrzeugs erkennt die Handbewegungen. Mit abgespreiztem Daumen und kleinem Finger etwa nimmt man ein Telefonat an. Mit Daumen und Zeigefinger verändert man die Perspektive der Kamera beim Rückwärtsfahren und blendet so den toten Winkel aus.

Ein Prototyp des Elektromobils i3 startet per Wink das automatische Einparken. Über das Netzwerk „BMW Connected“ kann der Autonutzer per Sprachsteuerung von der Wohnzimmercouch aus den Tankfüllstand abrufen, das Fahrzeug abschließen oder die Fahrtzeit zum nächsten Ziel berechnen. So bleibt die wachsende Zahl an Funktionen rund ums Armaturenbrett beherrschbar, und der Fahrer blickt mit ungeteilter Aufmerksamkeit auf die Straße.

Interview

Bald ist es passé, mühsam Texte einzutippen

München. Wie schaffen wir es, dass uns elektronische Geräte noch besser verstehen? Auskunft dazu gibt Professor Gerhard Rigoll vom Lehrstuhl Mensch-Maschine-Kommunikation an der TU München.

Ist Sprachsteuerung dem Bedienen von Geräten per Berührung überlegen?

Nicht immer. Berührung eignet sich für simple Befehle. Bei komplexen Anweisungen ist jedoch die Sprache besser. Denn sprechen geht schneller, als einen Text einzutippen. Und die Hände bleiben dabei frei. Das ist in manchen Situationen besonders wichtig, etwa beim Autofahren.

Wie genau sind die Systeme, und was können sie?

Sie sind schon recht gut geworden. Denken Sie nur an elektronische Assistentinnen wie „Siri“. Ich gebe der heutigen Spracherkennung die Schulnote Zwei. Denn sie versteht schon viele Aufforderungen – nicht nur akustisch, sondern auch sinngemäß. Fragt man beispielsweise nach einer Zugverbindung, weiß sie, wo sie suchen muss. Für knifflige Aufgaben gibt es immer die Möglichkeit für Rückfragen.

Was wird hier in Zukunft alles möglich sein?

Die Intelligenz der Maschinen wird steigen. Die reine Spracherkennung entwickelt sich hin zu echten Assistenten, mit denen wir richtige Dialoge führen werden. Dadurch können wir über die Maschinen noch mehr Wissen anzapfen. Und die Bedienung per Sprache wird in immer mehr Geräte integriert werden, etwa Fernseher oder Haushaltsgeräte. Was noch fehlt, ist mehr Robustheit gegenüber Lärm. Doch da gibt es bereits gute Ansätze.

Inwiefern können Gesten die Sprache noch ergänzen?

Im Automobilbereich kennt man ja schon einfache Gesten wie Nicken, Daumen hoch oder mit einem schnellen Wink einen Anruf abwimmeln, wenn man gerade konzentriert am Steuer sitzt. Doch noch sind es einfache und wenige Gesten, die wir im Umgang mit elektronischen Systemen anwenden. Einen Fortschritt bringen neue 3-D-Kameras, wie sie beispielsweise die Computerspiele-Industrie bereits einsetzt.