„Hallo, Computer!“

Kampf um die Spracherkennung

Startup Insider Redaktion

14/04/2017

Intelligente Spracherkennung kombiniert mit künstlicher Intelligenz markiert den Beginn einer neuen technologischen Ära. Wer wird am Ende das Sagen haben?

Das Strategie-Handbuch „Die Kunst des Krieges“ des chinesischen Militärstrategen und Philosophen Sun Zi (geboren 534 vor Christus) zählt noch heute zu den wichtigsten Lektüren für Manager torf der ganzen Welt. Sun Zi war ein Meister des Kampfes, vor allem aber wusste er um die Bedeutung von Planung und Taktik. Eine seiner vielen Weisheiten lautet: „Die Ersten, die auf dem Schlachtfeld eintreffen, erwarten den Gegner mit Ruhe. Die Letzten, die eintreffen und sogleich in die Schlacht geführt werden, sind bereits erschöpft [und verlieren].“

Spracherkennung als Mensch-Maschine-Schnittstelle

Es kommt nicht oft vor, dass sich die „Six Horsemen of AI and Voice“, also Amazon, IBM, Google, Facebook, Microsoft und Samsung, zeitgleich auf das selbe Schlachtfeld begeben. Und vor allem nicht mit dieser Wucht. Wir erleben ein Kräftemessen, bei dem es um technologische Überlegenheit geht, um Geschwindigkeit und Image. Und vor allem um Marktdominanz. Denn es geht um nichts Geringeres als um die Vorherrschaft der künftigen Schnittstelle zwischen Mensch und Maschine. Denn Spracherkennung gilt als die nächste große Tech-Dimension. Solange dem Menschen noch keine Chips implementiert werden, verspricht Voice den komfortabelsten Zugang zu Smart Home, zum Internet der Dinge und zum E-Commerce.

Der Vorteil der Spracherkennung liegt auf der Hand: Natürlich spricht der Mensch schneller als er schreibt. Und fehlerfreier. Steuerung und Bestellung auf Zuruf und Sprache als universelles Interface für den Kühlschrank, das Fernsehprogramm und die Online-Suche. Ein Interface, das jeder sofort bedienen kann. Barrierefrei. Doch die Faszination geht noch weiter: Mittels Sprache lernt die Technik ihre Nutzer kennen. Wir erleben einen Dreiklang aus Spracherkennung, künstlicher Intelligenz und Machine Learning. Genau diese Kombination macht aus den neuen digitalen Assistenten alltagstaugliche Gefährten, die ihre Nutzer verstehen und irgendwann wissen, was einer mit „Bestell mir meine Lieblingspizza beim Lieblingsitaliener“ meint. Tech-Visionäre sehen daher sprachbasierte, selbstlernende Assistenten als eines der größten technischen Phänomene des 21. Jahrhunderts, die das Potenzial haben, unsere Gesellschaft völlig umzukrempeln. Sprache könnte alle bisherigen Eingabegeräte ablösen.

Sehen wir tatsächlich vor einer epischen Schlacht? Pat Higbie, CEO von Xappmedia, bringt es auf den Punkt: „Wir stehen dank Voice am Beginn einer neuen technologischen Ära. Und genau wie durch die Einführung des Internets oder der Smartphones wird es Gewinner und Verlierer geben“.

Verwendung von Amazon Echo (Bild: Statista)

Amazon Alexa - die Spracherkennung in aller Munde

Amazon-Chef Jeff Bezos als Tech-Visionär zu bezeichnen, wäre wahrscheinlich untertrieben. Der erfolgsverwöhnte Bezos glaubt nicht nur an die revolutionäre Kraft der Sprachsteuerung – er scheint auch die Regeln Sun Zis verinnerlicht zu haben. Nach langer gründlicher Vorbereitung hat Amazon die Bühne betreten, um diese Schlacht nun im Sturm zu gewinnen. Die Arbeit an Echo und Alexa hat bereits Anfang 2014 unter dem Codenamen „Project C“ in Amazons Geheimlabor Lab126 begonnen. Kurz nach Veröffentlichung der ersten Version von Echo wurde Bezos klar, welch immenses Potenzial in der Verschmelzung von Echo und AWS (Amazon Web Services) liegt. Alexa war geboren und Bezos sollte Recht behalten. Amazons Alexa ist Cloud-basiert und nutzt AWS, um stetig zu lernen und neue Funktionen ergänzen zu können.

Glaubt man Medienberichten, werkelt inzwischen ein 1.000 Mitarbeiter großes Team an der Sprachsoftware Alexa beziehungsweise AVS (kurz für Alexa Voice Service), der Hardware Echo sowie der zugehörigen künstlichen Intelligenz. Und so stehen die Vorzeichen für Amazon nicht schlecht, den Markt dauerhaft zu dominieren. Dank seiner exzellenten Kundenzugänge hat Alexa die erste Welle der Marktdurchdringung beispiellos gemeistert. Echo Dot ist das bestverkaufte und meistverschenkte Produkt auf Amazon.com mit Millionen verkauften Modellen weltweit seit der Einführung.

Echos kleiner Bruder: Amazon Dot (Bild: Amazon)

Die Schlacht um den Nutzer ist vor allem eine Schlacht der APIs. Und so ist die offene Plattform beziehungsweise die Lizenzierung an Partner eines der Erfolgsrezepte von Amazon beim Aufbau einer echten Plattform: Alexa beherrscht dank offener Schnittstellen bereits circa 10.000 Aktionen: von Amazon Music über Wikipedia, dem Vorlesen von Büchern und Verkehrsberichten, bis hin zu Radio, IFTTT und dem Bestellen von Taxis. Fast alle Cloud-basierten Sprachdienste können ohne großen Aufwand in internetfähige Endgeräte integriert werden. Und so könnte Alexa die Standard-Schnittstelle zwischen Kühlschrank, Licht, Fernseher, Auto und Internet werden. „Ich habe nach und nach Echo und Echo Dots in jedem Zimmer meines Hauses integriert, sogar im Badezimmer“, sagt Amazon-Chef Bezos im Billboard-Interview.

„Anders als ein Telefon ist das ein Gemeinschaftsgerät. Jeder hat seine eigenen Playlisten und Musikpräferenzen. Und wenn meine Frau und meine vier Kinder in der Küche beisammen sind, übertönen sie sich gegenseitig mit ihren Alexa-Anfragen – eine wahre Kakophonie.“ Viele Unternehmen sind dem Ruf bereits gefolgt: Unter anderen arbeiten Samsung, LG, Philips, Belkin, Sonos, Ford und Google Nest mit der Alexa-Technologie zusammen. Der Coup für Amazon: Wer den Assistenten kontrolliert, kontrolliert auch den Zugang der Nutzer zum Internet – und damit mittelfristig auch den Zugang zu Informationen, Marketing- Botschaften und der Produktion. Es ist zu erwarten, dass Amazon seine Alexa-Plattform auf Smartphones ausweitet und sie um Social Features erweitern wird. In die sprachgesteuerte Fernbedienung des Amazon Fire TV Sticks wurde sie gerade integriert.

„MEINE FRAU UND MEINE VIER KINDER ÜBERTÖNEN SICH MIT IHREN ALEXA ANFRAGEN – EINE WAHRE KAKOPHONIE“ – JEFF BEZOS, Amazon-Chef

Hat Apple einen Trend verschlafen?

Es ist ja inzwischen en vogue, den (einstigen) Innovationsführer Apple als Sorgenfall der Tech-Branche abzuschreiben. Leider macht es Apple seinen Kritikern dank träger Sortimentspolitik auch nicht wirklich schwer. Der Tech-Pionier hat die Marktführerrolle eingebüßt. Im Januar hat sogar der ehemalige Apple-Ingenieur Bob Burrough Apple-Boss Tim Cook öffentlich beschuldigt, Apple vom Innovationsführer unter Steve Jobs („schlank, wettbewerbsfördernd und dynamisch“) zu einer langweiligen Verwaltungseinrichtung gemacht zu haben.

Und so war es auch Steve Jobs, der das Startup Siri akquirierte und als Spracherkennung bzw. Sprachsteuerung serienmäßig ins iPhone 4s integrieren ließ. Damals ein echter PR-Coup. Heute, fünf Jahre später, ist Siri neben dem iPhone auch auf dem iPad, der Apple Watch, Apple TV und seit macOS Sierra sogar auf dem Mac installiert. Angeblich arbeitet Apple seit längerer Zeit an einem Siri-gestützten Lautsprecher. Insgesamt wirkt Siri jedoch angestaubt und etwas schwer von Begriff. Nutzer, die mit Siri in der Öffentlichkeit interagieren, haben Seltenheitswert. Googles sprachbasierte Suche für Android-Phones kam erst ein Jahr nach Siri. Laut einer Studie von Creative Strategies wird die Sprachsuche von Google Now deutlich häufiger verwendet als iPhone-User Siri verwenden. Google-CEO Sundar Pichai sagt, bereits jede fünfte Suchanfrage bei der Google-App in den USA erfolge per Spracheingabe.

Das traurige Zwischenfazit aus Apple-Sicht: Apple ist zwar stark im Bereich Hardware, aber beim Kampf der Voice-Giganten geht es nicht um Hardware. Oder noch drastischer: Die offenen Systeme schlagen das geschlossene System. Ist das Apple-Modell überholt? Siri ist der Sprung auf andere Plattformen bislang auf jeden Fall nicht gelungen. Und so ist es wohl nur eine Frage der Zeit, bis Alexa das iPhone erobern wird.

Kommenar von Fabian Westerheide, Gründer und Investor:„Meine Prognose ist, dass viele Apps vom Handy verschwinden werden, beziehungsweise wir diese nicht mehr anklicken. Stattdessen werden wir mit unseren Geräten sprechen. Es ist der Massenmarkt der Zukunft, denn wir werden noch mehr mit Maschinen interagieren, weil es natürlicher, schneller und angenehmer sein wird. Amazon ist führend mit dem Echo. Apple hat mit Siri Potential gehabt und es strategisch verschlafen. Google arbeitet hart an dem Thema. Chancen für junge Firmen bestehen im Backend, zum Beispiel für die Sprachsteuerung, API Systeme, Cloud Anwendungen.“

Vorteile für Google?

Auch bei Google ist man angesichts des immensen Erfolgs von Amazon wohl nicht in Champagnerlaune. Welch exzellenten Job Amazon macht, konnte man auf der letztjährigen Google-Entwicklerkonferenz Google I/O erkennen, als CEO Sundar Pichai Jeff Bezos öffentlich dafür dankte, dem Thema Spracherkennung die nötige Aufmerksamkeit verschafft zu haben. Zeitgleich stellte Google mit einem aufwändig produzierten Imagefilm klar, dass der intelligente Assistent für das vernetzte Heim („Google Home“) ganz sicher von Google kommen wird. Souveränität sieht zwar anders aus, führende Experten sind sich jedoch einig, dass Google mit Google Search die zurzeit beste Spracherkennungssoftware auf dem Markt anbietet. Der US-Blogger Marques Brownlee mutmaßt, dass Google vor allem beim KI-gestützten Kennenlernen der Nutzer seine Vorteile ausspielen wird. Denn Spracherkennung kann nur in Kombination mit Machine Learning sein volles Potenzial ausspielen.

Und Google verbessert konstant die Qualität der Spracherkennung seiner Software: In den vergangenen zwei Jahren konnte die Trefferquote bei Sprachanfragen von 80 auf mehr als 92 Prozent gesteigert werden. Für Adam Coates, Chef des Artificial Intelligence Lab von Baidu, ist diese Quote jedoch bei weitem nicht massenmarkttauglich: „Selbst 95 Prozent Genauigkeit ist nicht ausreichend. Unser Ziel ist es, die Fehlerquote auf unter ein Prozent zu treiben. Erst dann kann man einem Gerät wirklich vertrauen.“

Google Voice wird von immer mehr Suchenden verwendet (Bild: KPCB)

Ist Voice ein Startup-Thema?

Eindeutig ja! Spracherkennung ist eventuell das am heftigsten umkämpfte Schlachtfeld der großen Tech-Firmen. Wir erleben ein spannendes Wechselspiel aus Goldrausch und Panik. Die Gefahr für etablierte Marktteilnehmer: Voice, als vielleicht wichtigste Schnittstelle der Zukunft, könnte sich zum sogenannten Walled Garden entwickeln, also zu einem (von einem oder wenigen Marktteilnehmern) kontrollierten Ökosystem. Daher gilt es, rechtzeitig die Claims zu sichern. Plattformen und Ökosysteme gelten gemeinhin als unternehmerische Königsdisziplin. Kombiniert mit einem großen Marktpotenzial sind sie der Traum eines jeden Investors. Natürlich ist es angesichts der Akteure offensichtlich, dass der Voice-Markt schwerlich von Startups dominiert werden kann. Doch APIs, Integrationen in andere Produkte („Skills“) und Voice Apps bieten zahlreiche Anknüpfungspunkte, auch für kleine Unternehmen. So rechnet beispielsweise David Beisel, Partner bei Nextview Ventures, mit bis zu 100.000 Skills für Alexa bis Ende 2017. Zeitgleich hat eine Studie von Voicelabs festgestellt, dass 69 Prozent der Alexa-Skills bisher keine oder nur eine Kundenrezension haben, was auf eine insgesamt niedrige Kundennutzung schließen lässt.

Kommentar von Matthew Hartman, Partner bei Betaworks Ventures: „Auf einmal ist unsere Stimme zu einer Schnittstelle für verschiedene Technologien geworden – von Alexa über Google Home bis hin zu allen Applikationen, die auf Siri zurückgreifen. Unsere Stimme öffnet neue Möglichkeiten bei der Interaktion mit Computern, die zu vollkommen anderen Anwendungsfällen bei bestehenden Apps und Webseiten führen kann. Und weil diese neue Form der Interaktion so wahnsinnig spannend ist, haben wir bei Betaworks den Voicecamp-Accelerator ins Leben gerufen. Im Frühling geht‘s los. Dazu kommt noch ein Newsletter, der sich rund um das Thema Sprache dreht.“

Amazon befeuert den Markt und hat 2016 – gemeinsam mit externen Investoren unter der Regie von Techstars – einen speziellen Alexa-Fonds eingerichtet: Insgesamt stehen 100 Millionen Dollar zur Verfügung, um „Early-Stage Startups zu unterstützen, die State-of-the-Art sprachgesteuerte Technologien, Schnittstellen und Applikationen rund um Alexa entwickeln, sowohl für Connected Home, Connected Car, Kommunikation, Wearables, Gesundheit oder Wellness“, sagt Techstars Executive Director Cody Simms. Der Amazon-Fonds hatte beim Start bereits sieben Investments: Orange Chef (Mobile App für Kochutensilien), Scout Alarm (Home Security), Garageio (Garagen-Überwachung), Toymail (Audio-Kinderspielzeug), Dragon Innovation (Framework für Startups), Mara (Fitness Coach) und Mojio (Connected Car Solutions). Weitere Investments aus dem Alexa-Fonds sind Ecobee (Thermostat, 35 Millionen Dollar) und Owlet Baby Care (Gesundheit, 15 Millionen Dollar).

Auch der erfolgreiche New Yorker Early-Stage-Startup-Investor Betaworks (unter anderen Giphy, Venmo, Kickstarter) hat einen Startup-Accelerator angekündigt, der Startups unterstützt, die KI-gestützte virtuelle Assistenten für Alexa, Google Assistant und Microsofts Cortana entwickeln. Betaworks investiert 125.000 Dollar pro Startup und erhält im Gegenzug acht Prozent der Anteile. Bezeichnender Name des von Google unterstützten Accelerators: Voicecamp.

Großes Exit-Potenzial

Anders als Techstars/Amazon schielt Betaworks wahrscheinlich primär auf die sich bietenden Exit-Potenziale. Die US-Tech-Giganten schwimmen im Geld. Allein Apple verfügt über Barreserven in Höhe von rund 200 Milliarden Dollar. Die Westküsten-Größen gelten seit jeher als bester Exit-Kanal für Startups. Allein Facebook akquiriert im Jahrestakt Hoffnungsträger wie Whatsapp, Instagram oder Oculus Rift für Milliardenbeträge. Und speziell für Oculus Rift dürfte das Thema Spracherkennung oder Sprachsteuerung besondere Relevanz haben. In diesem Kontext wird auch die Akquisition von Wit.ai gesehen. Facebook hat die Community-basierte Plattform für Entwickler von sprachbasierten Apps bereits Anfang 2015 übernommen. Damals war Wit.ai erst 16 Monate alt, konnte jedoch schon 6.000 Entwickler vorweisen, die auf der Plattform aufbauen.

Auch Samsung mischt bei den Investments kräftig mit und hat unter anderen das Startup Perch übernommen und sich an der Investment-Runde über 75 Millionen Dollar vom Voice/AI-Startup Soundhound beteiligt. Soundhound betreibt mit Houndify einen mobilen und smarten Assistenten. Noch spannender ist allerdings Samsungs Akquisition von Viv Labs, die man als offenes Ökosystem für AI-betriebene Anwendungen weiterentwickeln und in Samsungs Hardware integrieren möchte. Viv ist das neue AI-Startup der Siri-Erfinder Dag Kittlaus und Adam Cheyer, für die es – nach dem Verkauf an Apple im Jahr 2010 – bereits der zweite große Exit ist.

Apple wiederum hat vor Kurzem angeblich das auf künstliche Intelligenz und Machine Learning spezialisierte Startup Turi aus Seattle für 200 Millionen Dollar übernommen. Ob die Akquisition zur Weiterentwicklung von Siri erfolgte, bleibt abzuwarten. Apple bestätigte den Kauf nicht offiziell und kommentierte einen Bericht mit dem üblichen Satz: „Apple kauft von Zeit zu Zeit kleinere Technologieunternehmen, und wir äußern uns grundsätzlich nicht zu unseren Zielen oder Plänen.“ Im Fahrwasser der großen Tech-Unternehmen bieten sich viele Chancen für weitere Unternehmen und Startups. Logitech arbeitet an einer Alexa-basierten Steuerungskonsole fürs Auto. Ford, Hyundai und Volkswagen haben bereits angekündigt, Alexa in ihre Fahrzeuge integrieren zu wollen. Auch Lenovo peilt mit seinen Smart Assistants eine tiefe Integration in die Büros und Wohnungen seiner Nutzer an. Im Mittelpunkt all dieser Assistenten stehen Sprachfunktionalitäten, die unterschiedliche Geräte mit Hilfe von 360-Grad-Mikrofonen ans Netz bringen.

Doch es gibt auch Gegenwind für Amazon. Das beste Beispiel könnte das „Natural language processing“-Startup Addstructure aus Chicago sein, das derzeit von vier Amazon-Rivalen (darunter Target) unterstützt wird. Addstructure sieht sich selbst als eine Art „White-Label Amazon Alexa“. Die nächsten Monate und Jahre werden also spannend – für die Tech-Giganten und die Verbraucher. Es bleibt abzuwarten, ob die menschliche Sprache dank Spracherkennung das neue Interface wird. Die Zeichen für die schöne neue Welt stehen jedoch sehr gut. Und um es mit Sin Zu zu sagen: Sieg bedeutet nicht zwangsläufig die Vernichtung des Gegners. Sieg tritt auch dann ein, wenn jeder nach denselben Zielen strebt.

Kommentar von Thilo Weichert, Datenschutzexperte: Mitte Februar kündigte die Bundesnetzagentur an, dass sie gegen die sprechende Kinderpuppe ,Cayla‘ vorgeht. Sie rief Eltern auf, die ,Puppe unschädlich zu machen‘. Der Schaden dieser Puppe besteht darin, dass unerkannt das im Raum gesprochene Wort erfasst und per funkfähiger Sendeanlage an einen Provider gesendet wird. Das stellt nach Paragraf 201 Strafgesetzbuch eine strafbare Spionage dar. Was mit den Aufzeichnungen passiert, weiß keiner der Nutzer. Die Kinderpuppe ist aber nur ein Produkt von vielen: Vergleichbar sind Sprachassistenten – heißen sie nun Siri, Alexa, Cortana oder anders –, wie sie in Smartphones, Computern oder Fernsehgeräten verbaut sind. Die Initiierung der Aufnahmen kann unabsichtlich erfolgen. Nicht eingeweihte Dritte werden so um Vertraulichkeitserwartungen betrogen. Diese Helferlein können zwar nützlich sein, sind zugleich aber auch hochgefährlich. Ihr Einsatz setzt umfassende Informiertheit aller Anwesenden und echte Wahlfreiheit voraus. Ist auch nur ein Gesprächspartner mit der Nutzung eines solchen Tools nicht einverstanden, dann muss es effektiv abgeschaltet werden. In der Praxis haben wir derzeit noch einen gewaltigen Wildwuchs. Die Initiative der Bundesnetzagentur sollte ein Startschuss dafür sein, diesen einzuhegen. Im Interview mit Berlin Valley schildert Weichert die Vereinbarkeit von Big Data und Privatsphäre, Manipulation im Wahlkampf und die Vorreiterrolle Europas.