Digitaler Sprachassistent für die Datenabfrage im Reporting

Digitale Sprachassistenten erobern Auto, Smart Home und zahlreiche Servicebereiche. Mit dem passenden Zauberwort werden kleinere Dienste erledigt. Die besondere Stärke dieser Form von künstlicher Intelligenz liegt jedoch in der Genauigkeit, mit der verborgene Erkenntnisse aus Daten gewonnen werden können. Dies kann insbesondere im Finance-Bereich von Nutzen sein, wie unser Praxisbeispiel dokumentiert.

Seit der Erfindung der ersten Computer beschäftigen sich Menschen damit wie die Nutzung und Interaktion intuitiver gestaltet werden kann. Die direkte Kommunikation per Sprache stellte bisher vor allem einerseits eine besonders erstrebenswerte Möglichkeit zum Austausch zwischen Menschen und Maschine dar, zum anderen galt und gilt das Verstehen und Wiedergeben von gesprochener Sprache aufgrund ihrer Komplexität als besondere Herausforderung für die Technik.

Im Folgenden wollen wir die Vorteile eines digitalen Sprachassistenten mithilfe eines Praxisbeispiels darlegen. Bei diesem Praxisbeispiel geht es um die Entwicklung eines prototypischen Sprachassistenten im Finanzbereich im Rahmen des Ad-hoc Reportings eines Unternehmens. Das heißt, dieser simuliert das „schnelle beziehungsweise spontane Nachfragen“ nach bestimmten Daten - in unserem Beispiel KPIs - mit sofortiger Antwort. Dies vermeidet zum einen den höheren internen Kommunikationsbedarf und zum anderen das lange Suchen nach Daten in Reports mit vielen Seiten und spart damit Arbeit und Zeit.

Der digitale Sprachassistent ist also als eine Art „Tool“ des Managers zu verstehen, welches ihm einen leichteren und intuitiveren Zugang zu Daten ermöglicht. Das „Durchfragen“ durch diverse Ansprechpartner wird dadurch erspart.

Gründe für eine Investition in einen In-House Sprachassistenten

Über die Vorteile der erhöhten Effizienz, Zeitersparnis und der Möglichkeit der Interaktion in Echtzeit hinaus haben wir weitere Vorteile identifiziert:

Verbesserung der Ausführung und Zurechenbarkeit: Maßgefertigtes Design und Programmierung zahlen auf kundenspezifische Anforderungen ein. Es fallen keine Lizenzgebühren an.
Rasche Markteinführung: Durch Nutzung wegweisender Technologie können geforderte Lösungen innerhalb kurzer Zeit entwickelt und implementiert und die Anpassung und Verwaltung der „Voice bots“ rasch durchgezogen werden.
Datensouveränität: Durch die In-House Lösung behält der Kunde die Kontrolle über sensible Unternehmensdaten. Denn Sicherheit und der Schutz der Daten sind bei Dritten schwieriger zu gewährleisten.

Technische Funktionsweise eines Digitalen Sprachassistenten

Sprachassistenten bedienen sich einer Software, die Sprache erkennt und in Befehle übersetzt. Der Begriff „natürliche Sprache“ bezeichnet die Sprache, in der Menschen miteinander kommunizieren. Im Kontext sprachbasierter KI sind drei Begriffe relevant: Natural Language Processing (NLP), Natural Language Generation (NLG) und Natural Language Understanding (NLU).

Abbildung 1: Zusammenhang von Natural Language Processing

Natural Language Processing verwendet Methoden aus unterschiedlichen Disziplinen wie beispielsweise der KI, um Computer in die Lage zu versetzen, menschliche Sprache sowohl in schriftlicher als auch gesprochener Sprache zu identifizieren und zu verstehen. Dabei werden unstrukturierte Daten in ein strukturiertes Datenformat transformiert.

Das Natural Language Understanding (NLU) befasst sich mit der Funktion, maschinelle Texte erfolgreich zu erfassen und zu verstehen. Im Konkreten wird die Grammatik sowie der Kontext einer Aussage analysiert, um die Bedeutung sowie den Sinn eines Satzes abzuleiten. Das Gegenstück dazu stellt Natural Language Generation dar, welches die natürliche Sprache erzeugt beziehungsweise Texte automatisch generiert. Klassische NLG-Anwendungen wären Texterzeugung, zum Beispiel Finanztexte, Textzusammenfassung oder die Übersetzung von Texten.

Abbildung 2: Prozess von Machine Learning

Entwicklung, Implementierung und Anwendung des Sprachassistenten

Im ersten Schritt wird eine Basissoftware (Speech-To-Text (STT) und Text-To-Speech (TTS)) benötigt. STT wandelt die gesprochene natürliche Sprache in Text um und TTS umgekehrt einen Text in natürliche Sprache. Man kann sich die Basissoftware selbst entwickeln lassen oder alternativ bei Anbietern wie Amazon Polly, Google Cloud oder IBM (Watson) eine Open Source Software beschaffen.

Wo liegen nun die Vorteile einer Eigenentwicklung gegenüber der Beschaffung einer Open Source Software? Wenn man schnell einsatzbereit sein möchte, ist eine entsprechende Software in der Cloud von Vorteil. Wenn man jedoch langfristig denkt und langfristig auch mehrere Anwendungsmöglichkeiten für den Sprachassistenten im Unternehmen sieht, dann ist eine Eigenentwicklung vorteilhaft, da jeder weitere Use Case beziehungsweise jede weitere Entwicklungsmaßnahme in Zukunft preisgünstiger ist und damit langfristig gesehen die kostengünstigere Lösung darstellt.

Im Anschluss wird die Software in einem agilen Projektvorgehen zusammen mit dem internen Adressaten und mit der internen IT weiterentwickelt. Idealerweise wird ein MVP (minimal viable product) erstellt, um mit dem Entwickler bestmöglich zur gewünschten Lösung zu kommen. Die Bedürfnisse des internen Adressaten werden dabei als Maßstab genommen.

In unserem Praxisbeispiel mussten alle denkbaren Fragen – zum Beispiel Fragen zu den KPI´s im Finanzbereich im Sinne von „Wie hoch war der Umsatz im Segment xxx im letzten Jahr?“ - zum Reporting entwickelt werden. Diese wurden dann anschließend vom Entwickler in das System integriert.

Abbildung 3: Funktionalität des Digitalen Sprachassistenten

In Abbildung 3 wird der Prozess von STT und TTS illustriert. Mittels natürlicher Sprache wird eine Frage an das System gestellt. Diese wird folglich über den Natural Language Process in Form von Texten und Sprache beantwortet.

Anwendung des Sprachassistenten im Praxisbeispiel

Um das Konzept eines Sprachassistenten in Form einer In-House Lösung besser zu verstehen, zeigen wir ein Praxisbeispiel. Das Praxisbeispiel dient dazu, zu veranschaulichen wie man solche Projekte im Bereich Finanzwesen/Controlling umsetzen könnte und weshalb In-House-Lösungen aus unserer Sicht der bessere Ansatz sind.

Die In-House entwickelte und angepasste Spracherkennungssoftware setzt auf der bestehenden Dateninfrastruktur auf und ermöglicht die Abfrage von Financial und Non-Financial KPI’s, zum Beispiel Umsatz, und das Segment, zum Beispiel Argentinien, abhängig von einer gegebenen Zeitspanne wie Monat, Quartal oder Jahr in Echtzeit. Die abgefragten Informationen werden absprach- und textantworten komplementiert. Bei dem Machine Learning Model handelt es sich um das „Acoustic & Language Model“, das heißt der Algorithmus wurde auf Basis von Sprache und großen Textmengen trainiert.

Der Finanzverantwortliche möchte sich über spezifische KPIs informieren. Dies ist oftmals mit einem erhöhtem Kommunikations- und Zeitbedarf verbunden. Denn Financial und Non-Financial KPIs werden zwar erhoben, liegen jedoch häufig in unterschiedlichen Quellen und gesuchte Informationen sind aufgrund verschiedener Quellsysteme und der Datenflut nicht immer sofort auffindbar. Dazu kommt, dass die manuelle Bedienung der Systeme und Suche nach Ansprechpartnern ineffizient und zeitintensiv ist.

Um sich die Zeit zu sparen, öffnet der Finanzverantwortliche das eigens entwickelten Tool zur KPI-Suche. Nun klickt er auf das Mikrofon Symbol und beginnt mit der Spracheingabe.

Abbildung 4: Spracheingabe mit Chatfunktion zur KPI-Suche

Er fragt nach der Höhe der Umsätze im April 2021 im Segment Argentinien und erhält binnen weniger Sekunden eine Antwort. Nun möchte er es noch spezifischer wissen und fragt, wie hoch davon der Privatkundenanteil am Umsatz ist. Auch diesen Sprachbefehl erkennt und beantwortet das Tool intuitiv und effektiv.

Neben der eben vorgestellten Sprachaufforderung per Chat soll der Sprachassistent zudem bald in der Lage sein, Sprach- und Textantworten mit einem graphischen Report zu komplementieren. Dabei wird ein Datenabgleich aus verschiedenen Quellen und Systemen zusammengefasst und dem Nutzer übersichtlich dargestellt.

Digitaler Sprachassistent im Finanzbereich – hört auf’s Wort

Die vorangegangenen Fragen werden von dem entwickelten Sprachassistenten bereits akkurat beantwortet, dennoch wird an weiteren Features für den Assistenten gearbeitet. Beispielsweise wird an Fragestellungen, wo dieser verwendet (App, Web, Smart Speaker) und wie dieser in existierenden Controlling-Systemen sinnvoll integriert werden soll, gearbeitet. Nichtsdestotrotz hat man es bereits innerhalb weniger Wochen geschafft, einen funktionsfähigen Sprachassistenten auf die Beine zu stellen, welcher bereits wichtige Aufgaben erfüllen kann.

Vielen Dank an Keldan Basmacioglu für die Mitarbeit an diesem Artikel.

Digitaler Sprachassistent für die Datenabfrage im Reporting

Technische Funktionsweise eines Digitalen Sprachassistenten

Entwicklung, Implementierung und Anwendung des Sprachassistenten

Anwendung des Sprachassistenten im Praxisbeispiel

Digitaler Sprachassistent im Finanzbereich – hört auf’s Wort

Autor

Martin Kellner

Weitere Artikel die Sie interessieren könnten

Robotic Process Automation wird erwachsen - und steigert die Effizienz

ChatGPT und Co.: Zwischen Faszination und Fragezeichen

Mit Strategie zum digitalen Krankenhaus

ESG bringt Dynamik in die Berichtspflichten des Finanzbereichs