Natürlichsprachliche Dialogassistenten in der Pflege

Europäischen Fonds für regionale Entwicklung (EFRE).

Das PROFIT-Projekt wird gefördert aus Mitteln des Europäischen Fonds für regionale Entwicklung (EFRE).

Projektlaufzeit: 01.07.2020 – 31.12.2022

Kooperationspartner:
sense.AI.tion
TH Wildau

Das Projekt "Natürlichsprachliche Dialogassistenten in der Pflege"

Die Partner des Verbundprojektes haben es sich zum Ziel gesetzt, die Grundlagen für ein umfassendes maschinelles Verstehen von menschlicher Kommunikation in der Pflege zu schaffen. Dadurch werden Interaktionen mit natürlicher Sprache zwischen computergestützten Systemen und Menschen möglich. Für den privaten Bereich soll damit ein längeres und selbstbestimmtes Leben in den eigenen vier Wänden von Pflegebedürftigen unterstützt werden.

In Pflegeeinrichtungen und Krankenhäusern sollen in erster Linie Pflegekräfte von Routine- und Dokumentationstätigkeiten entlastet werden. Mit den Ergebnissen werden direkt erste Anwendungsfelder für sprachbediente Hilfsmittel in der Pflege praktisch erschlossen.

Motivation

Unsere alternde Gesellschaft mit ihren demografischen Problemen erzeugt neue, aktuelle und zukünftige Herausforderungen, die gegenwärtig umfassend diskutiert werden. Dennoch gibt es bis heute keine zufriedenstellenden Lösungen, mit denen es möglich ist, der Situation angemessen zu begegnen. Zukünftig wird es für uns notwendig, das Thema der Versorgung Pflegebedürftiger zu optimieren, alternative Hilfen und Werkzeuge zu entwickeln und in der Pflege einzusetzen. Nur so lässt sich langfristig und nachhaltig dem Ressourcenmangel und dem drastisch wachsenden Pflegebedarf entgegenwirken. Technische Innovationen aus dem Bereich Informations- und Kommunikationstechnik können hier einen wertvollen Beitrag leisten.

Eine zentrale Aufgabe für einen erfolgreichen Einsatz von Innovationen für die geplante Zielgruppe älterer Menschen wird die Entwicklung stabiler Systeme für eine Interaktion mit natürlicher Sprache sein. Dass die Systeme umgangssprachlich formulierte Aussagen erkennen, sowie korrekte und zufriedenstellende Antworten auf Fragen oder Anliegen zur Verfügung stellen, ist eine notwendige Voraussetzung für ihre Akzeptanz und einen dauerhaften Einsatz. Auf der einen Seite ist diese Umstellung zu sprachbedienten Nutzerschnittstellen ein allgemeiner Trend in der Automatisierung, auf der anderen Seite kommt diese Entwicklung den nicht vorrangig mit Informationstechnik beschäftigten Menschen sehr entgegen und steigert Akzeptanz und Nutzen
von technischen Hilfsmitteln. Zusätzlich besitzen sprachbediente Geräte/Systeme den entscheidenden Vorteil, dass sie durch Patienten vom Bett aus und von Pflegekräften „nebenläufig“ gesteuert werden können (die Arme und Augen sind für andere Arbeiten frei).

Menschen nutzen für die Kommunikation untereinander verschiedene Ebenen und Kanäle. Neben dem rein verbalen, werden entscheidende Inhalte und Informationen auch im paraverbalen und nonverbalen Bereich übertragen. Bei der Auswertung von Gesprächen zeigt sich schnell: Dem paraverbalen Kommunikationsanteil kommt in vielen Situationen, insbesondere
in vertrauten Umgebungen, eine hohe Bedeutung zu. Nur gemeinsam mit diesem Kommunikationsanteil können die im verbalen Kanal enthaltenen Nachrichten korrekt gedeutet werden. Eine Analyse von enthaltenen Emotionen, Motivationen und psychologischen Eigenschaften kann weitere Einsichten in die Gespräche, deren Inhalte und Hintergründe bringen. Als Grundlage für diese Analyseziele dient die „TwentyFive“-Methode, welche von der sense.AI.tion GmbH branchenführend angewandt wird.

Stand der Forschung und aktuelle Ergebnisse

1) Modelle

Gegenwärtige im Markt existierende Systeme nutzen zur Spracherkennung und -analyse ausschließlich „eins zu eins“ schriftliche Kommunikationsanteile. Diese Einschränkung führt in so gut wie allen Anwendungsfällen dazu, dass wesentliche situations- und kontextabhängig Inhalte gar nicht beachtet werden. So entstehen Missverständnisse und/oder zusätzlicher Kommunikationsaufwand ist notwendig, um die notwendige Information zu transportieren.

Beispielsweise besitzt das Wort „Bank“ mehrere Verwendungen: als Kreditbank (Geldinstitut), Parkbank (Sitzgelegenheit), Schotterbank (Flussbett) oder auch als „eine sichere Bank sein“ (Redensart). Für Menschen ist die Zuordnung in der Regel eindeutig. Bringt jemand sein Geld zur Bank, ist das Geldinstitut gemeint und möchte sich jemand auf einer Bank ausruhen, so handelt es sich um eine Sitzgelegenheit. Gängige Systeme zur Sprachanalyse unterscheiden hierbei aber nicht und ordnen Begriffen feste Kategorien zu. Im Ergebnis entstehen viele Fehleinschätzungen. Optimal wärem außerdem Systeme, die zusätzlich Emotionen, Stimmungen und Motivationen erfassen, um darauf in einer passenden Weise reagieren zu können. Sätze wie „Mach doch was du willst!“ meinen häufig das Gegenteil des Gesagten. Situationsbedingte Komplikationen können auf diese Art und Weise besser erkannt und einer Lösung zugeführt werden. Reinen Sprachassistenten fehlen genau diese Fähigkeiten. Sie können kaum eine soziale Komponente für den Menschen einnehmen.

Zur Lösung dieses Problems wird aktuell im Projekt auf KI-Methoden des Natural Language Processings (NLP) zurückgegriffen. Dabei werden kontextsenitive Sprachmodelle trainiert, welche die Zusammensetzung der Sprache in mathematischen Vektorräumen abbilden. Die Technik basiert dabei auf sogenannte Transformer, wobei hierbei insbesondere BERT-Modelle trainiert und eingesetzt werden. Diese gestatten die bereits erwähnte Beachtung des Kontextes bei der Analyse von Gesprächen. Für sprachbediente Lösungen, die im deutschsprachigen Raum genutzt werden sollen, muss der Fokus logischerweise auf die umfassende Untersuchung der deutschen Sprache gelegt werden. Notwendige Trainingsdaten fehlen für deutschsprachige Systeme und die unterschiedlichen Anwendungsfälle, weshalb momentan ein Hybridansatz im Fokus steht. Konkret bedeutet dies: Wann immer möglich, werden die Modelle direkt für die deutsche Sprache trainiert und angewendet. Wenn dies, aufgrund der fehlenden Trainingsdaten, nicht möglich ist, wird zunächst eine Übersetzung ins Englische angestrebt, denn in der englischsprachigen NLP-Community stehen deutlich mehr Modelle zum Experimentieren zur Verfügung. Im Zuge der produktiven Verwendung dieses Hybridansatzes werden durch die User immer mehr Daten auf Deutsch zur Verfügung stehen, so dass auf mittelfristige Sicht die Übersetzung wegfallen kann.

Hinweis: Zur besseren Einschätzung der bisher geschaffenen deutschsprachigen Modelle wurde eine entsprechende Recherche durchgeführt. Diese mündete in einer Übersicht, welche unter folgendem Link betrachtet werden kann: https://github.com/icampuswildau/german-transformersoverview Prinzipiell konnten bisher 97 GB an textuellen Daten beschafft und vorverarbeitet werden. In verschiedenen Konfigurationen entstanden dabei 7 verschiedene BERT-Modelle (Nach dem Pretraining-Verfahren). Auch wenn die Menge an Daten viel erscheint, können diese jedoch i.d.R. nicht eins zu eins für die verschiedenen Anwendungsfälle verwendet werden und bedürfen größtenteils weiteren Unterteilungen und Vorklassifizierungen. Für den weiteren Verlauf des Projektes können sie jedoch als wichtiger Rohstoff betrachtet werden.

2) Anwendungsfälle

Mit den Prozessen zur Verarbeitung und Analyse von Sprache entsteht das Fundament für die eigentlichen Anwendungen sprachbedienter Hilfsmittel. Dabei stehen Pflegekräfte und Pflegebedürftige gleichermaßen im Zentrum des Konzeptes. Pflegekräfte werden seit vielen Jahren immer stärker belastet. Eine wachsende Anzahl zusätzlicher Aufgaben und Prozesse hält sie von ihrer eigentlichen, fachlichen Arbeit ab. Das reduziert die Zeit, die sie für die „Arbeit am Menschen“ aufbringen können. Zeitgleich betreuen Pflegekräfte mehrere Pflegebedürftige simultan und können auch sonst nicht ununterbrochen bei den betreuten Personen sein – es entstehen häufige und teils lange Zeiträume zwischen dem direkten menschlichen Kontakt.

Im ersten Schritt wurde eine automatische Protokollierung von Abläufen in der Leistungserbrinungen der Pflegekräfte (Tätigkeitsprotokollierung) durch die Implemetierung eines Checklistensystems geschaffen. Ein mehrstufiger KI-Workflow, als Kombination aus Deep-Learning Sprachmodellen (NLP mittels Transformern) und einem Machine-Learning-Classifier (mittels k-Nearest-Neighbor) realisiert dies.

Mit dieser automatischen Protokollierung von Abläufen in der Leistungserbringung soll ein erster Schritt zur Entlastung gegeben sein. Mittels einer Liste der Arbeitsabläufe und Leistungen, die zusätzlich kurze inhaltliche Beschreibungen enthalten, wir eine entsprechende Zuordnung erzeugt. Das Teilsystem wird gegen Ende 2021 von einem Fachkreis in Beelitz-Heilstätten erstmalig getestet.

 

Zum Projekt:

ROS-E: Die Geschichte eines kleinen Roboters, der Menschen unterstützt.