RobotikLab

Robots in Residence

Seit dem Sommer 2020 reisen zwei NAO-Roboter, GAIA und NaoMI, auf unterschiedlichen Wegen durch Europa - in jedem Monat besuchen sie eine andere Stadt. Dort werden sie von Coder*innen und Künstler*innen betreut und weiter programmiert, je nach lokalen Fragestellungen und Rahmenbedingungen.

Dieses spannende Projekt des Goethe-Institus in München ist Teil des Projektes “Generation A = Algorithmus - Nachdenken über Künstliche Intelligenz”, welches die Diskussion über Künstliche Intelligenz in breitere Gesellschaftsschichten tragen möchte.

Im Teilprojekt  “Robots in Residence”  stehen humanoide Roboter im Rampenlicht. Im Fokus steht das Verhältnis zwischen Mensch und Maschine in unterschiedlichen kulturellen Kontexten. Auf jeder Station lernen GAIA und NaoMI etwas Neues. Auf der Projektseite des Münchner Goethe-Instituts wird ausführlich darüber berichtet.

Für die Vorbereitung der NAO-Roboter für und die technische Unterstützung auf ihren Reisen ist das RoboticLab Telematik der TH Wildau verantwortlich. Auf dem für Herbst 2021 geplanten Abschlussfestival von “Generation A = Algorithmus” in Dresden sollen die beiden Roboter-Damen dann ihre erlernten Fähigkeiten präsentieren. Beide Teams in München und in Wildau sind schon sehr gespannt!
 

Abschlussfestival im Hygienemuseum in Dresden

Die Präsentation ausgewählter Projekte fand im Rahmen des Abschlussfestivals von „Generation A=Algorithmus“ im Deutschen Hygiene-Museum statt. Auf zwei großen Postern mit Projektinformationen von den Reisestationen konnten die Touren nachverfolgt werden. An zwei Stationen für Vorführung bzw. Interaktion konnten Besucher*innen die Ergebnisse hautnah erleben. Die Europareise war aufgeteilt in eine Ost- und ein Westtour. Drei NAO-Roboter waren vor Ort im Einsatz.

Die Projektergebnisse im Überblick

 

Europäischen Fonds für regionale Entwicklung (EFRE).

Das PROFIT-Projekt wird gefördert aus Mitteln des Europäischen Fonds für regionale Entwicklung (EFRE).

Projektlaufzeit: 01.07.2020 – 31.12.2022

Kooperationspartner:
sense.AI.tion
TH Wildau

Natürlichsprachliche Dialogassistenten in der Pflege

Das Projekt "Natürlichsprachliche Dialogassistenten in der Pflege"

Die Partner des Verbundprojektes haben es sich zum Ziel gesetzt, die Grundlagen für ein umfassendes maschinelles Verstehen von menschlicher Kommunikation in der Pflege zu schaffen. Dadurch werden Interaktionen mit natürlicher Sprache zwischen computergestützten Systemen und Menschen möglich. Für den privaten Bereich soll damit ein längeres und selbstbestimmtes Leben in den eigenen vier Wänden von Pflegebedürftigen unterstützt werden.

In Pflegeeinrichtungen und Krankenhäusern sollen in erster Linie Pflegekräfte von Routine- und Dokumentationstätigkeiten entlastet werden. Mit den Ergebnissen werden direkt erste Anwendungsfelder für sprachbediente Hilfsmittel in der Pflege praktisch erschlossen.

Motivation

Unsere alternde Gesellschaft mit ihren demografischen Problemen erzeugt neue, aktuelle und zukünftige Herausforderungen, die gegenwärtig umfassend diskutiert werden. Dennoch gibt es bis heute keine zufriedenstellenden Lösungen, mit denen es möglich ist, der Situation angemessen zu begegnen. Zukünftig wird es für uns notwendig, das Thema der Versorgung Pflegebedürftiger zu optimieren, alternative Hilfen und Werkzeuge zu entwickeln und in der Pflege einzusetzen. Nur so lässt sich langfristig und nachhaltig dem Ressourcenmangel und dem drastisch wachsenden Pflegebedarf entgegenwirken. Technische Innovationen aus dem Bereich Informations- und Kommunikationstechnik können hier einen wertvollen Beitrag leisten.

Eine zentrale Aufgabe für einen erfolgreichen Einsatz von Innovationen für die geplante Zielgruppe älterer Menschen wird die Entwicklung stabiler Systeme für eine Interaktion mit natürlicher Sprache sein. Dass die Systeme umgangssprachlich formulierte Aussagen erkennen, sowie korrekte und zufriedenstellende Antworten auf Fragen oder Anliegen zur Verfügung stellen, ist eine notwendige Voraussetzung für ihre Akzeptanz und einen dauerhaften Einsatz. Auf der einen Seite ist diese Umstellung zu sprachbedienten Nutzerschnittstellen ein allgemeiner Trend in der Automatisierung, auf der anderen Seite kommt diese Entwicklung den nicht vorrangig mit Informationstechnik beschäftigten Menschen sehr entgegen und steigert Akzeptanz und Nutzen
von technischen Hilfsmitteln. Zusätzlich besitzen sprachbediente Geräte/Systeme den entscheidenden Vorteil, dass sie durch Patienten vom Bett aus und von Pflegekräften „nebenläufig“ gesteuert werden können (die Arme und Augen sind für andere Arbeiten frei).

Menschen nutzen für die Kommunikation untereinander verschiedene Ebenen und Kanäle. Neben dem rein verbalen, werden entscheidende Inhalte und Informationen auch im paraverbalen und nonverbalen Bereich übertragen. Bei der Auswertung von Gesprächen zeigt sich schnell: Dem paraverbalen Kommunikationsanteil kommt in vielen Situationen, insbesondere
in vertrauten Umgebungen, eine hohe Bedeutung zu. Nur gemeinsam mit diesem Kommunikationsanteil können die im verbalen Kanal enthaltenen Nachrichten korrekt gedeutet werden. Eine Analyse von enthaltenen Emotionen, Motivationen und psychologischen Eigenschaften kann weitere Einsichten in die Gespräche, deren Inhalte und Hintergründe bringen. Als Grundlage für diese Analyseziele dient die „TwentyFive“-Methode, welche von der sense.AI.tion GmbH branchenführend angewandt wird.

Stand der Forschung und aktuelle Ergebnisse

1) Modelle

Gegenwärtige im Markt existierende Systeme nutzen zur Spracherkennung und -analyse ausschließlich „eins zu eins“ schriftliche Kommunikationsanteile. Diese Einschränkung führt in so gut wie allen Anwendungsfällen dazu, dass wesentliche situations- und kontextabhängig Inhalte gar nicht beachtet werden. So entstehen Missverständnisse und/oder zusätzlicher Kommunikationsaufwand ist notwendig, um die notwendige Information zu transportieren.

Beispielsweise besitzt das Wort „Bank“ mehrere Verwendungen: als Kreditbank (Geldinstitut), Parkbank (Sitzgelegenheit), Schotterbank (Flussbett) oder auch als „eine sichere Bank sein“ (Redensart). Für Menschen ist die Zuordnung in der Regel eindeutig. Bringt jemand sein Geld zur Bank, ist das Geldinstitut gemeint und möchte sich jemand auf einer Bank ausruhen, so handelt es sich um eine Sitzgelegenheit. Gängige Systeme zur Sprachanalyse unterscheiden hierbei aber nicht und ordnen Begriffen feste Kategorien zu. Im Ergebnis entstehen viele Fehleinschätzungen. Optimal wärem außerdem Systeme, die zusätzlich Emotionen, Stimmungen und Motivationen erfassen, um darauf in einer passenden Weise reagieren zu können. Sätze wie „Mach doch was du willst!“ meinen häufig das Gegenteil des Gesagten. Situationsbedingte Komplikationen können auf diese Art und Weise besser erkannt und einer Lösung zugeführt werden. Reinen Sprachassistenten fehlen genau diese Fähigkeiten. Sie können kaum eine soziale Komponente für den Menschen einnehmen.

Zur Lösung dieses Problems wird aktuell im Projekt auf KI-Methoden des Natural Language Processings (NLP) zurückgegriffen. Dabei werden kontextsenitive Sprachmodelle trainiert, welche die Zusammensetzung der Sprache in mathematischen Vektorräumen abbilden. Die Technik basiert dabei auf sogenannte Transformer, wobei hierbei insbesondere BERT-Modelle trainiert und eingesetzt werden. Diese gestatten die bereits erwähnte Beachtung des Kontextes bei der Analyse von Gesprächen. Für sprachbediente Lösungen, die im deutschsprachigen Raum genutzt werden sollen, muss der Fokus logischerweise auf die umfassende Untersuchung der deutschen Sprache gelegt werden. Notwendige Trainingsdaten fehlen für deutschsprachige Systeme und die unterschiedlichen Anwendungsfälle, weshalb momentan ein Hybridansatz im Fokus steht. Konkret bedeutet dies: Wann immer möglich, werden die Modelle direkt für die deutsche Sprache trainiert und angewendet. Wenn dies, aufgrund der fehlenden Trainingsdaten, nicht möglich ist, wird zunächst eine Übersetzung ins Englische angestrebt, denn in der englischsprachigen NLP-Community stehen deutlich mehr Modelle zum Experimentieren zur Verfügung. Im Zuge der produktiven Verwendung dieses Hybridansatzes werden durch die User immer mehr Daten auf Deutsch zur Verfügung stehen, so dass auf mittelfristige Sicht die Übersetzung wegfallen kann.

Hinweis: Zur besseren Einschätzung der bisher geschaffenen deutschsprachigen Modelle wurde eine entsprechende Recherche durchgeführt. Diese mündete in einer Übersicht, welche unter folgendem Link betrachtet werden kann: https://github.com/icampuswildau/german-transformersoverview Prinzipiell konnten bisher 97 GB an textuellen Daten beschafft und vorverarbeitet werden. In verschiedenen Konfigurationen entstanden dabei 7 verschiedene BERT-Modelle (Nach dem Pretraining-Verfahren). Auch wenn die Menge an Daten viel erscheint, können diese jedoch i.d.R. nicht eins zu eins für die verschiedenen Anwendungsfälle verwendet werden und bedürfen größtenteils weiteren Unterteilungen und Vorklassifizierungen. Für den weiteren Verlauf des Projektes können sie jedoch als wichtiger Rohstoff betrachtet werden.

2) Anwendungsfälle

Mit den Prozessen zur Verarbeitung und Analyse von Sprache entsteht das Fundament für die eigentlichen Anwendungen sprachbedienter Hilfsmittel. Dabei stehen Pflegekräfte und Pflegebedürftige gleichermaßen im Zentrum des Konzeptes. Pflegekräfte werden seit vielen Jahren immer stärker belastet. Eine wachsende Anzahl zusätzlicher Aufgaben und Prozesse hält sie von ihrer eigentlichen, fachlichen Arbeit ab. Das reduziert die Zeit, die sie für die „Arbeit am Menschen“ aufbringen können. Zeitgleich betreuen Pflegekräfte mehrere Pflegebedürftige simultan und können auch sonst nicht ununterbrochen bei den betreuten Personen sein – es entstehen häufige und teils lange Zeiträume zwischen dem direkten menschlichen Kontakt.

Im ersten Schritt wurde eine automatische Protokollierung von Abläufen in der Leistungserbrinungen der Pflegekräfte (Tätigkeitsprotokollierung) durch die Implemetierung eines Checklistensystems geschaffen. Ein mehrstufiger KI-Workflow, als Kombination aus Deep-Learning Sprachmodellen (NLP mittels Transformern) und einem Machine-Learning-Classifier (mittels k-Nearest-Neighbor) realisiert dies.

Mit dieser automatischen Protokollierung von Abläufen in der Leistungserbringung soll ein erster Schritt zur Entlastung gegeben sein. Mittels einer Liste der Arbeitsabläufe und Leistungen, die zusätzlich kurze inhaltliche Beschreibungen enthalten, wir eine entsprechende Zuordnung erzeugt. Das Teilsystem wird gegen Ende 2021 von einem Fachkreis in Beelitz-Heilstätten erstmalig getestet.

 

Zum Projekt:

ROS-E: Die Geschichte eines kleinen Roboters, der Menschen unterstützt.

 

IFLA Satellite Meeting

Mehr zur Konferenz:

https://en.th-wildau.de/university/central-facilities/university-library/ifla-wlic-preconference-satellite-meeting/

ROS-E - Ein sozialer Roboter

Das ist ROS-E.

Das ist ROS-E

 

ROS-E wurde von uns, dem RobotikLab-Team der TH Wildau, selbst geplant, designt, produziert und entwickelt. Im Studiengang Telematik und in den Schülerlaboren werden seit einigen Jahren Roboter wie der NAO oder der kleine NIBO verwendet, um zu lehren, wie Roboter programmiert werden. Die Studierenden können dabei eigene Ideen für Projekte entwickeln und umsetzen. Dadurch kommen jedes Jahr viele schöne Projekte zustande, die aber häufig durch die Roboter bzw. deren Software eingeschränkt werden. Die Idee, einen eigenen Roboter zu bauen, bei dem alle Funktionen und auch der Preis des Roboters selbst beeinflusst werden können, wurde immer verlockender.

 

Einen eigenen Roboter bauen? Aber wie?

Aus dieser Idee wurde 2019 mit der Bachelorarbeit von Valentin

Prototypischer Bau eines Tischroboters als Plattform für zukünftige Entwicklungs- und Forschungsprojekte im Bereich Ambient Assistent Living und als Alternative zum NAO-Roboter

der erste Schritt auf dem Weg zu einem eigenen Roboter gewagt. Damals war ROS-E noch ein kleiner Haufen aus Hardware-Komponenten.

In diesem Zustand waren die grundlegenden Komponenten wie:

  • Stromversorgung
  • Sensoren (Kamera, Mikrofon-Array, ...)
  • Motoren und die
  • Recheneinheit

zusammengeschlossen. Im nächsten Schritt mussten alle Komponenten auch mit Software verbunden werden, sodass die Motoren gesteuert und Geräusche erkannt werden konnten. Aber viel mehr konnte ROS-E auch noch nicht tun.

 

Ein erstes Design

Damit war es an der Zeit, den "Hardware-Haufen" in eine Roboter-Form zu bringen und natürlich einen Namen zu vergeben. Alle Teile wurden verkabelt und in ein Gehäuse aus gelasertem Holz verpackt:

ROS-E - erstes Design

Die Ähnlichkeit zu einem gewissen Roboter aus dem Film WALL-E ist rein zufällig entstanden, war aber die Idee für den Namen ROS-E. Das ROS stammt von der Abkürzung für das Roboter Operating System, das Betriebssystem mit dem ROS-E arbeitet. Damals war das Design noch als Kopf und Körper mit einem Display geplant. Dieses Design wurde aus mehreren Gründen später nochmal überarbeitet.

 

Wie erweckt man einen Haufen Hardware zum Leben?

Ein großer Teil der Interaktion mit ROS-E findet über die Stimme (vom Menschen und von ROS-E) statt. Dahinter steckt ein komplexes System, das mit Hilfe von Künstlicher Intelligenz mehrere knifflige Teilaufgaben wie zum Beispiel die folgenden löst:

  • Wie erkennt ROS-E, dass jemand sie mit “Hey ROS-E” angesprochen hat?
  • Wie kann sie verstehen, was sie tun soll, wenn jemand sagt: “Kannst du ein Foto versenden?”
  • Und wie kann ROS-E überhaupt mit einer menschlichen Stimme sprechen?

Das Mikrofon-Array von ROS-E hat nicht nur eines, sondern 4 Mikrofone, weil mit ihnen die Richtung von Geräuschen errechnet werden kann. Außerdem kann in eine bestimmte Richtung gelauscht werden, indem alle anderen Nebengeräusche unterdrückt werden. Nach dieser Vorverarbeitung werden die Audio-Daten analysiert und festgestellt ob sie Sprache oder nur Geräusche enthalten. Die Abschnitte der Daten, die Sprache enthalten, werden an ein Künstliches Neuronales Netz weitergegeben.
Wer sich darunter nicht wirklich etwas vorstellen kann, findet auf dieser Seite eine interaktive Einführung in die Arbeitsweise von Künstlichen Neuronalen Netze: knn.innohub13.de.
Das Künstliche Neuronale Netz von ROS-E prüft, ob das was gesagt wurde das sogenannte "Keyword" oder "Wake-Word" enthält. Im Fall von ROS-E haben wir dieses Wort (oder die Phrase) auf "Hey ROS-E" festgelegt und das Netz damit trainiert.

Nachdem ROS-E das Keyword erkannt hat, lauscht sie auf den Befehl oder die Frage, die die Benutzer:innen anschließend stellen können. Die Audiodaten werden mit Hilfe eines weiteren Künstlichen Neuronalen Netzes in einen Text umgewandelt, den ROS-E anschließend auswerten kann. Mit diesen Themen der Sprachverarbeitung beschäftigt sich Tobias, seit er in seiner Masterarbeit ein solches System entwickelt hat.

ROS-E hat jetzt also aus den Audio-Daten einen Befehl in Form von Text „aufgeschrieben“. Dieser Text kann als nächstes ausgewertet werden. Diese Auswertung könnte zum Beispiel darin bestehen, den Befehl "Mach bitte das Licht an!" mit den verfügbaren Aktionen abzugleichen und auszuführen. Für die Erkennung solcher Befehle ist ein weiteres Künstliches Neuronales Netz zuständig.

ROS-E muss aber nicht nur stumm Befehle ausführen, sondern kann auch mit Sprache antworten. Dazu kann ein Entwickler oder eine Entwicklerin zum Beispiel als Antwort ein "OK" festlegen. Dieser Text wird dann mit Hilfe eines weiteren Netzes in eine künstliche Stimme synthetisiert, wie beim Mixen von Musik noch nachverarbeitet und schließlich über die Lautsprecher ausgegeben.

Wie funktioniert das mit der Sprachverarbeitung genauer?

 

Ein zweites Design und mehr ROS-Es

Während ROS-E immer mehr "geistige" Fähigkeiten bekam, war es an der Zeit, über ein neues Design nachzudenken. Der halb offene Kasten aus Holz war zu groß und unhandlich, um ihn Kindern oder älteren Menschen anzubieten. Um ROS-E so klein wie möglich zu gestalten, musste das große Display weggelassen werden. Dafür wurde später ein System eingerichtet, mit denen man die Apps auf ROS-E auf einem zusätzlichen Tablet anzeigen kann. Die Ideen für mögliche Formen sind hier zu sehen:

 

Es wurde ziemlich schnell klar, welche Idee weiter verfeinert werden sollte:

Ein Bild von einem Design zu haben, ist schon mal sehr hilfreich, aber der wirklich schwere Teil war jetzt, dieses Design auch so umzusetzen, dass alle Hardware-Komponenten sinnvoll in die Hülle passen, alles verkabelt werden kann, der Standfuß sich bewegen kann, das Ganze gut gekühlt werden kann.

Als es dann endlich so weit war und die erste ROS-E mit dem 3D-Drucker gedruckt und zusammengebaut war, sah das Innenleben so aus:

ROS-E Innenleben

 

Naja...nicht jede Idee sieht später so niedlich aus wie auf einer Zeichnung.... Der gruselige Skelett-Mund wurde also ziemlich schnell gegen ein weiteres Display wie das der Augen ausgetauscht. Als dann die Hülle mit dem Holz endlich fertig war, war es kaum zu glauben, dass ein kleines Bild auf einer Zeichnung jetzt Wirklichkeit geworden war:

ROS-E mit Holzhülle

 

Die Aufgaben von ROS-E

Die vage Idee, einen eigenen Roboter zu entwickeln, ist zwar inzwischen schon ein greifbarer Prototyp, die Arbeit mit ROS-E fängt allerdings erst richtig an. Roboter werden eigentlich immer mit dem Ziel gebaut, Menschen bei Aufgaben zu unterstützen. Manchmal ist die Aufgabe eines Roboters nur, den Menschen zu unterhalten, aber ROS-E kann mit ihren Fähigkeiten viel mehr tun. Aber was kann sie nun eigentlich tun?

Bis jetzt erscheint ROS-E bestimmt sehr ähnlich zu anderen Sprachassistenten wie Alexa & Co. Dieser Vergleich ist vermutlich hilfreich, um eine Vorstellung davon zu haben, wie die Interaktion mit ROS-E ungefähr aussehen könnte. Aber der Vergleich ist nicht ganz richtig, denn ROS-E hat einige wichtige Eigenschaften, die andere Sprachassistenten nicht haben.
Die vielleicht offensichtlichste ist ihr Gesicht. ROS-E kann Emotionen zeigen, die neben der Sprache ein sehr wichtiges Mittel der menschlichen Kommunikation sind. Aber viel wichtiger ist, dass sie auch Emotionen in Menschen auslösen kann. Es ist auf Bildern schwer zu zeigen, aber wenn wir ROS-E programmieren, passiert es uns nicht selten, dass wir selbst lächeln müssen, wenn sie uns frech anzwinkert. Gerade für die Kommunikation mit älteren Menschen kann ROS-E hoffentlich eher das Gefühl eines lebendigen Wesens erzeugen, als das einer sprechenden Box.

Wir haben ROS-E aber nicht nur mit Mikrofonen ausgestattet, sondern auch mit einer Kamera. Sie soll nicht nur hören, sondern auch sehen können. Auch Menschen nehmen einen sehr großen Teil der Informationen über die Augen auf. Mit ihrer Kamera ist ROS-E in der Lage zum Beispiel Gesichter und Gesten zu erkennen. Das könnte sehr wichtig werden, wenn Patient:innen nicht in der Lage sind, zu sprechen. Natürlich ist die Kommunikation mit Gesten möglicherweise eingeschränkter als mit der Stimme.

Da ROS-E nicht nur hören, sondern auch sehen kann, forschen wir derzeit an einem System, das beide „Sinne“ ähnlich wie im menschlichen Gehirn verbinden und so die aktuelle Situation einschätzen kann. Damit kann ROS-E nicht mehr nur auf Sprachbefehle reagieren, sondern für die aktuelle Situation eine passende Aktion auswählen. So kann sie lernen, in welcher Situation sie selbstständig einen Notfall melden oder fragen soll, ob sie das Licht einschalten kann. Auch die Situationserkennung arbeitet mit einem Künstlichen Neuronalen Netz und wird von Lara entwickelt, seit sie ihre Masterarbeit zu diesem Thema geschrieben hat.

Projekte mit ROS-E

Wir entwickeln ROS-E inzwischen auch nicht mehr nur in unserem Labor, sondern haben Projekt-Partner aus der „echten“ Welt gewinnen können. In der Bachelorarbeit von Patrick Schlesinger wird daran gearbeitet, dass über ROS-E automatisierte Türen gesteuert werden können. Diese Idee wird gemeinsam mit den Kliniken der Beelitz-Heilstätten umgesetzt, wo ROS-E in Zukunft den querschnittsgelähmten Patient:innen helfen soll, sich an ihre Situation zu gewöhnen.

Zusammen mit der sense.AI.tion GmbH aus Wildau arbeitet das RobotikLab zurzeit an einem Sprachassistenten für Pflegekräfte und zu pflegende Menschen. Das Ziel dabei ist es, dass vor allem die Menschen, die wenig Erfahrung mit Technik haben, ihre natürliche Sprache nutzen können, um mit Geräten wie ROS-E zu kommunizieren.

 

Im Frühling 2022 haben wir als Team ROS-E-beim innofab_ Ideenwettbewerb teilgenommen. Am 14.06. haben wir unsere Idee, mit ROS-E den Alltag von Pflegekräften und Pflegebedürftigen zu unterstützen, vor einer Jury und einem Publikum vorgestellt. Wir haben uns sehr gefreut, den 1. Platz und den mit dem 2. Platz geteilten Publikumspreis gewonnen zu haben. Das hat uns die Bestätigung gegeben, dass unsere Idee auch viele andere Menschen begeistert und wichtige Probleme lösen könnte.

Mehr über die spannenden Ideen der anderen Teilnehmer gibt es hier: https://innohub13.de/innofab-gewinnerinnen-2022/.

Das PROFIT-Projekt “Natürlichsprachliche Dialogassistenten in der Pflege” wird gefördert aus Mitteln des Europäischen Fonds für regionale Entwicklung (EFRE).

Projektlaufzeit: 01.07.2020 – 31.12.2022.



Weitere Informationen zu dem Projekt gibt es hier:
https://icampus.th-wildau.de/cms/roboticlab/projekte/natuerlichsprachliche-dialogassistenten-der-pflege

 

RobotikLab abonnieren