RoboticLab Aktuelles

Katheter, Sonde oder doch ein Zugang?

Im Rahmen der Erstellung eines KI-Systems zur Informationssuche für die Pflege wurde ein spezielles IR (Information Retrieval) Modell entwickelt. Dieses System verbessert die zielgerichtete Suche in unstrukturierten Datenbeständen. Sowohl kurze, Keyword basierte Formulierungen als auch vollständige Fragen sind anwendbar. Mit dem entwickelten Ansatz konnte eine deutliche Verbesserung des Information Retrieval für Deutsch gegenüber bisherigen Ansätzen erreicht werden (um bis zu 14% Punkte).

Information Retrieval als Basis von Textsuche

„Wie reinigt man den gelegten Zugang?“ Nun, eine Person nimmt sich einen Wischlappen, befeuchtet diesen und wischt die Tür von oben bis unten ab, bis der Dreck entfernt ist. Irgendwie passen Frage und Antwort nicht zusammen? Richtig, denn beim Lesen bzw. Interpretieren erscheint die Kombination aus „etwas legen + Zugang“ nicht stimmig, um eine Interpretation mit Zugang/Eingang/Tür zuzulassen. Mit etwas Vorwissen lässt sich schlussfolgern, dass der Kontext im Bereich der medizinischen Versorgung anzusiedeln ist. Konkret wird erfragt, wie der Katheter einer Person gereinigt werden kann, beispielsweise um diesen zu desinfizieren. Aber die Beweggründe sind eigentlich unwichtig, denn was viel mehr interessiert, ist die korrekte Kontextualisierung und korrekte Beantwortung der Nutzereingabe.

 

Die eingangs formulierte Frage mittels einer gängigen Suchmaschine zu beantworten ist zwar prinzipiell möglich, sollte aufgrund der Auswirkungen auf Menschen (und insbesondere Patienten), jedoch auf einer selbst zusammengestellten Datenbasis mit entsprechendem Domäne-Wissen basieren. Dafür ist ein Information Retrieval (IR) System notwendig. Ein IR-System nutzt die Eingabe der Benutzer zum Abgleich mit Dokumenten in einer Datenbank, um die relevantesten Inhalte zu extrahieren und zu sortieren. Die Suche nach relevanten Inhalten hat sich dabei über Jahre hinweg wenig verbessert und basiert auf lexikalischen Ansätzen wie der statistischen Vorkommenshäufigkeit (z.B. TF-IDF, BM25), der Wortstammrückführung, Entfernung von „irrelevanten Worten“ aber auch simplen (Voll-)Text vergleichen.

Direkte Abgleiche, egal ob bei Schlüsselworten (Keywords), Wortgruppen oder im Volltext, haben ein generelles Problem: Sprache ist nicht eindeutig. Die Suchergebnisse ignorieren inhaltsmäßige Ähnlichkeiten. Verwenden Benutzer nicht „die richtigen Worte“, sondern Synonyme oder thematisch ähnliche Begriffe, kann es schnell zu falschen Ergebnissen kommen. Beispielsweise könnten die Domäne-Inhalte einer Pflege-Einrichtung ausschließlich fachsprachlich vorliegen, was bedeutet, dass in den Texten von „Sonde“, „Katheter“, etc. die Rede ist und der Begriff „Zugang“ gar nicht vorkommt. In diesem Fall kann keine der klassischen Suchmethoden zielgerichtet relevante Inhalte auffinden. Die möglichst große Übereinstimmung von Eingabeworten und verwendeten Begriffen in den Dokumenten der Datenbank ist zwingende Voraussetzung, egal welche lexikalische oder syntaktische Methode Anwendung findet.


Verbesserung mit KI-Methoden

Mit Aufkommen der aktuellen KI-Welle entwickelten sich in den letzten Jahren vielversprechende Ansätze, um dieses Problematik unter Nutzung von Machine Learning, respektive Deep Learning, zu minimieren. Die Einführung von „Transformer“, zu nennen sind hierbei vor allem BERT, XLM, und T5, ermöglichen es, Zusammenhänge von Worten (Ähnlichkeit, Analogie, Thematik) durch neuronale Sprachmodelle darzustellen. Ein solches Modell kann anschließend anhand von Trainingsdaten hinsichtlich eines Lernziels optimiert werden.

 

 

In dem hier vorgestellten Fall gilt es, das Sprachmodell für die asymmetrische Suche zwischen einer Frage und beliebig vielen Textpassagen zu verfeinern (fine tuning). Die Suche ist asymmetrisch, weil eine relativ kurze Frage mit einer i.d.R. deutlich längeren Passage bzw. einem Textabsatz auf semantische Nähe untersucht wird. Im Training erlernt das Modell dabei anhand von Daten-Samples, bestehend aus Frage, der richtigen Antwort, einer falschen Antwort sowie einer Bewertung (score), zu priorisieren, welche Zusammenhänge zwischen Frage und Antwort besonders relevant (attentions) sind.

Symmetrische Suche vs. Asymmetrische Suche

Sollen relevante Inhalte bei der symmetrischen Variante gefunden werden, so müssen Eingabesatz und die Sätze der Datenbank ungefähr gleich lang sein. Bestenfalls sind die Sätze sogar gleich aufgebaut, d.h. es wird die Eingabefrage mit ähnlichen Fragen abgeglichen. In einem FAQ-System kann dies hilfreich sein, da FAQs häufig je Textabschnitt mit einer Frage beginnen.

Beispiel: „Wie reinigt man den gelegten Zugang?“ ↔ „Was mache ich bei der Reinigung des Katheters?“


Gilt es relevante Inhalte mit der asymmetrischen Form zu finden, so sollten Eingabesatz und Datenbank-Sätze unterschiedlich lang, wobei dabei normalerweise letztere länger sind. Solche Suchsysteme kommen am häufigsten vor und auch das hier vorgestellte entspricht diesem Ansatz.

Beispiel: „Wie reinigt man den gelegten Zugang?“ ↔ „Der hygienische Umgang mit einem Katheter ist enorm wichtig, um das Infektionsrisiko zu minimieren. Gehen Sie dabei wie folgt vor: (...)“

 

Training des Modells und Bewertung der Ergebnisse

Die Durchführung des Trainings erfolgt unter Nutzung von Sentence Transformer mit der Margin-MSE-Loss-Methode. Auf Details des Trainings (Parameter, Dauer, Skripte) soll an dieser Stelle nicht eingegangen werden. Alles wissenswerte über den Datensatz und den Trainingsprozess wird ein einem separaten Artikel vorgestellt bzw. können diese Informationen schon jetzt auf Englisch über Huggingface Transformers, der wichtigsten Plattform zur Veröffentlichung von Transformer Modellen, eingesehen werden. Außerdem lässt sich das trainierte Modell von dort herunterladen (https://huggingface.co/PM-AI/bi-encoder_msmarco_bert-base_german).

Gleich nach dem Training ist eine Evaluierung des neu entstandenen Modells nötig. Nach einer Recherche hat sich zunächst der Vergleich zwischen drei Ansätzen angeboten, welcher in Tabelle 1 dargestellt ist.

 

 

Recall@1

Recall@10

Recall@100

Unser Modell

0.5300
0.7196
0.7360

svalabs/bi-electra-ms-marco-german-uncased

0.3818
0.5663
0.5986

BM25

0.3196
0.5377
0.5740

Tabelle 1: Ergebnis der Evaluierung. Auf einer Skala von 0.0 bis 1.0 werden die Ansätze nach der Metrik „Recall“ bewertet. Hierbei ist 1.0 der beste Wert.

Im Vergleich schneidet BM25, ein lexikalischer Ansatz, der in der Praxis noch häufig Verwendung findet, am schlechtesten ab. Im Evaluierungs-Datensatz befinden sich schlichtweg zu viele Frage-Antwort-Paare, die nur bei Verständnis von Synonymen und thematischer Ähnlichkeit korrekt miteinander in Verbindung gesetzt werden können. Das Modell von svalabs erlaubt dagegen den direkten Vergleich zwischen zwei sehr ähnlichen Ansätzen, da sowohl svalabs als auch das Modell von senseaition und der TH Wildau Transformer basiert sind. Im Ergebnis schneidet das neue Modell mit einer hervorragenden Performance-Steigerung um 14 Prozentpunkte ab.

Um die Qualität des hier vorgestellten Ansatzes zu untermauern, findet ein weiterer Vergleich mit einem aktuellen State-Of-The-Art Modell statt: Das Entwickler-Team von deepset.ai hat, nach der DPR-Methode, einen Zwei-Stufen-Transformer für Deutsch entwickelt, bei dem Fragen und Texte/Passagen separat behandelt werden. Die erweiterten Ergebnisse sind in Tabelle 2 abgebildet.

 

 

Recall@1

Recall@10

Recall@100

Unser Modell

0.5300
0.7196
0.7360

https://huggingface.co/deepset/gbert-base-germandpr-question_encoder &

deepset/gbert-base-germandpr-ctx_encoder

0.4828
0.6970
0.7147

svalabs/bi-electra-ms-marco-german-uncased

0.3818
0.5663
0.5986

BM25

0.3196
0.5377
0.5740

Tabelle 2: Ergebnis der erweiterten Evaluierung. Auf einer Skala von 0.0 bis 1.0 werden die Ansätze nach der Metrik „Recall“ bewertet. Hierbei ist 1.0 der beste Wert.

Auch wenn die Performance-Steigerung mit ca. 2 Prozentpunkten kleiner ausfällt, ist das Ergebnis dennoch beeindruckend. Denn beim Ansatz von deepset werden zwei Modelle gebraucht, was Arbeitsspeicher und CPU-Leistung doppelt beansprucht und somit höhere Kosten verursacht. Im Produktiveinsatz kann dies entscheidend sein.

Die Ergebniswerte dürfen jedoch nicht als absolute Werte betrachtet werden! Je nach Testdaten und Domäne können die Werte variieren. Dennoch ist die Evaluierung im Vergleich der Ansätze untereinander valide. Übrigens, Experimente haben die Sinnhaftigkeit einer Kombination von BM25 mit Transformer-Modellen bewiesen. Entsprechende Erkenntnisse, KI getriebene Dienste und das technische Know-How bietet Ihnen die sense.AI.tion GmbH über eine eigens entwickelte Cloud-Produktpalette.
 

Dieses Projekt ist eine Kollaboration zwischen der Technischen Hochschule Wildau und sense.ai.tion GmbH. Sie können uns wie folgt kontaktieren:

This work was funded by the European Regional Development Fund (EFRE) and the State of Brandenburg. Project/Vorhaben: "ProFIT: Natürlichsprachliche Dialogassistenten in der Pflege".

     

Robotergefährtin ROS-E gewinnt Hauptpreis beim innofab_ Ideenwettbewerb

Am 14. Juni 2022 fand die finale Runde des innofab_Ideenwettbewerbs 2022 statt. Auch zwei Teams aus Wildau konnten am Dienstag in Cottbus ihre Ideen verteidigen - mit großem Erfolg. Die Telematiker:innen Lara Ziemert und Oskar Lorenz überzeugten mit ihrer Präsentation zum Projekt "ROS-E – Die zwischenmenschliche Roboter-Gefährtin”.  Zusammen mit Valentin Schröter und Tobias Kannenberg arbeiten sie im RobotikLab Telematik. Das 4-köpfige Team gewann am Dienstag nicht nur den 1. Preis des Wettbewerbs, sondern zusammen mit einem weiteren Team auch den Publikumspreis.

Impressionen zur Veranstaltung sowie weitere Informationen zum Wettbewerb, den Preisträger:innen und den Projekten unter  https://innohub13.de/innofab-gewinnerinnen-2022/.

ROS-E wurde entwickelt im Rahmen des Projektes Natürlichsprachliche Dialogassistenten in der Pflege.

Das PROFIT-Projekt “Natürlichsprachliche Dialogassistenten in der Pflege” wird gefördert aus Mitteln des Europäischen Fonds für regionale Entwicklung (EFRE).

Die Stadtbücherei Frankfurt am Main hat am 3.11.2021 den 1. Platz des Deutschen Lesepreises in der Kategorie „Herausragende Leseförderung mit digitalen Medien“ verliehen bekommen.

Vorstellung des Projekts.  
Alle Preisträger im Kurzportrait.

Lesepreis für Projekt "Roboter hört mit!"

Kindern im Grundschulalter zu helfen, mit Hilfe eines humanoiden Roboters ihre Lesekompetenz zu stärken, ist die Idee des Wildauer Lese-NAO-Projektes. Mit dieser attraktiven Idee hat 2017 die Stadtbibliothek Wildau den Innovationspreis für Bibliotheken der Berlin-Brandenburgischen Stiftung für Bibliothek-Forschung e.V. gewonnen. Das RoboticLab Telematik war Partner der Stadtbibliothek Wildau, u.a. verantwortlich für die technische Umsetzung des Projektes und entwickelt es seitdem kontinuierlich weiter.

Dass diese Idee nicht nur Brandenburger und Berliner Kindern gut gefällt, zeigte sich am 19. April 2021 in der Stadtbücherei Frankfurt am Main: Der dortige NAO-Roboter Ada hatte an dem Tag den ersten Einsatz als Lese-Roboter (Pressemitteilung). Die Veranstaltung war ausgebucht. Eine Reise durch die öffentlichen Bibliotheken der Stadt ist geplant. Wir im RoboticLab Telematik freuen uns sehr über die lebhafte und spannende Kooperation mit dem Team der Frankfurter Stadtbücherei. Das Projekt wird durch Oskar Lorenz, studentischer Mitarbeiter im RoboticLab Telematik und Bachelorstudent am Studiengang Telematik, inhaltlich und organisatorisch betreut. Die technische Umsetzung der ersten Version erfolgte durch Amanda Klingner (Masterstudentin) und Tina Lüthe (Absolventin des Masterstudiengangs Telematik).

Bericht in der Hessenschau vom 20.04.2021

 

Robots in Residence

Seit dem Sommer 2020 reisen zwei NAO-Roboter, GAIA und NaoMI, auf unterschiedlichen Wegen durch Europa - in jedem Monat besuchen sie eine andere Stadt. Dort werden sie von Coder*innen und Künstler*innen betreut und weiter programmiert, je nach lokalen Fragestellungen und Rahmenbedingungen.

Dieses spannende Projekt des Goethe-Institus in München ist Teil des Projektes “Generation A = Algorithmus - Nachdenken über Künstliche Intelligenz”, welches die Diskussion über Künstliche Intelligenz in breitere Gesellschaftsschichten tragen möchte.

Im Teilprojekt  “Robots in Residence”  stehen humanoide Roboter im Rampenlicht. Im Fokus steht das Verhältnis zwischen Mensch und Maschine in unterschiedlichen kulturellen Kontexten. Auf jeder Station lernen GAIA und NaoMI etwas Neues. Auf der Projektseite des Münchner Goethe-Instituts wird ausführlich darüber berichtet.

Für die Vorbereitung der NAO-Roboter für und die technische Unterstützung auf ihren Reisen ist das RoboticLab Telematik der TH Wildau verantwortlich. Auf dem für Herbst 2021 geplanten Abschlussfestival von “Generation A = Algorithmus” in Dresden sollen die beiden Roboter-Damen dann ihre erlernten Fähigkeiten präsentieren. Beide Teams in München und in Wildau sind schon sehr gespannt!
 

Abschlussfestival im Hygienemuseum in Dresden

Die Präsentation ausgewählter Projekte fand im Rahmen des Abschlussfestivals von „Generation A=Algorithmus“ im Deutschen Hygiene-Museum statt. Auf zwei großen Postern mit Projektinformationen von den Reisestationen konnten die Touren nachverfolgt werden. An zwei Stationen für Vorführung bzw. Interaktion konnten Besucher*innen die Ergebnisse hautnah erleben. Die Europareise war aufgeteilt in eine Ost- und ein Westtour. Drei NAO-Roboter waren vor Ort im Einsatz.

Die Projektergebnisse im Überblick

 

Europäischen Fonds für regionale Entwicklung (EFRE).

Das PROFIT-Projekt wird gefördert aus Mitteln des Europäischen Fonds für regionale Entwicklung (EFRE).

Projektlaufzeit: 01.07.2020 – 31.12.2022

Kooperationspartner:
sense.AI.tion
TH Wildau

Natürlichsprachliche Dialogassistenten in der Pflege

Das Projekt "Natürlichsprachliche Dialogassistenten in der Pflege"

Die Partner des Verbundprojektes haben es sich zum Ziel gesetzt, die Grundlagen für ein umfassendes maschinelles Verstehen von menschlicher Kommunikation in der Pflege zu schaffen. Dadurch werden Interaktionen mit natürlicher Sprache zwischen computergestützten Systemen und Menschen möglich. Für den privaten Bereich soll damit ein längeres und selbstbestimmtes Leben in den eigenen vier Wänden von Pflegebedürftigen unterstützt werden.

In Pflegeeinrichtungen und Krankenhäusern sollen in erster Linie Pflegekräfte von Routine- und Dokumentationstätigkeiten entlastet werden. Mit den Ergebnissen werden direkt erste Anwendungsfelder für sprachbediente Hilfsmittel in der Pflege praktisch erschlossen.

Motivation

Unsere alternde Gesellschaft mit ihren demografischen Problemen erzeugt neue, aktuelle und zukünftige Herausforderungen, die gegenwärtig umfassend diskutiert werden. Dennoch gibt es bis heute keine zufriedenstellenden Lösungen, mit denen es möglich ist, der Situation angemessen zu begegnen. Zukünftig wird es für uns notwendig, das Thema der Versorgung Pflegebedürftiger zu optimieren, alternative Hilfen und Werkzeuge zu entwickeln und in der Pflege einzusetzen. Nur so lässt sich langfristig und nachhaltig dem Ressourcenmangel und dem drastisch wachsenden Pflegebedarf entgegenwirken. Technische Innovationen aus dem Bereich Informations- und Kommunikationstechnik können hier einen wertvollen Beitrag leisten.

Eine zentrale Aufgabe für einen erfolgreichen Einsatz von Innovationen für die geplante Zielgruppe älterer Menschen wird die Entwicklung stabiler Systeme für eine Interaktion mit natürlicher Sprache sein. Dass die Systeme umgangssprachlich formulierte Aussagen erkennen, sowie korrekte und zufriedenstellende Antworten auf Fragen oder Anliegen zur Verfügung stellen, ist eine notwendige Voraussetzung für ihre Akzeptanz und einen dauerhaften Einsatz. Auf der einen Seite ist diese Umstellung zu sprachbedienten Nutzerschnittstellen ein allgemeiner Trend in der Automatisierung, auf der anderen Seite kommt diese Entwicklung den nicht vorrangig mit Informationstechnik beschäftigten Menschen sehr entgegen und steigert Akzeptanz und Nutzen
von technischen Hilfsmitteln. Zusätzlich besitzen sprachbediente Geräte/Systeme den entscheidenden Vorteil, dass sie durch Patienten vom Bett aus und von Pflegekräften „nebenläufig“ gesteuert werden können (die Arme und Augen sind für andere Arbeiten frei).

Menschen nutzen für die Kommunikation untereinander verschiedene Ebenen und Kanäle. Neben dem rein verbalen, werden entscheidende Inhalte und Informationen auch im paraverbalen und nonverbalen Bereich übertragen. Bei der Auswertung von Gesprächen zeigt sich schnell: Dem paraverbalen Kommunikationsanteil kommt in vielen Situationen, insbesondere
in vertrauten Umgebungen, eine hohe Bedeutung zu. Nur gemeinsam mit diesem Kommunikationsanteil können die im verbalen Kanal enthaltenen Nachrichten korrekt gedeutet werden. Eine Analyse von enthaltenen Emotionen, Motivationen und psychologischen Eigenschaften kann weitere Einsichten in die Gespräche, deren Inhalte und Hintergründe bringen. Als Grundlage für diese Analyseziele dient die „TwentyFive“-Methode, welche von der sense.AI.tion GmbH branchenführend angewandt wird.

Stand der Forschung und aktuelle Ergebnisse

1) Modelle

Gegenwärtige im Markt existierende Systeme nutzen zur Spracherkennung und -analyse ausschließlich „eins zu eins“ schriftliche Kommunikationsanteile. Diese Einschränkung führt in so gut wie allen Anwendungsfällen dazu, dass wesentliche situations- und kontextabhängig Inhalte gar nicht beachtet werden. So entstehen Missverständnisse und/oder zusätzlicher Kommunikationsaufwand ist notwendig, um die notwendige Information zu transportieren.

Beispielsweise besitzt das Wort „Bank“ mehrere Verwendungen: als Kreditbank (Geldinstitut), Parkbank (Sitzgelegenheit), Schotterbank (Flussbett) oder auch als „eine sichere Bank sein“ (Redensart). Für Menschen ist die Zuordnung in der Regel eindeutig. Bringt jemand sein Geld zur Bank, ist das Geldinstitut gemeint und möchte sich jemand auf einer Bank ausruhen, so handelt es sich um eine Sitzgelegenheit. Gängige Systeme zur Sprachanalyse unterscheiden hierbei aber nicht und ordnen Begriffen feste Kategorien zu. Im Ergebnis entstehen viele Fehleinschätzungen. Optimal wärem außerdem Systeme, die zusätzlich Emotionen, Stimmungen und Motivationen erfassen, um darauf in einer passenden Weise reagieren zu können. Sätze wie „Mach doch was du willst!“ meinen häufig das Gegenteil des Gesagten. Situationsbedingte Komplikationen können auf diese Art und Weise besser erkannt und einer Lösung zugeführt werden. Reinen Sprachassistenten fehlen genau diese Fähigkeiten. Sie können kaum eine soziale Komponente für den Menschen einnehmen.

Zur Lösung dieses Problems wird aktuell im Projekt auf KI-Methoden des Natural Language Processings (NLP) zurückgegriffen. Dabei werden kontextsenitive Sprachmodelle trainiert, welche die Zusammensetzung der Sprache in mathematischen Vektorräumen abbilden. Die Technik basiert dabei auf sogenannte Transformer, wobei hierbei insbesondere BERT-Modelle trainiert und eingesetzt werden. Diese gestatten die bereits erwähnte Beachtung des Kontextes bei der Analyse von Gesprächen. Für sprachbediente Lösungen, die im deutschsprachigen Raum genutzt werden sollen, muss der Fokus logischerweise auf die umfassende Untersuchung der deutschen Sprache gelegt werden. Notwendige Trainingsdaten fehlen für deutschsprachige Systeme und die unterschiedlichen Anwendungsfälle, weshalb momentan ein Hybridansatz im Fokus steht. Konkret bedeutet dies: Wann immer möglich, werden die Modelle direkt für die deutsche Sprache trainiert und angewendet. Wenn dies, aufgrund der fehlenden Trainingsdaten, nicht möglich ist, wird zunächst eine Übersetzung ins Englische angestrebt, denn in der englischsprachigen NLP-Community stehen deutlich mehr Modelle zum Experimentieren zur Verfügung. Im Zuge der produktiven Verwendung dieses Hybridansatzes werden durch die User immer mehr Daten auf Deutsch zur Verfügung stehen, so dass auf mittelfristige Sicht die Übersetzung wegfallen kann.

Hinweis: Zur besseren Einschätzung der bisher geschaffenen deutschsprachigen Modelle wurde eine entsprechende Recherche durchgeführt. Diese mündete in einer Übersicht, welche unter folgendem Link betrachtet werden kann: https://github.com/icampuswildau/german-transformersoverview Prinzipiell konnten bisher 97 GB an textuellen Daten beschafft und vorverarbeitet werden. In verschiedenen Konfigurationen entstanden dabei 7 verschiedene BERT-Modelle (Nach dem Pretraining-Verfahren). Auch wenn die Menge an Daten viel erscheint, können diese jedoch i.d.R. nicht eins zu eins für die verschiedenen Anwendungsfälle verwendet werden und bedürfen größtenteils weiteren Unterteilungen und Vorklassifizierungen. Für den weiteren Verlauf des Projektes können sie jedoch als wichtiger Rohstoff betrachtet werden.

2) Anwendungsfälle

Mit den Prozessen zur Verarbeitung und Analyse von Sprache entsteht das Fundament für die eigentlichen Anwendungen sprachbedienter Hilfsmittel. Dabei stehen Pflegekräfte und Pflegebedürftige gleichermaßen im Zentrum des Konzeptes. Pflegekräfte werden seit vielen Jahren immer stärker belastet. Eine wachsende Anzahl zusätzlicher Aufgaben und Prozesse hält sie von ihrer eigentlichen, fachlichen Arbeit ab. Das reduziert die Zeit, die sie für die „Arbeit am Menschen“ aufbringen können. Zeitgleich betreuen Pflegekräfte mehrere Pflegebedürftige simultan und können auch sonst nicht ununterbrochen bei den betreuten Personen sein – es entstehen häufige und teils lange Zeiträume zwischen dem direkten menschlichen Kontakt.

Im ersten Schritt wurde eine automatische Protokollierung von Abläufen in der Leistungserbrinungen der Pflegekräfte (Tätigkeitsprotokollierung) durch die Implemetierung eines Checklistensystems geschaffen. Ein mehrstufiger KI-Workflow, als Kombination aus Deep-Learning Sprachmodellen (NLP mittels Transformern) und einem Machine-Learning-Classifier (mittels k-Nearest-Neighbor) realisiert dies.

Mit dieser automatischen Protokollierung von Abläufen in der Leistungserbringung soll ein erster Schritt zur Entlastung gegeben sein. Mittels einer Liste der Arbeitsabläufe und Leistungen, die zusätzlich kurze inhaltliche Beschreibungen enthalten, wir eine entsprechende Zuordnung erzeugt. Das Teilsystem wird gegen Ende 2021 von einem Fachkreis in Beelitz-Heilstätten erstmalig getestet.

 

Zum Projekt:

ROS-E: Die Geschichte eines kleinen Roboters, der Menschen unterstützt.

 

Einblicke in das RoboticLab

Studierende des Studiengangs Telematik der TH Wildau beschäftigen sich in Projekten und im Rahmen von Abschlussarbeiten mit den Möglichkeiten der Nutzung von NAO-Robotern in der angewandten Forschung.

Themen für die Arbeit mit NAOs in den Laboren sind zum z.B. Human-Robot-Interaction im therapeutischen Bereich, Robot-Robot-Interaction, Localization und Navigation oder Perception and Cognition sowie Locomotion.
Die Nibo2-Roboter der Firma nicai systems werden vor allem für den Einstieg in die Welt der Robotic genutzt.

Schülern steht das RoboticLab im Rahmen von NaWiTex offen. Sie lernen hier die Anwendungsbereiche von Robotern in der moderner Robotik und der angewandten Informatik kennen und sehen, wie man Robotern Leben einhaucht.

ROS-E - Ein sozialer Roboter

Das ist ROS-E.

Das ist ROS-E

 

ROS-E wurde von uns, dem RobotikLab-Team der TH Wildau, selbst geplant, designt, produziert und entwickelt. Im Studiengang Telematik und in den Schülerlaboren werden seit einigen Jahren Roboter wie der NAO oder der kleine NIBO verwendet, um zu lehren, wie Roboter programmiert werden. Die Studierenden können dabei eigene Ideen für Projekte entwickeln und umsetzen. Dadurch kommen jedes Jahr viele schöne Projekte zustande, die aber häufig durch die Roboter bzw. deren Software eingeschränkt werden. Die Idee, einen eigenen Roboter zu bauen, bei dem alle Funktionen und auch der Preis des Roboters selbst beeinflusst werden können, wurde immer verlockender.

 

Einen eigenen Roboter bauen? Aber wie?

Aus dieser Idee wurde 2019 mit der Bachelorarbeit von Valentin

Prototypischer Bau eines Tischroboters als Plattform für zukünftige Entwicklungs- und Forschungsprojekte im Bereich Ambient Assistent Living und als Alternative zum NAO-Roboter

der erste Schritt auf dem Weg zu einem eigenen Roboter gewagt. Damals war ROS-E noch ein kleiner Haufen aus Hardware-Komponenten.

In diesem Zustand waren die grundlegenden Komponenten wie:

  • Stromversorgung
  • Sensoren (Kamera, Mikrofon-Array, ...)
  • Motoren und die
  • Recheneinheit

zusammengeschlossen. Im nächsten Schritt mussten alle Komponenten auch mit Software verbunden werden, sodass die Motoren gesteuert und Geräusche erkannt werden konnten. Aber viel mehr konnte ROS-E auch noch nicht tun.

 

Ein erstes Design

Damit war es an der Zeit, den "Hardware-Haufen" in eine Roboter-Form zu bringen und natürlich einen Namen zu vergeben. Alle Teile wurden verkabelt und in ein Gehäuse aus gelasertem Holz verpackt:

ROS-E - erstes Design

Die Ähnlichkeit zu einem gewissen Roboter aus dem Film WALL-E ist rein zufällig entstanden, war aber die Idee für den Namen ROS-E. Das ROS stammt von der Abkürzung für das Roboter Operating System, das Betriebssystem mit dem ROS-E arbeitet. Damals war das Design noch als Kopf und Körper mit einem Display geplant. Dieses Design wurde aus mehreren Gründen später nochmal überarbeitet.

 

Wie erweckt man einen Haufen Hardware zum Leben?

Ein großer Teil der Interaktion mit ROS-E findet über die Stimme (vom Menschen und von ROS-E) statt. Dahinter steckt ein komplexes System, das mit Hilfe von Künstlicher Intelligenz mehrere knifflige Teilaufgaben wie zum Beispiel die folgenden löst:

  • Wie erkennt ROS-E, dass jemand sie mit “Hey ROS-E” angesprochen hat?
  • Wie kann sie verstehen, was sie tun soll, wenn jemand sagt: “Kannst du ein Foto versenden?”
  • Und wie kann ROS-E überhaupt mit einer menschlichen Stimme sprechen?

Das Mikrofon-Array von ROS-E hat nicht nur eines, sondern 4 Mikrofone, weil mit ihnen die Richtung von Geräuschen errechnet werden kann. Außerdem kann in eine bestimmte Richtung gelauscht werden, indem alle anderen Nebengeräusche unterdrückt werden. Nach dieser Vorverarbeitung werden die Audio-Daten analysiert und festgestellt ob sie Sprache oder nur Geräusche enthalten. Die Abschnitte der Daten, die Sprache enthalten, werden an ein Künstliches Neuronales Netz weitergegeben.
Wer sich darunter nicht wirklich etwas vorstellen kann, findet auf dieser Seite eine interaktive Einführung in die Arbeitsweise von Künstlichen Neuronalen Netze: knn.innohub13.de.
Das Künstliche Neuronale Netz von ROS-E prüft, ob das was gesagt wurde das sogenannte "Keyword" oder "Wake-Word" enthält. Im Fall von ROS-E haben wir dieses Wort (oder die Phrase) auf "Hey ROS-E" festgelegt und das Netz damit trainiert.

Nachdem ROS-E das Keyword erkannt hat, lauscht sie auf den Befehl oder die Frage, die die Benutzer:innen anschließend stellen können. Die Audiodaten werden mit Hilfe eines weiteren Künstlichen Neuronalen Netzes in einen Text umgewandelt, den ROS-E anschließend auswerten kann. Mit diesen Themen der Sprachverarbeitung beschäftigt sich Tobias, seit er in seiner Masterarbeit ein solches System entwickelt hat.

ROS-E hat jetzt also aus den Audio-Daten einen Befehl in Form von Text „aufgeschrieben“. Dieser Text kann als nächstes ausgewertet werden. Diese Auswertung könnte zum Beispiel darin bestehen, den Befehl "Mach bitte das Licht an!" mit den verfügbaren Aktionen abzugleichen und auszuführen. Für die Erkennung solcher Befehle ist ein weiteres Künstliches Neuronales Netz zuständig.

ROS-E muss aber nicht nur stumm Befehle ausführen, sondern kann auch mit Sprache antworten. Dazu kann ein Entwickler oder eine Entwicklerin zum Beispiel als Antwort ein "OK" festlegen. Dieser Text wird dann mit Hilfe eines weiteren Netzes in eine künstliche Stimme synthetisiert, wie beim Mixen von Musik noch nachverarbeitet und schließlich über die Lautsprecher ausgegeben.

Wie funktioniert das mit der Sprachverarbeitung genauer?

 

Ein zweites Design und mehr ROS-Es

Während ROS-E immer mehr "geistige" Fähigkeiten bekam, war es an der Zeit, über ein neues Design nachzudenken. Der halb offene Kasten aus Holz war zu groß und unhandlich, um ihn Kindern oder älteren Menschen anzubieten. Um ROS-E so klein wie möglich zu gestalten, musste das große Display weggelassen werden. Dafür wurde später ein System eingerichtet, mit denen man die Apps auf ROS-E auf einem zusätzlichen Tablet anzeigen kann. Die Ideen für mögliche Formen sind hier zu sehen:

 

Es wurde ziemlich schnell klar, welche Idee weiter verfeinert werden sollte:

Ein Bild von einem Design zu haben, ist schon mal sehr hilfreich, aber der wirklich schwere Teil war jetzt, dieses Design auch so umzusetzen, dass alle Hardware-Komponenten sinnvoll in die Hülle passen, alles verkabelt werden kann, der Standfuß sich bewegen kann, das Ganze gut gekühlt werden kann.

Als es dann endlich so weit war und die erste ROS-E mit dem 3D-Drucker gedruckt und zusammengebaut war, sah das Innenleben so aus:

ROS-E Innenleben

 

Naja...nicht jede Idee sieht später so niedlich aus wie auf einer Zeichnung.... Der gruselige Skelett-Mund wurde also ziemlich schnell gegen ein weiteres Display wie das der Augen ausgetauscht. Als dann die Hülle mit dem Holz endlich fertig war, war es kaum zu glauben, dass ein kleines Bild auf einer Zeichnung jetzt Wirklichkeit geworden war:

ROS-E mit Holzhülle

 

Die Aufgaben von ROS-E

Die vage Idee, einen eigenen Roboter zu entwickeln, ist zwar inzwischen schon ein greifbarer Prototyp, die Arbeit mit ROS-E fängt allerdings erst richtig an. Roboter werden eigentlich immer mit dem Ziel gebaut, Menschen bei Aufgaben zu unterstützen. Manchmal ist die Aufgabe eines Roboters nur, den Menschen zu unterhalten, aber ROS-E kann mit ihren Fähigkeiten viel mehr tun. Aber was kann sie nun eigentlich tun?

Bis jetzt erscheint ROS-E bestimmt sehr ähnlich zu anderen Sprachassistenten wie Alexa & Co. Dieser Vergleich ist vermutlich hilfreich, um eine Vorstellung davon zu haben, wie die Interaktion mit ROS-E ungefähr aussehen könnte. Aber der Vergleich ist nicht ganz richtig, denn ROS-E hat einige wichtige Eigenschaften, die andere Sprachassistenten nicht haben.
Die vielleicht offensichtlichste ist ihr Gesicht. ROS-E kann Emotionen zeigen, die neben der Sprache ein sehr wichtiges Mittel der menschlichen Kommunikation sind. Aber viel wichtiger ist, dass sie auch Emotionen in Menschen auslösen kann. Es ist auf Bildern schwer zu zeigen, aber wenn wir ROS-E programmieren, passiert es uns nicht selten, dass wir selbst lächeln müssen, wenn sie uns frech anzwinkert. Gerade für die Kommunikation mit älteren Menschen kann ROS-E hoffentlich eher das Gefühl eines lebendigen Wesens erzeugen, als das einer sprechenden Box.

Wir haben ROS-E aber nicht nur mit Mikrofonen ausgestattet, sondern auch mit einer Kamera. Sie soll nicht nur hören, sondern auch sehen können. Auch Menschen nehmen einen sehr großen Teil der Informationen über die Augen auf. Mit ihrer Kamera ist ROS-E in der Lage zum Beispiel Gesichter und Gesten zu erkennen. Das könnte sehr wichtig werden, wenn Patient:innen nicht in der Lage sind, zu sprechen. Natürlich ist die Kommunikation mit Gesten möglicherweise eingeschränkter als mit der Stimme.

Da ROS-E nicht nur hören, sondern auch sehen kann, forschen wir derzeit an einem System, das beide „Sinne“ ähnlich wie im menschlichen Gehirn verbinden und so die aktuelle Situation einschätzen kann. Damit kann ROS-E nicht mehr nur auf Sprachbefehle reagieren, sondern für die aktuelle Situation eine passende Aktion auswählen. So kann sie lernen, in welcher Situation sie selbstständig einen Notfall melden oder fragen soll, ob sie das Licht einschalten kann. Auch die Situationserkennung arbeitet mit einem Künstlichen Neuronalen Netz und wird von Lara entwickelt, seit sie ihre Masterarbeit zu diesem Thema geschrieben hat.

Projekte mit ROS-E

Wir entwickeln ROS-E inzwischen auch nicht mehr nur in unserem Labor, sondern haben Projekt-Partner aus der „echten“ Welt gewinnen können. In der Bachelorarbeit von Patrick Schlesinger wird daran gearbeitet, dass über ROS-E automatisierte Türen gesteuert werden können. Diese Idee wird gemeinsam mit den Kliniken der Beelitz-Heilstätten umgesetzt, wo ROS-E in Zukunft den querschnittsgelähmten Patient:innen helfen soll, sich an ihre Situation zu gewöhnen.

Zusammen mit der sense.AI.tion GmbH aus Wildau arbeitet das RobotikLab zurzeit an einem Sprachassistenten für Pflegekräfte und zu pflegende Menschen. Das Ziel dabei ist es, dass vor allem die Menschen, die wenig Erfahrung mit Technik haben, ihre natürliche Sprache nutzen können, um mit Geräten wie ROS-E zu kommunizieren.

 

Im Frühling 2022 haben wir als Team ROS-E-beim innofab_ Ideenwettbewerb teilgenommen. Am 14.06. haben wir unsere Idee, mit ROS-E den Alltag von Pflegekräften und Pflegebedürftigen zu unterstützen, vor einer Jury und einem Publikum vorgestellt. Wir haben uns sehr gefreut, den 1. Platz und den mit dem 2. Platz geteilten Publikumspreis gewonnen zu haben. Das hat uns die Bestätigung gegeben, dass unsere Idee auch viele andere Menschen begeistert und wichtige Probleme lösen könnte.

Mehr über die spannenden Ideen der anderen Teilnehmer gibt es hier: https://innohub13.de/innofab-gewinnerinnen-2022/.

Das PROFIT-Projekt “Natürlichsprachliche Dialogassistenten in der Pflege” wird gefördert aus Mitteln des Europäischen Fonds für regionale Entwicklung (EFRE).

Projektlaufzeit: 01.07.2020 – 31.12.2022.



Weitere Informationen zu dem Projekt gibt es hier:
https://icampus.th-wildau.de/cms/roboticlab/projekte/natuerlichsprachliche-dialogassistenten-der-pflege

 

Pepper als Bibliotheksassistent

Unterstützung und Informationen in der 24/7 Bibliothek

Im Rahmen einer hochschulinternen Zielvereinbarung unter dem Titel „Pepper4Library“ wurde der Pepper-Roboter Wilma für den Bibliothekseinsatz bis 2018 vorbereitet und ist aktuell für Informationsdienste und Bibliotheksführungen im Einsatz. Als fahrende und interaktive Litfaßsäule steht Wilma in der 1. Etage der Bibliothek bereit.

Seit September 2016 verfügt die Hochschulbibliothek über eine 1.20 große Kollegin mit dem Namen Wilma, die vom französisch-japanischen Hersteller (Aldebaran/SoftBank) als Pepper ausgeliefert wird. Der gleichzeitig angeschaffte zweite Pepper der Hochschule mit dem Namen Bernd befindet sich im RoboticLab des Studiengangs Telematik.

Zielvereinbarung Pepper4Library

Der humanoide Roboter soll im Rahmen einer hochschulinternen Zielvereinbarung unter dem Titel „Pepper4Library“ zusammen mit dem Team um Frau Prof. Mohnke für den Bibliothekseinsatz bis 2018 vorbereitet werden. Erstreckt sich sein "Können" auf tablet-gesteuertes Fahren und Bewegen, Spiele wie Schere-Stein-Papier, Witze erzählen, eine Bibliotheksführung, wird gerade intensiv an der Ortung und Navigation gearbeitet, an einem Tutorial zur Erläuterung der Drucker-Scanner-Kopiermaschine etc. Als fahrende und interaktive Litfaßsäule soll Wilma sich über alle drei Etagen mittels des Fahrstuhls bewegen können, die natürliche Sprache verstehen und kommunizieren können, gezielt Hinweise vermitteln, um in den Nachtzeiten und an den Wochenenden Bibliotheksbenutzern Hilfestellung zu geben. Damit kann die unbemannte Bibliothek, welche über ein chipkartenbasiertes Zugangssystem verfügt, auch außerhalb der üblichen Servicezeiten einen Grundbedarf an Serviceleistungen anbieten, wie man es im online-Zeitalter und der Ära von RFID-Selbstverbuchern auch sonst gewohnt ist.

...

 

 

RoboticLab Aktuelles abonnieren