Projekte Prof. Wendemuth
Aktuelle Projekte
Adaptive Strategien für Assistenztechnologien in Mehrpersonen-Interaktionen II (ASAMI II)
Laufzeit: 31.12.2024 bis 31.12.2024
Übergeordnete Ziele von ASAMI II sind das Verständnis des Verhältnisses zwischen sprachlich erfassbaren Dispositionen und Handlungsintentionen und darüber hinaus die Strategien von Nutzern eines Assistenzsystems in einer Mehrpersonensituation. Dafür wird die Entwicklung, Evaluierung und Optimierung der situationsbezogenen Dispositionserkennung des Benutzers durch gesprochene Sprache weiterhin im Fokus bleiben. Dies wird um die Komponente der Handlungsintentionserkennung im dialogischen Umfeld erweitert. Die Bewertung von Nutzercharakteristiken stellt für das Dialogmanagement eine wichtige Voraussetzung dar. Es wird eine informierte Dispositionserkennung etabliert, die sich auf akustische Ereignisse stützt, welche aus spektralen, prosodischen und paralinguistischen Merkmalen ableitbar sind. Die gewonnenen Erkenntnisse werden dabei direkt in die Handlungsintentions- und Interaktionsstilerkennung einfließen, die für eine adaptive, zielorientierte Dialogstrategie genutzt werden. Komplementär dazu werden die akustischen Nutzersignale innerhalb einer Mehrpersonensituation analysiert. Dazu wird das dynamische Wechselspiel zwischen aktiven und passiven Interaktionsanteilen (Involvement) eines Kommunikationspartners auf akustischer Ebene analysiert. Solch dynamische Änderungen sind integrales Merkmal einer Konversation und geben Aufschluss über Strategien des Nutzers. Insbesondere lässt sich dieses Wechselspiel bei einem Szenario bestehend aus einem Assistenzsystem und mehreren Personen beobachten. Hier geht es vor allem um die Etablierung adaptiver Problemlösungsstrategien.
Adaptive Strategien für Assistenztechnologien in Mehrpersonen-Interaktionen II (ASAMI II)
Laufzeit: 01.07.2022 bis 31.12.2024
Übergeordnete Ziele von ASAMI II sind das Verständnis des Verhältnisses zwischen sprachlich erfassbaren Dispositionen und Handlungsintentionen und darüber hinaus die Strategien von Nutzern eines Assistenzsystems in einer Mehrpersonensituation. Dafür wird die Entwicklung, Evaluierung und Optimierung der situationsbezogenen Dispositionserkennung des Benutzers durch gesprochene Sprache weiterhin im Fokus bleiben. Dies wird um die Komponente der Handlungsintentionserkennung im dialogischen Umfeld erweitert. Die Bewertung von Nutzercharakteristiken stellt für das Dialogmanagement eine wichtige Voraussetzung dar. Es wird eine informierte Dispositionserkennung etabliert, die sich auf akustische Ereignisse stützt, welche aus spektralen, prosodischen und paralinguistischen Merkmalen ableitbar sind. Die gewonnenen Erkenntnisse werden dabei direkt in die Handlungsintentions- und Interaktionsstilerkennung einfließen, die für eine adaptive, zielorientierte Dialogstrategie genutzt werden. Komplementär dazu werden die akustischen Nutzersignale innerhalb einer Mehrpersonensituation analysiert. Dazu wird das dynamische Wechselspiel zwischen aktiven und passiven Interaktionsanteilen (Involvement) eines Kommunikationspartners auf akustischer Ebene analysiert. Solch dynamische Änderungen sind integrales Merkmal einer Konversation und geben Aufschluss über Strategien des Nutzers. Insbesondere lässt sich dieses Wechselspiel bei einem Szenario bestehend aus einem Assistenzsystem und mehreren Personen beobachten. Hier geht es vor allem um die Etablierung adaptiver Problemlösungsstrategien.
NIIMO: Netzwerkinitiative Intelligente Mobilität
Laufzeit: 01.01.2021 bis 31.12.2024
Mobilitätsbedürfnisse, verkehrsplanerische und verkehrswirtschaftliche Ansätze, Reallabors, in Kooperation mit NASA GmbH. Dies wird mit Kooperationsvertrag OVGU-NASA vom Februar 2021 verfolgt.
.
Abgeschlossene Projekte
Intelligenter Mobilitätsraum Magdeburg
Laufzeit: 01.01.2021 bis 31.12.2023
Die Otto-von-Guericke-Universität Magdeburg (Forschungsschwerpunkt Intelligenter Mobilitätsraum, Sprecher Prof. A. Wendemuth) und die Nahverkehrsservicegesellschaft Sachsen-Anhalt GmbH (NASA) schaffen gemeinsam in der Region Magdeburg einen Experimentierraum für Mobilitätslösungen. Dazu haben beide Seiten im Februar 2021 einen Kooperationsvertrag unterschrieben. Neue Ergebnisse und Technologien aus der Forschung werden für Mobilität & Leben/ Wohnen der Zukunft erprobt und umgesetzt. Praxisnah werden Alltagslösungen entwickelt, um Stadt und Umland besser miteinander zu vernetzen. Hier entstehen individualisierte Angebote sowohl für mobilitätseingeschränkte ältere Menschen wie auch für junge mobile Familien.
Adaptive Strategien für Assistenztechnologien in Mehrpersonen-Interaktionen (ASAMI)
Laufzeit: 01.01.2021 bis 30.06.2022
Adaptive Strategien für Assistenztechnologien in Mehrpersonen-Interaktionen (ASAMI) sind Unterstützungsparadigmen, die für einzelne oder mehrere Akteure zielgerichtete technische Assistenzen anbieten können, um Unsicherheit in der Handlungsplanung und in der gemeinsamen Interaktion der Akteure zu reduzieren und die Aufgabenbearbeitung voranzubringen. Dazu gehören die Antizipation und das Auswählen von Handlungsmöglichkeiten, das Monitoring und Anpassen von Handlungsfolgen, Strategien der Informationsbeschaffung (extern), situiertes Explorieren sowie kommunikative Strategien wie Feedback, Informieren, Intervenieren oder Aushandeln mit Mitteln der multimodalen, dialogischen Kommunikation. Ebenso eingeschlossen ist die Translation und kreative Verknüpfung von Wissen aus anderen Kontexten, um den Möglichkeitsraum zu erweitern. Dabei werden handlungsleitende Ziel- und Vorhabenstellungen der Akteure erfasst und einbezogen.
Intentionale, antizipatorische, interaktive Systeme (IAIS)
Laufzeit: 01.01.2018 bis 31.12.2021
Intentionale, antizipatorische, interaktive Systeme (IAIS) stellen eine neue Klasse nutzerzentrierter Assistenzsysteme dar und sind ein Nukleus für die Entwicklung der Informationstechnik mit entsprechenden KMUs in Sachsen-Anhalt. IAIS nutzt aus Signaldaten abgeleitete Handlungs- und Systemintentionen sowie den affektiven Zustand des Nutzers. Mittels einer Antizipation des weiteren Handelns des Nutzers werden Lösungen interaktiv ausgehandelt. Die aktiven Rollen des Menschen und des Systems wechseln strategisch, wozu neuro- und verhaltensbiologische Modelle benötigt werden. Die im vorhandenen Systemlabor, auf Grundlage des SFB-TRR 62, applizierten Mensch-Maschine-Systeme haben dann das Ziel des Verständnisses der situierten Interaktion. Dies stärkt die regionale Wirtschaft bei der Integration von Assistenzsystemen für die Industrie 4.0 im demographischen Wandel wesentlich.
ADAS&ME : Adaptive leistungsfähige Fahrer-Assistenzsysteme zur Unterstützung von beanspruchten Fahrern & Effektives Abfangen von Risiken durch maßgeschneiderte Mensch-Maschine-Interaktion in der Fahrzeugautomatisierung
Laufzeit: 01.09.2016 bis 28.02.2020
ADAS&ME entwickelt adaptierte leistungsfähige Fahrerassistenzsysteme, die Fahrerzustand, Situations- / Umweltkontext und adaptive Interaktion beinhalten, um automatisch die Kontrolle zwischen Fahrzeug und Fahrer zu übertragen und somit eine sicherere und effizientere Straßenbenutzung zu gewährleisten. Die Arbeit basiert auf 7 Fallstudien, die einen großen Teil der Fahrsituationen auf europäischen Straßen abdecken. Experimentelle Untersuchungen werden an Algorithmen zur Fahrerzustandsüberwachung sowie an Mensch-Maschine-Interaktions- wie auch an Automatisierungssystemen durchgeführt. Unterschiedliche Fahrerzustände wie Müdigkeit, Schläfrigkeit, Stress, Unaufmerksamkeit und beeinträchtigende Emotionen werden untersucht, wobei Sensortechnologien unter Berücksichtigung von Verkehrs- und Witterungsbedingungen eingesetzt und für individuelle Fahrer-Physiologie und Fahrverhalten personalisiert werden. Multimodale und adaptive Warn- und Interventions-Strategien basieren auf dem aktuellen Fahrerzustand und der Gefährlichkeit von Szenarien. Das Endergebnis ist ein Fahrer-Zustandsüberwachungssystem, das in die Fahrzeugautomatisierung integriert ist. Das System wird mit einem breiten Pool von Fahrern unter simulierten und realen Straßenbedingungen und unter verschiedenen Fahrzuständen validiert. Diese herausfordernde Aufgabe wird durch ein multidisziplinäres europäisches Konsortium von 30 Partnern durchgeführt, darunter ein Hersteller pro Fahrzeugtyp und 7 Direktlieferanten.
Der Lehrstuhl Kognitive Systeme an der Otto-von-Guericke-Universität wird zu diesem Konsortium beitragen, indem er den emotionalen Inhalt der akustischen Äußerungen im Auto analysiert. Wir werden weiterhin in der Informationsfusion von Daten aus verschiedenen Modalitäten (akustisch, Video und andere) tätig sein, um Schläfrigkeit oder einen Verlust des Kontrollzustandes des Fahrers zu analysieren und so in mehreren Anwendungsfällen zur Fahrerassistenz beizutragen, für Autos, Busse, Lastwagen und Motorräder.
Das Projekt wird gefördert durch das EU-Rahmenprogramm für Forschung und Innovation Horizont 2020 (Grant Agreement Nr. 688900).
3Dsensation (BMBF Zwanzig20)
Laufzeit: 01.01.2014 bis 31.12.2019
Die Allianz 3Dsensation verleiht Maschinen durch innovative 3D-Technologien die Fähigkeit der visuellen Aufnahme und Interpretation komplexer Szenarien. Maschinen werden so zu situativ agierenden Partnern und personalisierten Assistenten des Menschen. Durch die neue Form der Mensch-Maschine-Interaktion schafft 3Dsensation den Zugang zu Lebens- und Arbeitswelten unabhängig von Alter und körperlicher Leistungsfähigkeit. In der Produktion ermöglicht 3Dsensation die Symbiose von Mensch und Maschine auf der Grundlage des 3D-Sehens. Es schafft eine sichere Umgebung für Menschen in Fertigungsprozessen, gewährleistet die Wahrnehmung von Assistenzfunktionen und sichert die Qualität von Produkten. Durch die 3D-Erfassung und Analyse von Mimik, Gestik und Bewegung zur Steuerung von Assistenzsystemen verbessert 3Dsensation die Gesundheitsversorgung und garantiert Selbstbestimmung bis ins hohe Alter.
Durch Kopplung von 3D-Informationen mit Assistenzsystemen ermöglicht 3Dsensation individuelle Mobilität unabhängig von gesundheitlichen und altersbedingten Beeinträchtigungen in urbanen und ländlichen Räumen. 3Dsensation schafft individuelle Sicherheit durch die autonome erfahrungsbasierte 3D-Analyse von Merkmalen von Personen und Bewegungsabläufen zur Identifikation von Auffälligkeiten und Gefahren. Durch die branchen- und disziplinübergreifende Vernetzung von Wirtschaft und Wissenschaft wird eine Allianz geschaffen, welche zentrale technische, ethische und soziologische Fragestellungen der Mensch-Maschine-Interaktion löst.
3Dsensation liefert fundamental neue Lösungen der Mensch-Maschinen-Interaktion und sichert so die Zukunft für Deutschlands wichtigste Exportbranchen.
MOD-3D (in 3Dsensation) Modellierung von Verhaltens- und Handlungsintentionsverläufen aus multimodalen 3D-Daten (Verlängerung)
Laufzeit: 01.01.2018 bis 31.12.2019
In immer mehr Bereichen des täglichen Lebens werden technische Systeme eingesetzt, wodurch auch immer mehr Menschen mit solchen Systemen interagieren müssen - ob im Bereich der Mobilität im Rahmen von Fahrerassistenzsystemen oder im Bereich der Gesundheit und Pflege, zum Beispiel beim betreuten Wohnen. Eine solche Interaktion kann vor allem bei älteren und weniger versierten Nutzern Probleme verursachen. Um diese Nutzergruppen zu unterstützen, ist es notwendig, die Interaktion adaptiv, antizipatorisch und nutzerzentriert zu gestalten. Ein wichtiger Schritt in Richtung solcher Systeme ist die Erkennung und die dafür notwendige Modellierung des aktuellen Nutzerzustandes. In Projekt MOD3D werden drei verschiedene Nutzerzustände bzw. Verhaltenskategorien auf Grundlage von multimodalen Daten untersucht: Überforderung, Zufriedenheit und Kooperativität. Um die spätere praktische Verwendbarkeit zu gewährleisten, werden die Untersuchungen an natürlichen Interaktionsdaten durchgeführt, die in anwendungsnahen Szenarien unter natürlichen Bedingungen aufgenommen wurden.
MOVA3D (in 3Dsensation) Multimodaler Omnidirektionaler 3D-Sensor für die Verhaltens-Analyse von Personen
Laufzeit: 01.08.2016 bis 31.12.2019
Die Allianz 3Dsensation verleiht Maschinen durch innovative 3D-Technologien die Fähigkeit der visuellen Aufnahme und Interpretation komplexer Szenarien. Maschinen werden so zu situativ agierenden Partnern und personalisierten Assistenten des Menschen. Durch die neue Form der Mensch-Maschine-Interaktion schafft 3Dsensation den Zugang zu Lebens- und Arbeitswelten unabhängig von Alter und körperlicher Leistungsfähigkeit.
Motiviert durch den demographischen Wandel und den damit einhergehenden gesellschaftlichen Herausforderungen soll für das Bedarfsfeld "Gesundheit" im Projekt MOVA3D ein intelligenter Sensor zur häuslichen Assistenz älterer Menschen entwickelt werden. Zur vollständigen Abdeckung eines Raumes mit einem einzigen Sensor wird ein neuartiges omnidirektionales optisches 3D-Messprinzip mit einer akustischen Raumerfassung zur multimodalen Informationsgewinnung kombiniert. Hochgenaue (3D-) Video- und Audiodaten sind die Voraussetzung für die anschließende Erkennung komplexer menschlicher Handlungen in Alltagssituationen und Interaktionen mit technischen Systemen, sowie der Identifizierung von relevanten Abweichungen. Diese automatische Analyse des Verhaltens betroffener Personen bildet die Grundlage für entsprechende Assistenzfunktionen sowie eine umfangreiche Interaktion über audio- und lichtbasierte Schnittstellen. Die umfassende Einbindung der späteren Nutzer in Form von Akzeptanz-, Funktions- und Nutzerstudien ist essentieller Teil des Projektes MOVA3D. Über die Integration in aktuelle AAL- und Home-Automation-Systeme hinaus ist eine spätere bedarfsfeldübergreifende Anwendung denkbar und angestrebt.
MOD-3D (in 3Dsensation) Modellierung von Verhaltens- und Handlungsintentionsverläufen aus multimodalen 3D-Daten
Laufzeit: 01.08.2015 bis 31.12.2017
Die Allianz 3Dsensation verleiht Maschinen durch innovative 3D-Technologien die Fähigkeit der visuellen Aufnahme und Interpretation komplexer Szenarien. Maschinen werden so zu situativ agierenden Partnern und personalisierten Assistenten des Menschen. Durch die neue Form der Mensch-Maschine-Interaktion schafft 3Dsensation den Zugang zu Lebens- und Arbeitswelten unabhängig von Alter und körperlicher Leistungsfähigkeit.
Ziel von MOD-3D ist die Erstellung eines generischen Modells für die zeitliche Abfolge von Handlungen in
Mensch-Maschine-Interaktionen in dedizierten Anwendungen. Dies geschieht auf der Grundlage
von multimodalen 3D-Daten der direkt und indirekt geäußerten Handlungsabsichten von Nutzern.
SFB / Transregio 62: Informationsfusion zur zeitvarianten Dispositionserkennung
Laufzeit: 31.12.2016 bis 31.12.2017
Das Ziel der Informationsfusion in einem Companion-System ist die Erstellung eines umfassenden Modells zur Situationsinterpretation für die Planungs- und Entscheidungsebene. Hierzu werden die räumlichen Situationsmodelle zeitlich integriert und mit den Ergebnissen der Nutzeremotionserkennung fusioniert. Für die zuverlässige Erkennung der Nutzeremotion auf der Basis gesprochener Sprache, Gestik, Mimik und psychobiologischer Daten werden multimodale Informationsfusionsarchitekturen verschiedener Abstraktionsebenen entwickelt und evaluiert.
SFB / Transregio 62: Situationsbezogene Erkennung anwendungsrelevanter Dispositionen und Handlungsintentionen aus gesprochener Sprache
Laufzeit: 31.12.2016 bis 31.12.2017
Die Emotionen des Benutzers sind aus seinen sprachlichen Äußerungen zu klassifizieren. Dazu werden für den Mensch-Maschine-Dialog relevante Emotionsklassen gebildet. Zum einen werden sprachliche subsymbolische und biologienahe Merkmale klassifiziert, zum zweiten wird prosodische automatische Spracherkennung zur Emotionserkennung und -unter Nutzung des semantischen Inhalts zur weiterführenden Intentionserkennung genutzt. Frühe wie auch späte Fusion beider Ansätze wird durchgeführt. Experimentelle Provokation von emotionaler Sprache wird untersucht und Emotionsannotierte Datenbanken werden generiert.
SFB / Transregio 62: Informationsfusion zur Emotions- und Dispositionserkennung
Laufzeit: 31.12.2012 bis 31.12.2016
Das Ziel der Informationsfusion in einem Companion-System ist die Erstellung eines umfassenden Modells zur Situationsinterpretation für die Planungs- und Entscheidungsebene. Hierzu werden die räumlichen Situationsmodelle zeitlich integriert und mit den Ergebnissen der Nutzeremotionserkennung fusioniert. Für die zuverlässige Erkennung der Nutzeremotion auf der Basis gesprochener Sprache, Gestik, Mimik und psychobiologischer Daten werden multimodale Informationsfusionsarchitekturen verschiedener Abstraktionsebenen entwickelt und evaluiert.
SFB / Transregio 62: Situationsbezogene Erkennung anwendungsrelevanter Dispositionskategorien aus gesprochener Sprache
Laufzeit: 31.12.2012 bis 31.12.2016
Die Emotionen des Benutzers sind aus seinen sprachlichen Äußerungen zu klassifizieren. Dazu werden für den Mensch-Maschine-Dialog relevante Emotionsklassen gebildet. Zum einen werden sprachliche subsymbolische und biologienahe Merkmale klassifiziert, zum zweiten wird prosodische automatische Spracherkennung zur Emotionserkennung und -unter Nutzung des semantischen Inhalts zur weiterführenden Intentionserkennung genutzt. Frühe wie auch späte Fusion beider Ansätze wird durchgeführt. Experimentelle Provokation von emotionaler Sprache wird untersucht und Emotionsannotierte Datenbanken werden generiert.
SFB / Transregio 62: Zentrale Aufgaben
Laufzeit: 31.12.2012 bis 31.12.2016
Prof. Wendemuth ist Magdeburger Sprecher des SFB / TRR 62 "Eine Companion-Technologie für Kognitive Technische Systeme". Im Zentralen Bereich wird Projektmanagement durchgeführt, zwei Labore in Ulm und Magdeburg werden koordiniert, 3 Demonstratoren werden jeweils an beiden Standorten erstellt, Wizard-of-Oz- Versuche werden durchgeführt. Ein Graduiertenkolleg wird eingerichtet.
Emotionsbasierte Unterstützung von Dialoganwendungen in Call-Centern
Laufzeit: 15.04.2014 bis 28.11.2015
Die anwendungsbezogene Forschung auf dem Gebiet Emotionsbasierte Unterstützung von Dialoganwendungen in Call-Centern wird weiter entwickelt. Hier handelt es sich um Telefondialoge,
bei denen der Call-Center-Operator in seiner Gesprächsgestaltung durch Rückmeldung über den
emotionalen Zustand (Kontrolle, Valenz) unterstützt wird.
Kategorientheorie für Dispositionserkennung
Laufzeit: 01.06.2013 bis 28.06.2014
Kategorientheorie wird genutzt, um Dispositionen und dazu passende Merkmale zu identifizieren. Dabei werden existierende appraisals bzgl. ihrer features untersucht. Das Ergebnis ist eine konsolidierte feature Basis.
Situationsangepasste Spracherkennung
Laufzeit: 31.12.2012 bis 14.01.2014
Hier soll ein Situationsmodell genutzt werden, um top-down Durchgriff im Spracherkenner und Dialogmanager zu ermöglichen. Ziel ist, nicht nur (dichte) Lattices als Schnittstellen zu nutzen, sondern z.B. bei Änderung der akustischen Umgebung direkt die akustische Merkmalsextraktion zu adaptieren und iterativ den Spracherkenner neu zu nutzen. Ähnliches gilt für Änderungen im Emotions- oder Verhaltenszustand, die z.B. zur Nutzung angepasster akustischer Modelle führen. Oder Änderungen in der Domäne oder der Aufgabe, oder der Kooperativität oder der Intention des Benutzers, die den Dialogmanager beeinflussen. Lernvorgänge sind hier zu implementieren und zu untersuchen bzw. die Anzahl von Alternativen zu vergrößern. Aus der Spracherkennung sind abgeleitete Grössen zu definieren, die für Verhaltensmodelle elevant sind und von diesem interpretativ verwendet werden können bzw. dieses modifizieren.
Linguistisch - Phonetische Analyse
Laufzeit: 01.01.2013 bis 31.12.2013
Wir nutzen textuelle Transcripte um Interaktionsstile und Diskursverläufe zu analysieren. Der individuelle Erfolgszustand des Nutzers wird mit einem Hidden Markov Modell modelliert, indem die beobachteten System-Rückmeldungen zum Training benutzt werden. Anschliessend werden semi-automatsich Signifikante Dialogverläufe annotiert und detektiert.
Modell zur Verortung von Stimmungen und Persönlichkeitsmerkmalen im valence-pleasure-arousal-Raum
Laufzeit: 01.01.2013 bis 31.12.2013
Ein mechanistisches Federmodell zur Verortung von Stimmungen und Persönlichkeitsmerkmalen im valence-pleasure-arousal-Raum von Emotionen wird untersucht. Dabei werden Versuchsabläufe in Trajektorien abgebildet und dafür eine Modellierung generiert.
Context-Dependent Learning and Memory Modelling in Cognitive Behavioral Scenarios
Laufzeit: 18.12.2012 bis 30.06.2013
Zwei Modelle des assoziativen und kontextabhängigen Lernens werden modelliert. Damit können Versuche mit menschlichen Probanden, welche Teil der Arbeit von Prof. Dr. Jochen Braun und der Doktorarbeit von Dipl.-Ing. Oussama Hamid sind , informationstechnisch nachvollzogen werden. Die beiden Modelle verfolgen jeweils zwei unterschiedliche Ansätze und wurden in Matlab implementiert.
Ein Ansatz zur Modellierung basiert auf einem Markov-Entscheidungsprozess (engl. Markov Decision Process), wie er häufig im Bereich des Maschinellen Lernens verwendet wird. Ein damit entworfener menschenähnlicher Lernalgorithmus wurde anschließend um die Fähigkeit erweitert aus dem Zeitkontext in der Lernaufgabe Nutzen zu ziehen.
Der zweite Ansatz ist ein Kapazitätsmodell, welches sich auf Erkenntnisse aus der Gedächtnispsychologie stützt. Das Lernen von Assoziationen wird als Prozess im Kurzzeitgedächtnis modelliert, wobei der zeitliche Kontext unterstützend wirkt. Die Kapazität des Kurzzeitspeichers ist dabei der limitierende Faktor. Die Rolle der zeitlichen Information wurde auf verschiedene Weisen in das Modell implementiert. Es kann z.B. ein Einfluss auf die Vergessensrate oder auf das Erinnerungsvermögen der Probanden simuliert werden. Für die Simulation von Umlernen bei Kontextwechsel wurde zusätzlich ein Langzeitgedächtnis in das Modell eingefügt.
informationstechnisch nachvollzogen werden. Die beiden Modelle verfolgen jeweils zwei unterschiedliche Ansätze und wurden in Matlab implementiert.
SFB / Transregio 62: Emotionserkennung aus gesprochener Sprache
Laufzeit: 31.12.2008 bis 31.12.2012
Die Emotionen des Benutzers sind aus seinen sprachlichen Äußerungen zu klassifizieren. Dazu werden für den Mensch-Maschine-Dialog relevante Emotionsklassen gebildet. Zum einen werden sprachliche subsymbolische und biologienahe Merkmale klassifiziert, zum zweiten wird prosodische automatische Spracherkennung zur Emotionserkennung und -unter Nutzung des semantischen Inhalts zur weiterführenden Intentionserkennung genutzt. Frühe wie auch späte Fusion beider Ansätze wird durchgeführt. Experimentelle Provokation von emotionaler Sprache wird untersucht und Emotionsannotierte Datenbanken werden generiert.
SFB / Transregio 62: Informationsfusion
Laufzeit: 31.12.2008 bis 31.12.2012
Das Ziel der Informationsfusion in einem Companion-System ist die Erstellung eines umfassenden Modells zur Situationsinterpretation für die Planungs- und Entscheidungsebene. Hierzu werden die räumlichen Situationsmodelle zeitlich integriert und mit den Ergebnissen der Nutzeremotionserkennung fusioniert. Für die zuverlässige Erkennung der Nutzeremotion auf der Basis gesprochener Sprache, Gestik, Mimik und psychobiologischer Daten werden multimodale Informationsfusionsarchitekturen verschiedener Abstraktionsebenen entwickelt und evaluiert.
SFB / Transregio 62: Zentrale Aufgaben
Laufzeit: 31.12.2008 bis 31.12.2012
Prof. Wendemuth ist Magdeburger Sprecher des SFB / TRR 62 "Eine Companion-Technologie für Kognitive Technische Systeme". Im Zentralen Bereich wird Projektmanagement durchgeführt, zwei Labore in Ulm und Magdeburg werden koordiniert, 3 Demonstratoren werden jeweils an beiden Standorten erstellt, Wizard-of-Oz- Versuche werden durchgeführt. Ein Graduiertenkolleg wird eingerichtet.
Context-Dependent Learning and Memory Modelling in Cognitive Behavioral Scenarios
Laufzeit: 18.12.2008 bis 18.12.2012
Zwei Modelle des assoziativen und kontextabhängigen Lernens werden modelliert. Damit können Versuche mit menschlichen Probanden, welche Teil der Arbeit von Prof. Dr. Jochen Braun und der Doktorarbeit von Dipl.-Ing. Oussama Hamid sind , informationstechnisch nachvollzogen werden. Die beiden Modelle verfolgen jeweils zwei unterschiedliche Ansätze und wurden in Matlab implementiert.
Ein Ansatz zur Modellierung basiert auf einem Markov-Entscheidungsprozess (engl. Markov Decision Process), wie er häufig im Bereich des Maschinellen Lernens verwendet wird. Ein damit entworfener menschenähnlicher Lernalgorithmus wurde anschließend um die Fähigkeit erweitert aus dem Zeitkontext in der Lernaufgabe Nutzen zu ziehen.
Der zweite Ansatz ist ein Kapazitätsmodell, welches sich auf Erkenntnisse aus der Gedächtnispsychologie stützt. Das Lernen von Assoziationen wird als Prozess im Kurzzeitgedächtnis modelliert, wobei der zeitliche Kontext unterstützend wirkt. Die Kapazität des Kurzzeitspeichers ist dabei der limitierende Faktor. Die Rolle der zeitlichen Information wurde auf verschiedene Weisen in das Modell implementiert. Es kann z.B. ein Einfluss auf die Vergessensrate oder auf das Erinnerungsvermögen der Probanden simuliert werden. Für die Simulation von Umlernen bei Kontextwechsel wurde zusätzlich ein Langzeitgedächtnis in das Modell eingefügt.
informationstechnisch nachvollzogen werden. Die beiden Modelle verfolgen jeweils zwei unterschiedliche Ansätze und wurden in Matlab implementiert.
Situationsangepasste Spracherkennung
Laufzeit: 10.10.2007 bis 09.10.2012
Hier soll ein Situationsmodell genutzt werden, um top-down Durchgriff im Spracherkenner und Dialogmanager zu ermöglichen. Ziel ist, nicht nur (dichte) Lattices als Schnittstellen zu nutzen, sondern z.B. bei Änderung der akustischen Umgebung direkt die akustische Merkmalsextraktion zu adaptieren und iterativ den Spracherkenner neu zu nutzen. Ähnliches gilt für Änderungen im Emotions- oder Verhaltenszustand, die z.B. zur Nutzung angepasster akustischer Modelle führen. Oder Änderungen in der Domäne oder der Aufgabe, oder der Kooperativität oder der Intention des Benutzers, die den Dialogmanager beeinflussen. Lernvorgänge sind hier zu implementieren und zu untersuchen bzw. die Anzahl von Alternativen zu vergrößern. Aus der Spracherkennung sind abgeleitete Grössen zu definieren, die für Verhaltensmodelle elevant sind und von diesem interpretativ verwendet werden können bzw. dieses modifizieren.
Spracherkennung mit Unsicherheitsbewertung
Laufzeit: 01.04.2008 bis 31.03.2012
Kombination von Modalitäten (mit verschiedenen Konfidenzen / Unsicherheiten) auf einem Datenstrom. (Wahrscheinlichkeits-)Theorie zur korrekten Berechnung der besten Gesamt-Hypothese.
Teilziele:
- Diskriminative Lernmethoden: andere Kostenfunktionen, z:b. MMI, MCE. Annäherung an Bayes schen Klassifizierer.
- Universeller Spracherkenner : wesentliche Arbeiten für Erkenner, die auf andere Domäne / Sprache / akust. Umgebung portiert werden. Graphem-Phonem Äquivalenz
Neurobiologisch inspirierte, multimodale Intentionserkennung für technische Kommunikationssysteme (C4)
Laufzeit: 01.05.2008 bis 31.12.2010
NIMITEK II steht für Neurobiologisch inspirierte, multimodale Intentionserkennung für technische Kommunikationssysteme. Gegenstand der Forschung ist das Zusammenwirken von Mensch und Maschine in technischen Kommunikationssystemen. Solche Systeme werden schon heute vielfältig benutzt, sei es ein sprachgesteuerter telefonischer Dienst oder das Hilfe-Menü einer Textverarbeitung. Viele Benutzer sind unzufrieden mit dem Verhalten der Maschine. Die Neurobiologen in Magdeburg haben in diesem Zusammenhang in den letzten Jahren Erkenntnisse gewonnen, wie das Verhalten des Menschen beschrieben werden kann und wie seine Absichten und Intentionen darauf einwirken. Diese Erkenntnisse werden nun als Modelle in Computern programmiert und werden damit die Kommunikation von Mensch und Maschine deutlich verbessern. Gleichzeitig dient diese technische Umsetzung als experimentelles Labor für weitere grundlegende Forschungen der Neurowissenschaften. Sprecher von NIMITEK ist Prof. Dr. Andreas Wendemuth. Speziell werden in seiner Arbeitsgruppe bearbeitet: Spracherkennung, mutimodale Informations- und Prosodieerkennung, Klassifikation emotionaler Einheiten, Modellierung von assoziativen Zusammenhängen.
Bernstein-Gruppe Components of cognition: small networks to flexible rules: Context-dependent associative learning
Laufzeit: 15.12.2006 bis 31.01.2010
The overarching questions to be addressed by this project are as follows:
- Is the learning of context-conditional associations by human observers influenced by, or even predicated on, consistent temporal ordering of environmental events? In other words, can the context-dependence of human associative learning be understood in terms of a temporalorderdependence?
- How does temporal-order-dependent learning compare to abstract learning algorithms (e.g.,support-vector machines, dynamic adaptation of neural nets) for detecting patterns and regularities in high-dimensional data streams?
- Is temporal-order-dependent learning suited as a general solution to complex learning problems? How does it perform on diverse problems such as those described in section 7.3 (i.e., learning to recognize prosodic signals in speech or emotional markers in facial expression)?
Bernstein-Gruppe Components of cognition: small networks to flexible rules: Multi-modal emotion recognition and blind source separation
Laufzeit: 15.12.2006 bis 31.01.2010
The immediate goal is to analyze concurrent speech utterances and facial expressions in terms of speaker emotion and intention. Speech and face information will be combined to a multi-modal feature vector and subjected to blind source separation (ICA) analysis. In a different context similar methods were already suggested by the applicant in his Habilitationsschrift [Michaelis 80]. In the longer term, the proposed project is aimed at the automatic recognition of subtly different human interactions (e.g., friendly/cooperative, impatient/evasive, aversive/violent). A second long-term goal is to apply the automatic recognition of emotion states to a neurobiological investigation of the neural basis of emotion. A correlation with results of EEG and MRI investigations can be carried out [Heinzel 05]. The software tools to be developed here would be invaluable in brain imaging (fMRI) of human emotion.
Situationsangepasste, biologische Verhaltensmodellierung
Laufzeit: 10.10.2007 bis 10.01.2010
Hier sollen das Situationsmodell und Ergebnisse des iterativen, einander modifizierenden top-down und bottom-up Prozesses in der Spracherkennung (Projekt Situationsangepasste Spracherkennung) genutzt werden, um ein interpretatives Verhaltensmodell einer Person oder von Personen in einer definierten Situation / Umgebung ( Situiertheit ) zu erzeugen und damit Interaktion als (intentionales) Verhalten zu modellieren. Die Ergebnisse des Projektes Situationsangepasste Spracherkennung dienen hier als direktes Maß dafür, wie sich die Person(en) zur Umgebung und zu einer gestellten Aufgabe äußern (Inhalt, Emotion) und wie dies mit den erfassten Umgebungsparametern zusammenpasst (match / mismatch der sprachlichen Äusserungen zur Umgebung), woraus Bestätigungen oder Änderungen des Verhaltensmodells abgeleitet werden können. Das gleiche gilt für eine Intentionserkennung, die mit B.Vlasenko zusammen entwickelt wird. Für die Situationsbeschreibung sind insbesondere Modellgrössen wie Zustandsparameter, Ziel(Kosten)grössen, Optimierungskriterien (LQ, ML, MMI, ME, MDL, andere?) zu definieren. Iterative und/oder syntaktisch-deskriptive (wenn-dann-Beziehungen) Lernvorgänge sind hier zu implementieren und zu untersuchen bzw. die Anzahl von Alternativen zu vergrößern. Das umfasst sowohl die Fähigkeit zum besseren Lernen einer Situation wie auch das Lernen, zwischen verschiedenen Situationen zu unterscheiden (dies ist auch in der Gruppe Prof. Braun von hohem Interesse). Aus dem Verhaltensmodell sind abgeleitete Grössen zu definieren, die für die Spracherkennung und Dialogmanager relevant sind und von dieser interpretativ verwendet werden können bzw. diesen modifizieren.
Robuster, sprachgesteuerter Datenbankzugang via Telephon (Folgeprojekt)
Laufzeit: 01.08.2008 bis 30.04.2009
Spracherkennung wird zum Hinzufügen von Daten und der Abfrage von Daten von einer Datenbank per Telefon auch unter ungünstigen Bedingungen genutzt. Sprachausgabe geschieht durch Sprachsynthese. Sprachverstehen wird angewendet, um den Inhalt der Abfragen zu analysieren. Robuste Spracherkennung auf Telefonen wird entwickelt. Hier geht es um eine Systemanwendung, die die Anwendbarkeit der Technologien im realen Umfeld zeigt und Neuentwicklungen aus praktischen Aspekten hervorbringt.
Robuster, sprachgesteuerter Datenbankzugang via Telephon
Laufzeit: 01.08.2005 bis 31.07.2008
Spracherkennung wird zum Hinzufügen von Daten und der Abfrage von Daten von einer Datenbank per Telefon auch unter ungünstigen Bedingungen genutzt. Sprachausgabe geschieht durch Sprachsynthese. Sprachverstehen wird angewendet, um den Inhalt der Abfragen zu analysieren. Robuste Spracherkennung auf Telefonen wird entwickelt.Hier geht es um eine Systemanwendung, die die Anwendbarkeit der Technologien im realen Umfeld zeigt und Neuentwicklungen aus praktischen Aspekten hervorbringt.
Einsatz von Support-Vektor-Maschinen zur Flexibilisierung von automatischer Sprachverarbeitung
Laufzeit: 01.07.2003 bis 29.06.2008
Support Vektor Maschinen werden zur Flexibilisierung von Produktionswahrscheinlichkeiten in der automatischen Sprachverarbeitung benutzt. Dabei sind insbesondere hybride HMM-Systeme zu untersuchen.
Support-Vector-Machines are used for flexible tailoringof automatic speech recognition systems to new tasks.
Neurobiologisch inspirierte, multimodale Intentionserkennung für technische Kommunikationssysteme II
Laufzeit: 01.01.2008 bis 01.04.2008
NIMITEK II steht für Neurobiologisch inspirierte, multimodale Intentionserkennung für technische Kommunikationssysteme. Gegenstand der Forschung ist das Zusammenwirken von Mensch und Maschine in technischen Kommunikationssystemen. Solche Systeme werden schon heute vielfältig benutzt, sei es ein sprachgesteuerter telefonischer Dienst oder das Hilfe-Menü einer Textverarbeitung. Viele Benutzer sind unzufrieden mit dem Verhalten der Maschine. Die Neurobiologen in Magdeburg haben in diesem Zusammenhang in den letzten Jahren Erkenntnisse gewonnen, wie das Verhalten des Menschen beschrieben werden kann und wie seine Absichten und Intentionen darauf einwirken. Diese Erkenntnisse werden nun als Modelle in Computern programmiert und werden damit die Kommunikation von Mensch und Maschine deutlich verbessern. Gleichzeitig dient diese technische Umsetzung als experimentelles Labor für weitere grundlegende Forschungen der Neurowissenschaften. Sprecher von NIMITEK ist Prof. Dr. Andreas Wendemuth. Speziell werden in seiner Arbeitsgruppe bearbeitet: Spracherkennung, mutimodale Informations- und Prosodieerkennung, Klassifikation emotionaler Einheiten, Modellierung von assoziativen Zusammenhängen.
Neurobiologisch inspirierte, multimodale Intentionserkennung für technische Kommunikationssysteme
Laufzeit: 01.12.2005 bis 31.12.2007
NIMITEK steht für Neurobiologisch inspirierte, multimodale Intentionserkennung für technische Kommunikationssysteme . Gegenstand der Forschung ist das Zusammenwirken von Mensch und Maschine in technischen Kommunikationssystemen. Solche Systeme werden schon heute vielfältig benutzt, sei es ein sprachgesteuerter telefonischer Dienst oder das Hilfe-Menü einer Textverarbeitung. Viele Benutzer sind unzufrieden mit dem Verhalten der Maschine. Die Neurobiologen in Magdeburg haben in diesem Zusammenhang in den letzten Jahren Erkenntnisse gewonnen, wie das Verhalten des Menschen beschrieben werden kann und wie seine Absichten und Intentionen darauf einwirken. Diese Erkenntnisse werden nun als Modelle in Computern programmiert und werden damit die Kommunikation von Mensch und Maschine deutlich verbessern. Gleichzeitig dient diese technische Umsetzung als experimentelles Labor für weitere grundlegende Forschungen der Neurowissenschaften. Sprecher von NIMITEK ist Prof. Dr. Andreas Wendemuth. Speziell werden in seiner Arbeitsgruppe bearbeitet: Spracherkennung, mutimodale Informations- und Prosodieerkennung, Klassifikation emotionaler Einheiten, Modellierung von assoziativen Zusammenhängen.
Support-Vektor-Maschinen und Kernelbasierte Methoden in der automatischen Sprachverarbeitung (Fortsetzung)
Laufzeit: 01.10.2006 bis 31.12.2007
Support-Vektor-Maschinen und Kernelbasierte Methoden in der automatischen prachverarbeitung werden angewandt und dabei mathematische Methoden aus der Numerik verwendet und ergänzt. Wahrscheinlichkeitsausgaben werden generiert.
Support Vector Machines als Akustische Modelle von Hidden-Markov-Modell-basierten Spracherkennungssystemen
Laufzeit: 01.07.2003 bis 30.06.2007
Support Vektor Maschinen werden zur Modellierung von Produktionswahrscheinlichkeiten als akustische Modelle in der automatischen Sprachverarbeitung benutzt. Dabei werden SVM-Trainingsverfahren eingebettet.
Support Vector Machines are used to model Production probabilitieswhich are used as acoustic models in automatic speech recognition.
Generalisierungsfähige akustische Klassifikation in der automatischen Sprachverarbeitung (Fortsetzung)
Laufzeit: 01.07.2006 bis 30.12.2006
Gegenstand dieses Promotionsvorhabens sind Untersuchungen verschiedener parametrischer Schätzverfahren für die automatische Sprachverarbeitung. Ziel ist es, Schätzverfahren zu entwickeln und zu untersuchen, die Spracherkennung mit hoher Generalisierungsfähigkeit ermöglichen. Dies gilt insbesondere vor dem Hintergrund geringen oder unpassenden Datenmaterials, sowie bei Rausch-, Kanal- und anderen Störungen. Das Vorhaben verfolgt damit anspruchsvolle theoretische sowie software-orientierte Ziele, seine Ergebnisse sind praxisnah einsetzbar
Support-Vektor-Maschinen und Kernelbasierte Methoden in der automatischen Sprachverarbeitung
Laufzeit: 01.10.2001 bis 30.09.2006
Support-Vektor-Maschinen und Kernelbasierte Methoden in der automatischen prachverarbeitung werden angewandt und dabei mathematische Methoden aus der Numerik verwendet und ergänzt. Wahrscheinlichkeitsausgaben werden generiert.
Support-Vector-Machines and Kernel-based Methods will be utilized in automatic speech recognition. Numercial Methods will be used to generate probability measures.
Generalisierungsfähige akustische Klassifikation in der automatischen Sprachverarbeitung
Laufzeit: 01.07.2001 bis 30.06.2006
Gegenstand dieses Promotionsvorhabens sind Untersuchungen verschiedener parametrischer Schätzverfahren für die automatische Sprachverarbeitung. Ziel ist es, Schätzverfahren zu entwickeln und zu untersuchen, die Spracherkennung mit hoher Generalisierungsfähigkeit ermöglichen. Dies gilt insbesondere vor dem Hintergrund geringen oder unpassenden Datenmaterials, sowie bei Rausch-, Kanal- und anderen Störungen. Das Vorhaben verfolgt damit anspruchsvolle theoretische sowie software-orientierte Ziele, seine Ergebnisse sind praxisnah einsetzbar
Iterative Lösung für eine Multiklassen-Diskriminantenanalyse mit Kernfunktionen (Fortsetzung)
Laufzeit: 01.07.2005 bis 30.06.2006
Sprachsignale werden mit Methoden der digitalen Signalverarbeitung bearbeitet. Die dabei entstehenden Cluster können jedoch sehr leicht nicht separierbar werden. Dies ist insbesondere dann der Fall, wenn mehr als zwei Klassen vorliegen. Daher ist eine Weiterverarbeitung der Daten unumgänglich. Die bisherigen Methoden basieren auf einer linearen Transformationen des hochdimensionalen Vektorraums, aus dem die erwähnten Cluster stammen. Diese Methoden funktionieren jedoch nur in sehr einfachen Fällen. Der neue Ansatz innerhalb dieses Promotionsvorhabens zielt auf eine nicht-lineare Transformation des hochdimensionalen Vektorraums mit Kernfunktionen ab, durch die eine bessere Separierung der einzelnen Cluster ermöglicht werden soll. Bei der anschließenden linearen Diskriminanzanalyse können schnell Matrizen sehr hoher Dimensionalität entstehen. Vor allem im Hinblick auf einen späteren Echtzeiteinsatz des Spracherkenners wäre eine analytische Bearbeitung solcher Matrizen nicht sinnvoll. Daher ist ein weiteres wichtiges Ziel dieses Promotionsvorhabens eine Diskriminanzanalyse, die iterativ implementiert werden kann.
Iterative Lösung für eine Multiklassen-Diskriminantenanalyse mit Kernfunktionen
Laufzeit: 01.07.2003 bis 30.06.2005
Eine robuste Spracherkennung kann nur dann funktionieren, wenn einzelne phonetische Einheiten im Signalraum als zu einer Klasse gehörende Cluster identifizierbar und voneinander unterscheidbar sind. Um dies zu gewährleisten, werden Sprachsignale mit Methoden der digitalen Signalverarbeitung bearbeitet. Die dabei entstehenden Cluster können jedoch sehr leicht nicht separierbar werden. Dies ist insbesondere dann der Fall, wenn mehr als zwei Klassen vorliegen. Daher ist eine Weiterverarbeitung der Daten unumgänglich. Die bisherigen Methoden basieren auf einer linearen Transformationen des hochdimensionalen Vektorraums, aus dem die erwähnten Cluster stammen. Diese Methoden funktionieren jedoch nur in sehr einfachen Fällen. Der neue Ansatz innerhalb dieses Promotionsvorhabens zielt auf eine nicht-lineare Transformation des hochdimensionalen Vektorraums mit Kernfunktionen ab, durch die eine bessere Separierung der einzelnen Cluster ermöglicht werden soll. Bei der anschließenden linearen Diskriminanzanalyse können schnell Matrizen sehr hoher Dimensionalität entstehen. Vor allem im Hinblick auf einen späteren Echtzeiteinsatz des Spracherkenners wäre eine analytische Bearbeitung solcher Matrizen nicht sinnvoll. Daher ist ein weiteres wichtiges Ziel dieses Promotionsvorhabens eine Diskriminanzanalyse, die iterativ implementiert werden kann
Internationale Sommerschule Robuste Sprachverarbeitung 7.7.-18.7.2003
Laufzeit: 07.04.2003 bis 18.07.2003
Die Sommerschule leistet folgendes:- Vermitteln von präzisem Methodenwissen und fertigkeiten in Techniken der Spracherkennung für junge Wissenschaftler, die noch keine vertiefte Erfahrung in diesem Feld haben- Vermitteln detaillierter Kenntnisse für robuste Methoden - Anleitung der Wissenschaftler zum unmittelbaren Anwenden der erworbenen Kenntnisse in existierenden Spracherkennungssystemen- Junge Wissenschaftler in die Lage versetzen, ein individuelles Spracherkennungssystem in ihrer Muttersprache zu erstellen auf der Grundlage existierender Korpora- Eröffnen von Kontakten zu anderen akademischen Institutionen und der Industrie, durch eingeladene Referenten und anwendungsorientierte Zusammenarbeit am Hochschulort
Internationale Sommeruniversität Sprachverarbeitung 2002
Laufzeit: 01.07.2002 bis 01.10.2002
Die Studenten werden von uns in Digitaler Signalverarbeitung sowie in Automatischer Sprachverarbeitung ausgebildet. Sie erhalten Gelegenheit, ihre Kenntnisse an dem am Lehrstuhl installierten Sprachlabor praktisch anzuwenden und zu vertiefen. Sie werden dabei aktuellste Aufgaben in diesen Gebieten durchführen, deren Resultate wiederum in der Arbeitsgruppe zum weiteren Ausbau der Forschung und Lehre eingesetzt werden können.