{"id":39619,"date":"2025-05-06T14:44:19","date_gmt":"2025-05-06T12:44:19","guid":{"rendered":"https:\/\/www.l3s.de\/?p=39619"},"modified":"2025-05-06T14:44:22","modified_gmt":"2025-05-06T12:44:22","slug":"explainable-reinforcement-learning-for-greater-transparency","status":"publish","type":"post","link":"https:\/\/www.l3s.de\/de\/explainable-reinforcement-learning-for-greater-transparency\/","title":{"rendered":"Erkl\u00e4rbares Reinforcement-Learning f\u00fcr mehr Transparenz"},"content":{"rendered":"<p><strong>L3S Best Publication of the Quarter (Q4\/2024 \u2013 Q1\/2025)<\/strong><strong>\u202f\u202f<\/strong><strong>\u202f<\/strong>&nbsp;<br><strong>Kategorie: Explainable AI, RL<\/strong>&nbsp;<\/p>\n\n\n\n<p style=\"font-size:23px\"><strong>Explainable Reinforcement Learning via Dynamic Mixture Policies<\/strong>\u00a0<\/p>\n\n\n\n<p>Autoren: Maximilian Schier, Frederik Schubert, Bodo Rosenhahn\u00a0<\/p>\n\n\n\n<p><em>Ver\u00f6ffentlicht in: IEEE<\/em><\/p>\n\n\n\n<div style=\"height:28px\" aria-hidden=\"true\" class=\"wp-block-spacer\"><\/div>\n\n\n\n<p><strong>Die Ver\u00f6ffentlichung in K\u00fcrze:<\/strong>&nbsp;<\/p>\n\n\n\n<p>In unserem Beitrag wird ein neuer Ansatz f\u00fcr das Verst\u00e4rkungslernen (Reinforcement Learning, RL) vorgestellt, eine Form des maschinellen Lernens, bei der Agenten lernen, Entscheidungen auf der Grundlage von Belohnungen zu treffen. Dieser Forschungsbereich ist von hohem Interesse f\u00fcr z. B. das autonome Fahren und die Robotik, da RL erm\u00f6glicht, komplexe Strategien zur Entscheidungsfindung und Steuerung eines Systems nur durch Vorgabe eines Ziels zu erlernen. Unsere Methode verbessert die Erkl\u00e4rbarkeit von RL-Policies (Entscheidungsstrategien) durch Verwendung von Mischverteilungen, welche \"per Design\" erkl\u00e4rbar sind. Dabei werden die Beobachtungen in Teilr\u00e4ume unterteilt, jeder mit seiner eigenen Strategie, und die Policy liefert klare, wahrheitsgetreue und leicht lesbare Erkl\u00e4rungen mit hoher Verst\u00e4ndlichkeit. Unsere Architektur \u00fcbertrifft dabei in verschiedenen Szenarien auch die Leistung von weniger erkl\u00e4rbaren Standardverfahren, z. B. im Bereich autonomes Fahren, und gew\u00e4hrleistet einen transparenten und vertrauensw\u00fcrdigen Entscheidungsprozess.&nbsp;<\/p>\n\n\n\n<p><strong>Welches Problem l\u00f6sen Sie mit Ihrer Forschung?<\/strong>&nbsp;<br>Unsere Forschung befasst sich mit dem Problem der mangelnden Transparenz und Erkl\u00e4rbarkeit von RL-Policies, was das Vertrauen und das Verst\u00e4ndnis in ihren Entscheidungsprozess und damit auch ihre Adoption in realen Anwendungen behindert.&nbsp;<\/p>\n\n\n\n<p><strong>Was ist neu an Ihrer Forschung?<\/strong>&nbsp;<br>Wir stellen eine neue Architektur f\u00fcr stochastische Policies in RL vor, welche Mischverteilungen auf eine Art und Weise verwendet, dass die Policy inh\u00e4rent durch ihr Design erkl\u00e4rbar ist. Dies wird durch Unterteilung der Beobachtungen der Policy in Teilr\u00e4ume mit klaren Erkl\u00e4rungen auf Komponentenebene erreicht. Diese Innovation erh\u00f6ht die Transparenz von RL-Entscheidungen.&nbsp;<\/p>\n\n\n\n<p><strong>Welche potenziellen Auswirkungen haben Ihre Ergebnisse?<\/strong>&nbsp;<br>Die Ergebnisse k\u00f6nnte zu einer breiteren Einf\u00fchrung des RL in der Praxis f\u00fchren, da unsere Arbeit das Vertrauen in gelernte Policies durch transparente und erkl\u00e4rbare Entscheidungsfindung st\u00e4rkt. Unser Ansatz k\u00f6nnte dabei helfen, die Sicherheit und die Einhaltung von regulatorischen Vorschriften in kritischen Anwendungen wie autonomen Fahrzeugen und der Robotik zu verbessern, wo das Verst\u00e4ndnis von Entscheidungsprozessen entscheidend ist.&nbsp;<\/p>\n\n\n\n<p><strong>Link zum Paper: <a href=\"https:\/\/www.tnt.uni-hannover.de\/papers\/data\/1769\/ICRA_2025-4.pdf\" target=\"_blank\" rel=\"noopener\" title=\"\">tnt.uni-hannover.de\/papers\/data\/1769\/ICRA_2025-4.pdf<\/a><\/strong>\u00a0<\/p>","protected":false},"excerpt":{"rendered":"<p> Nachvollziehbare KI-Entscheidungen f\u00fcr vertrauensw\u00fcrdige Anwendungen in Robotik und beim autonomen Fahren.<\/p>","protected":false},"author":11,"featured_media":39620,"comment_status":"closed","ping_status":"closed","sticky":false,"template":"","format":"standard","meta":{"_acf_changed":false,"footnotes":""},"categories":[161],"tags":[],"class_list":["post-39619","post","type-post","status-publish","format-standard","has-post-thumbnail","hentry","category-best-publications"],"acf":[],"aioseo_notices":[],"publishpress_future_workflow_manual_trigger":{"enabledWorkflows":[]},"_links":{"self":[{"href":"https:\/\/www.l3s.de\/de\/wp-json\/wp\/v2\/posts\/39619","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/www.l3s.de\/de\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/www.l3s.de\/de\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/www.l3s.de\/de\/wp-json\/wp\/v2\/users\/11"}],"replies":[{"embeddable":true,"href":"https:\/\/www.l3s.de\/de\/wp-json\/wp\/v2\/comments?post=39619"}],"version-history":[{"count":1,"href":"https:\/\/www.l3s.de\/de\/wp-json\/wp\/v2\/posts\/39619\/revisions"}],"predecessor-version":[{"id":39621,"href":"https:\/\/www.l3s.de\/de\/wp-json\/wp\/v2\/posts\/39619\/revisions\/39621"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/www.l3s.de\/de\/wp-json\/wp\/v2\/media\/39620"}],"wp:attachment":[{"href":"https:\/\/www.l3s.de\/de\/wp-json\/wp\/v2\/media?parent=39619"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/www.l3s.de\/de\/wp-json\/wp\/v2\/categories?post=39619"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/www.l3s.de\/de\/wp-json\/wp\/v2\/tags?post=39619"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}