{"id":40677,"date":"2025-08-11T11:40:00","date_gmt":"2025-08-11T09:40:00","guid":{"rendered":"https:\/\/www.l3s.de\/?p=40677"},"modified":"2025-08-11T11:42:41","modified_gmt":"2025-08-11T09:42:41","slug":"making-ai-vision-systems-fairer-and-more-robust","status":"publish","type":"post","link":"https:\/\/www.l3s.de\/de\/making-ai-vision-systems-fairer-and-more-robust\/","title":{"rendered":"Fairer und robuster: Neue Trainingsmethode st\u00e4rkt visuelle KI-Systeme"},"content":{"rendered":"<p><strong>L3S Beste Ver\u00f6ffentlichung des Quartals&nbsp;<strong>(Q2\/2025)<\/strong><br>Kategorie: Vision-Sprachmodelle<\/strong><\/p>\n\n\n\n<p style=\"font-size:23px\"><strong>Aligning Visual Contrastive Learning Models via Preference Optimization<\/strong><\/p>\n\n\n\n<p>Autoren: Amirabbas Afzali, Borna Khodabandeh, Ali Rasekh, Mahyar JafariNodeh, Sepehr Kazemi, Simon Gottschalk<\/p>\n\n\n\n<p><em><a href=\"https:\/\/arxiv.org\/abs\/2411.08923\" target=\"_blank\" rel=\"noopener\" title=\"\">Vorgestellt auf der ICLR 2025<\/a><\/em><\/p>\n\n\n\n<div style=\"height:23px\" aria-hidden=\"true\" class=\"wp-block-spacer\"><\/div>\n\n\n\n<p><strong>Die Ver\u00f6ffentlichung in K\u00fcrze:<\/strong><\/p>\n\n\n\n<p>Unser Paper befasst sich mit kritischen Schwachstellen in visuellen KI-Systemen, die sowohl Bilder als auch Text verstehen, wie sie unter anderem in Suchmaschinen, autonomen Fahrzeugen und der Content-Moderation eingesetzt werden. Diese Systeme k\u00f6nnen zum einen durch einfache Tricks wie dem Hinzuf\u00fcgen irref\u00fchrender Texte zu Bildern get\u00e4uscht werden und zum anderen unfaire Biases gegen\u00fcber bestimmten Gruppen zeigen. Wir haben eine neue Trainingsmethode entwickelt, die diese KI-Systeme lehrt, sich zuverl\u00e4ssiger zu verhalten, indem sie von menschlichen Pr\u00e4ferenzen lernen, was korrektes Verhalten ausmacht. Unser Ansatz ist wie ein menschlicher Kontrolleur, der die KI anleitet, bessere Entscheidungen zu treffen, um so KI-Systeme zu entwickeln, die robuster gegen Angriffe und fairer in ihren Entscheidungen sind, w\u00e4hrend sie ihre urspr\u00fcnglichen F\u00e4higkeiten beibehalten.&nbsp;<\/p>\n\n\n\n<p><strong>Welches Problem l\u00f6sen Sie mit Ihrer Forschung?<\/strong>&nbsp;<\/p>\n\n\n\n<p>Wir l\u00f6sen zwei wesentliche Probleme moderner visueller KI-Systeme: Anf\u00e4lligkeit f\u00fcr einfache Angriffe und unfaire Biases. Aktuelle visuelle Sprachmodelle wie CLIP k\u00f6nnen leicht get\u00e4uscht werden, wenn Angreifer irref\u00fchrende Texte zu Bildern hinzuf\u00fcgen (sogenannte \"typografische Angriffe\"), wodurch sie Objekte im Bild falsch identifizieren. Zus\u00e4tzlich k\u00f6nnen diese Systeme oft Race- oder Gender-Biases aufweisen, die sie aus ihren Trainingsdaten \u00fcbernehmen, was zu unfairen Ergebnissen in realen Anwendungen wie Recruiting-Tools oder Empfehlungssystemen f\u00fchrt.&nbsp;<\/p>\n\n\n\n<p><strong>Welche potenziellen Auswirkungen haben Ihre Ergebnisse?<\/strong>&nbsp;<\/p>\n\n\n\n<p>Unsere Forschung hat bedeutende Auswirkungen darauf, KI-Systeme in kritischen Anwendungen sicherer und vertrauensw\u00fcrdiger zu machen. Durch die Verbesserung der Robustheit gegen Angriffe k\u00f6nnte unsere Methode zum Beispiel die Sicherheit in autonomen Fahrzeugen, medizinischen Bildgebungssystemen und Content-Moderation-Plattformen erh\u00f6hen. Die F\u00e4higkeiten zur Bias-Vermeidung k\u00f6nnten beispielsweise eingesetzt werden, um die Fairness von KI-Systemen in Einstellungs-, Kredit- und Strafjustizanwendungen zu erh\u00f6hen. Dar\u00fcber hinaus bietet unser Ansatz ein Framework, das von anderen Forschern und Forscherinnen genutzt werden kann, um die Entwicklung zuverl\u00e4ssiger und ethisch verantwortungsvoller KI-Technologien zu beschleunigen.&nbsp;<\/p>\n\n\n\n<p><strong>Was ist neu an Ihrer Forschung?<\/strong>&nbsp;<\/p>\n\n\n\n<p>Unsere Arbeit ist die erste, die Pr\u00e4ferenzoptimierungstechniken\u2014die bislang nur f\u00fcr textgenerierende KI-Modelle verwendet wurden\u2014erfolgreich auf visuelle Sprachmodelle anwendet, die sowohl Bilder als auch Text verstehen. Wir haben neuartige Methoden entwickelt, die eine pr\u00e4zise Kontrolle \u00fcber das Modellverhalten erm\u00f6glichen: Wir k\u00f6nnen Systeme widerstandsf\u00e4higer gegen Angriffe machen, w\u00e4hrend wir ihre urspr\u00fcnglichen F\u00e4higkeiten bewahren, oder sogar voreingenommene Konzepte (wie Geschlechtsstereotype) umkehren, ohne ihre Performance f\u00fcr andere Aufgaben zu beeintr\u00e4chtigen. Diese Pr\u00e4zision in der Kontrolle \u00fcber KI-Verhalten war mit fr\u00fcheren Trainingsmethoden nicht m\u00f6glich und er\u00f6ffnet neue M\u00f6glichkeiten f\u00fcr die Entwicklung kontrollierbarer KI-Systeme mit besserem Alignment.&nbsp;<\/p>\n\n\n\n<p>Link zum Paper: <a href=\"https:\/\/arxiv.org\/abs\/2411.08923\" target=\"_blank\" rel=\"noopener\" title=\"\">https:\/\/arxiv.org\/abs\/2411.08923<\/a><\/p>\n\n\n\n<p><\/p>","protected":false},"excerpt":{"rendered":"<p>Visuelle KI-Systeme, die Bild und Text gemeinsam verarbeiten, sind in vielen Bereichen im Einsatz \u2013 und anf\u00e4llig f\u00fcr Manipulationen und Vorurteile. Forscher des L3S haben eine neue Trainingsmethode entwickelt, die solche Systeme zuverl\u00e4ssiger und gerechter macht.<\/p>","protected":false},"author":11,"featured_media":40678,"comment_status":"closed","ping_status":"closed","sticky":false,"template":"","format":"standard","meta":{"_acf_changed":false,"footnotes":""},"categories":[161],"tags":[],"class_list":["post-40677","post","type-post","status-publish","format-standard","has-post-thumbnail","hentry","category-best-publications"],"acf":[],"aioseo_notices":[],"publishpress_future_workflow_manual_trigger":{"enabledWorkflows":[]},"_links":{"self":[{"href":"https:\/\/www.l3s.de\/de\/wp-json\/wp\/v2\/posts\/40677","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/www.l3s.de\/de\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/www.l3s.de\/de\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/www.l3s.de\/de\/wp-json\/wp\/v2\/users\/11"}],"replies":[{"embeddable":true,"href":"https:\/\/www.l3s.de\/de\/wp-json\/wp\/v2\/comments?post=40677"}],"version-history":[{"count":3,"href":"https:\/\/www.l3s.de\/de\/wp-json\/wp\/v2\/posts\/40677\/revisions"}],"predecessor-version":[{"id":40682,"href":"https:\/\/www.l3s.de\/de\/wp-json\/wp\/v2\/posts\/40677\/revisions\/40682"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/www.l3s.de\/de\/wp-json\/wp\/v2\/media\/40678"}],"wp:attachment":[{"href":"https:\/\/www.l3s.de\/de\/wp-json\/wp\/v2\/media?parent=40677"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/www.l3s.de\/de\/wp-json\/wp\/v2\/categories?post=40677"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/www.l3s.de\/de\/wp-json\/wp\/v2\/tags?post=40677"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}