Fairer und robuster: Neue Trainingsmethode stärkt visuelle KI-Systeme

L3S Beste Veröffentlichung des Quartals (Q2/2025)
Kategorie: Vision-Sprachmodelle

Aligning Visual Contrastive Learning Models via Preference Optimization

Autoren: Amirabbas Afzali, Borna Khodabandeh, Ali Rasekh, Mahyar JafariNodeh, Sepehr Kazemi, Simon Gottschalk

Vorgestellt auf der ICLR 2025

Das Papier in Kürze:

Unser Paper befasst sich mit kritischen Schwachstellen in visuellen KI-Systemen, die sowohl Bilder als auch Text verstehen, wie sie unter anderem in Suchmaschinen, autonomen Fahrzeugen und der Content-Moderation eingesetzt werden. Diese Systeme können zum einen durch einfache Tricks wie dem Hinzufügen irreführender Texte zu Bildern getäuscht werden und zum anderen unfaire Biases gegenüber bestimmten Gruppen zeigen. Wir haben eine neue Trainingsmethode entwickelt, die diese KI-Systeme lehrt, sich zuverlässiger zu verhalten, indem sie von menschlichen Präferenzen lernen, was korrektes Verhalten ausmacht. Unser Ansatz ist wie ein menschlicher Kontrolleur, der die KI anleitet, bessere Entscheidungen zu treffen, um so KI-Systeme zu entwickeln, die robuster gegen Angriffe und fairer in ihren Entscheidungen sind, während sie ihre ursprünglichen Fähigkeiten beibehalten. 

Welches Problem lösen Sie mit Ihrer Forschung? 

Wir lösen zwei wesentliche Probleme moderner visueller KI-Systeme: Anfälligkeit für einfache Angriffe und unfaire Biases. Aktuelle visuelle Sprachmodelle wie CLIP können leicht getäuscht werden, wenn Angreifer irreführende Texte zu Bildern hinzufügen (sogenannte "typografische Angriffe"), wodurch sie Objekte im Bild falsch identifizieren. Zusätzlich können diese Systeme oft Race- oder Gender-Biases aufweisen, die sie aus ihren Trainingsdaten übernehmen, was zu unfairen Ergebnissen in realen Anwendungen wie Recruiting-Tools oder Empfehlungssystemen führt. 

Welche potenziellen Auswirkungen haben Ihre Ergebnisse? 

Unsere Forschung hat bedeutende Auswirkungen darauf, KI-Systeme in kritischen Anwendungen sicherer und vertrauenswürdiger zu machen. Durch die Verbesserung der Robustheit gegen Angriffe könnte unsere Methode zum Beispiel die Sicherheit in autonomen Fahrzeugen, medizinischen Bildgebungssystemen und Content-Moderation-Plattformen erhöhen. Die Fähigkeiten zur Bias-Vermeidung könnten beispielsweise eingesetzt werden, um die Fairness von KI-Systemen in Einstellungs-, Kredit- und Strafjustizanwendungen zu erhöhen. Darüber hinaus bietet unser Ansatz ein Framework, das von anderen Forschern und Forscherinnen genutzt werden kann, um die Entwicklung zuverlässiger und ethisch verantwortungsvoller KI-Technologien zu beschleunigen. 

Was ist neu an Ihrer Forschung? 

Unsere Arbeit ist die erste, die Präferenzoptimierungstechniken—die bislang nur für textgenerierende KI-Modelle verwendet wurden—erfolgreich auf visuelle Sprachmodelle anwendet, die sowohl Bilder als auch Text verstehen. Wir haben neuartige Methoden entwickelt, die eine präzise Kontrolle über das Modellverhalten ermöglichen: Wir können Systeme widerstandsfähiger gegen Angriffe machen, während wir ihre ursprünglichen Fähigkeiten bewahren, oder sogar voreingenommene Konzepte (wie Geschlechtsstereotype) umkehren, ohne ihre Performance für andere Aufgaben zu beeinträchtigen. Diese Präzision in der Kontrolle über KI-Verhalten war mit früheren Trainingsmethoden nicht möglich und eröffnet neue Möglichkeiten für die Entwicklung kontrollierbarer KI-Systeme mit besserem Alignment. 

Link zum Paper: https://arxiv.org/abs/2411.08923