KI Logo

KI & Datenschutz

KI – eine Aufgabe der Datenschutzaufsicht?

Spätestens mit dem Marktstart des Großen Sprachmodells GPT-3.5 (via 'ChatGPT') Ende 2022 sind Debatten über Chancen und Risiken „Künstlicher Intelligenz“ (KI) scheinbar allgegenwärtig – auch wenn die Disziplin bzw. Technologie an sich, und damit viele Datenschutzfragen, schon deutlich länger existieren. Durch die Bereitstellung sehr leistungsfähiger KI-Modelle ist damit die Nutzung von KI nicht mehr nur datenzentrierten Technologieunternehmen sondern mittels Web- oder Softwareschnittstelle nun für faktisch jedermann möglich. Mit dem Inkrafttreten der europäischen Verordnung über Künstliche Intelligenz am 1. August 2024 werden zudem die rechtlichen Rahmenbedingungen für Entscheidungen in Unternehmen und Institutionen, KI planvoll und nachhaltig zu nutzen zunehmend abschätzbar.

Anknüpfend an unseren gesetzlichen Sensibilisierungsauftrag erweitert das Landesamt für Datenschutzaufsicht daher sein Informationsangebot um eine neue Rubrik zu Datenschutz und Künstliche Intelligenz. Wir greifen damit Fragestellungen zur Anwendung der DS-GVO und anderer gesetzlicher Anforderungen bei der Verarbeitung personenbezogener Daten durch KI-Technologien auf, die unabhängig von allen noch ausstehenden politischen Entscheidungen über Zuständigkeiten im Bereich der KI-Aufsicht auch künftig durch die Datenschutzaufsichtsbehörden zu beantworten bleiben werden.

Im Folgenden bieten wir zunächst vor allem Einstiegsinformationen, insbesondere einen ersten Überblick über ausgewählte Grundsatzfragen zu KI & Datenschutz. Für weitere Erläuterungen wird zudem auf verschiedene externe Papiere hingewiesen, auch wenn diese vielfach noch vorläufige Positionen und Diskussionsstände wiedergeben. Eigene Stellungnahmen des BayLDA zu einzelnen Themenkomplexen folgen im Zuge des Weiteren Ausbaus dieses Themenschwerpunkts.


Erste Orientierung – Technik, Systematik, Rollen

Wird das Themenfeld Künstliche Intelligenz aus Sicht von Unternehmen betrachtet, dann etabliert es sich zunehmend, zwischen dem Training von KI und dem Einsatz von KI zu unterscheiden.

KI Flow

KI-Training
KI-Anwendungen bestehen im Kern aus einen KI-Modell. Dieses besteht aus einer KI-Architektur (z.B. Tiefe Neuronale Netze oder Transformer-Architektur) und den damit verbundenen Parametern. Die Parameter werden aus (personenbezogenen) Daten mittels spezifischer Lernverfahren schrittweise angepasst – dieser Vorgang wird als KI-Training bezeichnet. Ist das KI-Training beendet, dann werden die Parameter meist „eingefroren“, ändern sich also im späteren Einsatz nicht mehr.

KI-Einsatz
Ein KI-System betreibt ein KI-Modell, indem dieses auf performanter Hardware in eine Softwareanwendung geladen wird. Dazu können am Markt verfügbare KI-Produkte gekauft oder mittels (Cloud-)Dienst genutzt werden. Nutzbar ist eine KI-Anwendung entweder über seine Softwareschnittstelle (API) oder eine Benutzerschnittstelle (z.B. Weboberfläche). Eingaben in eine KI-Anwendung werden (ja nach KI-Typ) vielfach als Prompts bezeichnet, die eine KI-Ausgabe mittels Anwendung auf das KI-Modell erzeugen. Gehostet werden KI-Anwendungen entweder auf eigener Hardware (On-Premise) oder auf einem KI-as-a-Service-Dienst – letztere stellen insbesondere bei großen Sprachmodellen wie ChatGPT die häufigste Form dar, da On-Premise- Lösungen angesichts des enormen Leistungsbedarfs von KI-Systemen mit beträchtlichen Hardwarekosten verbunden sind.

Die KI-Verordnung (KI-VO) ist am 1. August 2024 in Kraft getreten und gilt (fast vollständig) für alle Unternehmen, die KI-Technologien in Europa anbieten, entwickeln, in Verkehr bringen oder einsetzen (schrittweise) spätestens ab dem 2. August 2026, wobei sog. „Verbotene Praktiken im KI-Bereich“ bereits ab dem 2. Februar 2025 nach der KI-VO untersagt sind.

Die KI-VO regelt allerdings unbeschadet einzelner, sehr eng gefasster Sonderbestimmungen nicht den Umgang mit personenbezogenen Daten, sondern verweist hier auf die in der DS-GVO und die durch ePrivacy-Richtlinie (umgesetzt im TDDDG) vorgesehenen Rechte und Pflichten (§ 1 Abs. 7 KI-VO). Dies bedeutet, sofern personenbezogene Daten im Umgang mit KI-Systemen verarbeitet werden ist die DS-GVO parallel anzuwenden (zur Frage des Personenbezugs siehe unten).

Dies führt notwendigerweise zu Berührungspunkten, in der Praxis aber auch zu bedeutsamen Synergieeffekten, beispielsweise bei folgenden Regelungen:

  1. Das Risikomanagement nach KI-VO beinhaltet großen Überschneidungen zur Datenschutzfolgenabschätzung nach der DS-GVO. Die bereits etablierten und bei KI-Training und KI-Einsatz ggf. durchgeführten DSFAs bieten eine effiziente Umsetzungsmöglichkeit dieses Punkts der KI-VO.
  2. KI-Compliance“ kann durch den Aufbau eine KI-Managementsystems realisiert werden. Dazu kann es sich anbieten, ein gerade bei größeren Unternehmen häufig schon bestehendes Datenschutzmanagementsystem „anzureichern“, mit dem Vorteil, dass die interne Aufbau- und Ablauforganisation nur geringfügig angepasst werden muss.
  3. Die KI-Verordnung sieht den Aufbau von KI-Kompetenz im Unternehmen vor. Die Rolle eines „KI-Beauftragten“ ist in der KI-VO zwar nicht explizit vorgesehen, mittelbar scheint eine solche Rolle aber in zahlreichen Anforderungen der KI-VO gerade bei größeren Unternehmen geradezu vorausgesetzt. Zu den Aufgaben des betrieblichen Datenschutzbeauftragten gehörten bereits jetzt u.a. die Sensibilisierung und Beratung Verantwortlicher. Damit spricht jedenfalls bei Aufgaben, die nicht mit Entscheidungskompetenzen über die die Nutzung von KI verbunden sind, regelmäßig nichts dagegen, dass ein bereits bestellter DSB, der bereits Expertise für das Unternehmen und KI (aus Datenschutzsicht) mitbringt, auch die Rolle eines solchen KI-Beauftragten als zentraler Ansprechpartner und Koordinator für die KI-Nutzung übernimmt.
    Allerdings bleibt gerade bei größeren Unternehmen und ihren komplexeren Bedingungen für den KI-Einsatz zu beachten, dass eine mit sämtlichen rechtlichen, weit über den Datenschutz hinausgehenden Anforderungen zu vereinbarende Einführung von generativen KI-Systemen realistisch nicht von einer Person allein bewältigt werden. Deshalb empfiehlt sich in solchen Fällen, einen kontinuierlichen Dialog zwischen allen Beteiligten über den gesamten Lebenszyklus des Produkts hinweg zu etablieren. Dabei sollten die für die Verarbeitung Verantwortlichen mit allen relevanten Funktionen innerhalb der Organisation zusammenarbeiten. Dies umfasst neben der Fachabteilung den DSB, die Rechts- und die IT-Abteilung sowie den Informationssicherheitsbeauftragten und ggf. Vertreter betrieblicher Mitbestimmung, um insgesamt sicherzustellen, dass das Unternehmen die Vorteile einer vertrauenswürdigen generativen KI rechtskonform und ohne Nachteile für andere Ziele und Verpflichtungen auszuschöpfen vermag.
  4. Die KI-VO bietet im Vergleich zur DS-GVO zudem eine wichtige, im Umfeld besonders komplexer und risikoträchtiger Technologien substantielle Fortentwicklung: Hochrisiko-KI-Produkte unterliegen nach der KI-VO einer Konformitätsbewertung durch den Anbieter, bei der diese u.a. bereits sicherstellen müssen, dass beim Einsatz des Hochrisiko-KI-Systems die Anforderungen der DS-GVO bei der Verarbeitung personenbezogener Daten eingehalten werden können. Die „Lücke“ in Art. 25 DS-GVO beim Stichwort „Privacy by Design“, die bislang Produkthersteller nur „ermutigt“ hat, sich an den Datenschutz zu halten, wird damit zumindest bei bestimmten KI-Produkten mittels der KI-VO geschlossen.

Verantwortliche müssen sich, wie bei anderen Verarbeitungen personenbezogener Daten auch, bei der Nutzung von KI die Frage stellen, welche datenschutzrechtliche Rolle ihnen zukommt, auch wenn ihnen scheinbar bereits die KI-VO eine bestimmte „Rolle“ zuweist. Ausgehend von den in der KI-VO eigenständig festgelegten Adressaten unterschiedlicher Rechte und Pflichten kann es hilfreich sein, zwischen folgenden datenschutzrechtlichen Rollen zu unterscheiden:

  1. KI-Betreiber: Einsatz von KI-Systemen zu eigenen Zwecken. Dies führt i.d.R. zu einer eigenen Verantwortlichkeit entsprechend Art. 24 DS-GVO.
  2. KI-Dienstleister (AI-as-a-Service): Unternehmen, das die Nutzung von KI-Technologie anbietet. Diese besitzen meist viel Rechenleistung und können mittels Cloud-Technologien diese (per API oder Weboberfläche) den KI-Betreibern anbieten. Diese Unternehmen agieren im Regelfall als Auftragsverarbeiter für den KI-Betreiber.
  3. KI-Anbieter: Unternehmen mit viel KI-Know-How in der KI-Modellerstellung, die auch die finanziellen Ressourcen für das kostspielige KI-Training aufbringen können. Zusätzlich stehen ihnen regelmäßig sehr viele und qualitativ hochwertige (personenbezogene) Trainingsdaten zu Verfügung, die natürlich nur dann genutzt werden, wenn u.a. eine Rechtsgrundlage für die Datennutzung vorhanden ist.

Es ist möglich, dass Unternehmen nicht nur eine dieser Rollen einnehmen, sondern mehrere, bspw. wenn ein KI-Modell trainiert wird (KI-Anbieter) und diese als KI as a Service Auftraggebern angeboten wird (KI-Dienstleister).


Einzelfragen zu KI und Datenschutz

Für die Frage der Anwendbarkeit der DS-GVO parallel zur KI-VO kommt es in erster Linie darauf an, ob personenbezogene Daten verarbeitet werden. Ob ein Personenbezug bei Daten im Zusammenhang mit KI- Systemen vorliegt, richtet sich nach den gleichen Maßstäben wie auch in anderen Bereichen. Jedoch ergeben sich einige spezifische Fragestellungen, deren abschließende technische und rechtliche Einordnung freilich noch aussteht, z.B.:

  1. Sind Trainingsdaten beim KI-Training (z.B. Webseiteninhalte als dem Internet) personenbezogen?
  2. Ist ein fertig trainiertes KI-Modell an sich ein personenbezogenes Datum?
  3. Werden personenbezogene Daten als Eingabedaten (=Prompts) in ein KI-System gegeben?
  4. Gibt ein KI-System personenbezogene Daten als Ausgabe heraus?
  5. Werden nicht-personenbezogene Ausgabedaten mit Daten einer natürlichen Person verknüpft?

Auch die Fragestellung der Anonymisierung von Trainingsdaten gehört in diesen Kontext. Während für Anonymisierung von strukturierten Daten (z.B. aus einer relationalen Datenbank) anerkannte Methoden (z.B. k-Anonymität, l-Diversität,) und Garantien (z.B. Differential Privacy) zur Verfügung stehen, dürfte eine Anonymisierung von semi-strukturierten Daten (z.B. Fließtexte) oder von Bild-/Videodaten meist an der dann nicht mehr ausreichenden Datenqualität für ein KI-Training scheitern – in diesem Fällen bietet die DS-GVO insbesondere zu Zwecken der wissenschaftlichen Forschung, aber auch im Bereich der kommerziellen Produktentwicklung verschiedene Möglichkeiten ein KI-Training auch datenschutzkonform zu realisieren.

Synthetische Daten, also Daten, die meist selbst aus spezifischen KI-Modellen künstlich zum Zweck des KI-Trainings erzeugt werden, können je nach Qualität des Generierungsalgorithmus dagegen durchaus als nicht personenbezogene Daten eingestuft werden.

Das Verarbeitungsverzeichnis (VVT) nach Art. 30 DS-GVO ist mehr als nur häufig kritisierte „Pflichtübung“, sondern hilft wesentlich, sich auch bei der Nutzung von KI zentrale Fragestellungen für ihren datenschutzkonformenen Einsatz zu vergegenwärtigen. Das VVT unterstützt Verantwortliche sowohl beim KI-Training als auch beim Einsatz von KI mit Basisfestlegungen wie der konkrete Einsatzzweck einer KI (z.B. MS Copilot zur Analyse von Kundendaten), der Beschreibung der betroffenen Personen (z.B. Patienten oder Bewerber), die Kategorien personenbezogener Daten (z.B. Straßenaufnahmen oder Webseiteninhalte) als auch Empfänger dieser Daten insbesondere in Drittländern (z.B. KI-Training bei Dienstleister in Israel oder Hosting auf Cloud-Servern in den USA). Auch herausfordernde Fragestellungen wie die Festlegung von Löschfristen bringen das Thema „Löschen“ (kommt unter dem Punkt „Betroffenenrechte“ genauer) schon auf die ToDo-Liste.

Sofern personenbezogene Daten verarbeitet werden (siehe oben), braucht es für jede Verarbeitungstätigkeit eine datenschutzrechtliche Rechtsgrundlage. Es ist hierbei insbesondere zwischen dem Training von KI- Modellen und dem konkreten Einsatz einer KI- Anwendung zu unterscheiden.

Darüber hinaus muss auch zwischen „normalen“ und „besonderen“ (im Sinne des Art. 9 DS-GVO) Daten unterschieden werden.

Bei „normalen Daten“ dürfte meist die Interessensabwägung nach Art. 6 Abs. 1 Buchstaben f DS-GVO herangezogen werden. Während ein „berechtigtes Interesse“ bei einer fairen Verarbeitung meist gut zu erreichen ist, muss bei der Abwägung der Interessen des Unternehmens und den Interessen der Betroffenen, insbesondere die Art, Umfang, Umstände und Zweck genauer betrachtet werden. So dürfte bspw. das Training einer KI mit den Webseitendaten des Bayerischen Landesamts für Datenschutzaufsicht, bei der als personenbezogene Daten insbesondere der Präsident der Behörde (und ggf. manche Führungskräfte) betroffen sind, i.d.R. problemlos zu Gunsten eines KI-Produktanbieters ausgehen.

Anders dagegen, wenn bspw. die Fotos und Darstellungen einer Schulwebseite verwendet werden, deren hauptsächliche Zielgruppe die Verwandtschaft der Schülerinnen und Schüler darstellt. Da die Daten von Kindern einen hohen Schutzcharakter aufweisen, können diese im KI-Training auf Grundlage einer Interessensabwägung i.d.R. nicht verwendet werden.Bei „besonderen personenbezogenen Daten“ nach Art. 9 wie bspw. Gesundheitsdaten muss zusätzlich noch ein Ausnahmetatbestand des Art. 9 Abs. 2 – 4 DS-GVO erfüllt sein. Gerade im Hinblick auf KI- Training erscheint Abs. 2 Buchstabe e, die „Öffentlichmachung“ naheliegend. Jedoch ist hier insbesondere die Erwartungshaltung des Betroffenen (der ggf. bei einer Veröffentlichung in einem sozialen Netzwerk nicht ein KI-Training mit seinen Daten im Blick hatte) mit einzubeziehen und wohl im Ergebnis negativ zu bescheinen. Im Bereich der wissenschaftlichen Forschung bestehen ggf. Ausnahmen, die ebenfalls sorgfältig (durch Fachexperten) zu prüfen sind. Vorzugswürdig erscheint in diesen Fällen immer das Einholen einer ausdrücklichen Einwilligung auf Basis transparenter Informationen.

Wissenswert ist in diesem Zusammenhang auch, dass die KI-Verordnung auch eine Rechtsgrundlage nach DS-GVO schafft: In Artikel 10 KI-VO kann ausnahmsweise für die Validierung von KI-Modellen im Training (nicht aber für das Training an sich) mit besonderen personenbezogenen Daten nach Art. 9 DS-GVO gearbeitet werden. Voraussetzung ist aber, dass im Vorfeld Alternativen sorgfältig geprüft und ausgeschlossen wurden und strenge rechtliche und modernste technische Schutzmaßnahmen eingesetzt werden.

Eine weitere Sonderbestimmung findet sich in Art. 59 KI-VO, welcher unter engen Voraussetzungen die Befugnis einer zweckändernden Weiterverarbeitung personenbezogener Daten im KI- Reallabor normiert.

„Datenschutz durch Technikgestaltung“ ist auch bei KI-Systemen eine wichtige Anforderung, um die Risiken für die Betroffenen zu minimieren und Vertrauen in eine erstellte/verwendete KI-Technologie zu schaffen. Dazu sei an dieser Stelle auf das Papier „Positionspapier der DSK zu empfohlenen technischen und organisatorischen Maßnahmen bei der Entwicklung und dem Betrieb von KI-Systemen“ der DSK verwiesen.

Eine Datenschutzfolgenabschätzung (DSFA) ist eine Methode der DS-GVO, um Hochrisikoverarbeitungen derart zu begleiten, dass die ursprünglich hohen Risiken eingedämmt werden und damit die Rechte und Freiheiten der Betroffenen gewahrt werden.

Bei Künstlicher Intelligenz stellen sich zur DSFA im Prinzip zwei Fragen:

  1. Wann muss eine DSFA durchgeführt werden?

    Gleich voraus: Nur weil KI eingesetzt wird, bedeutet dies nicht, dass immer hohe Risiken für die Betroffenen vorliegen. Bei z.B. der Erstellung einer Rede mit ChatGPT, einer Ideenfindung für einen zukünftigen Produktzyklus oder der Planung eines Sommerfestes (samt gemeinsamen Firmenlied) muss keine DSFA durchgeführt werden. Anders sieht es aus, wenn z.B. eine KI-Technologie zum Zweck der Interaktion mit dem Betroffenen wie ein Chatbot eingesetzt wird oder Bewerberdaten mittels eines KI-Produkts vorklassifiziert werden, das Einstufungen trifft, wer zum Vorstellungsgespräch geladen wird oder und wer nicht.

  1. Welche Besonderheiten sind bei einer KI-DSFA zu berücksichtigen?

    Kernelement einer DSFA ist die systematische Beurteilung von Risiken. Bei Künstlicher Intelligenz sind dies bspw.

  • Unrichtige Ausgaben/Halluzinationen (z.B. falsche Faktenaussagen)
  • Vorhandensein von Verzerrungen/Bias (z.B. Bevorzugung bei Personalentscheidungen anhand des Geschlechts)
  • Diskriminierende/hasserfüllte Ausgaben (z.B. Ausschluss anhand einer Religionszugehörigkeit) oder erhöhte Fehlerrate bei in den Trainingsdaten unterrepräsentierten Gruppen
  • Wiedergabe von Trainingsdaten/sog. Memorization (z.B. Trainingsdaten im Klartext werden teilweise als KI-Ausgabe generiert)
  • Mangelhafte Erklärbarkeit/Transparenz (z.B. Unklarheit, aus welchen Datenquellen eine diskriminierende Aussage zusammengesetzt wird)
  • Nicht funktionale menschliche Kontrollmöglichkeiten /sog. Human in the Loop (z.B. zu unkritische Übernahme von KI-Ausgaben in nachgelagerte Verarbeitungsprozesse)
  • Mangelhafte Security in Bezug auf Integrität von Trainingsdaten und KI-Modellen (z.B. Möglichkeit durch Cyberkriminelle, „Backdoors“ in KI-Modelle einzubauen oder die Trainingsdaten zu manipulieren)
  • Unzureichende Verlässlichkeit und Robustheit des KI-Modells bei widrigen Umständen (z. B. beim autonomen Fahren bei schlechtem Wetter oder gezielter Manipulation von Straßenschildern)
  • Mangelhafte Rechtsgrundlagen für KI-Modelltraining (z.B. Nutzung von Trainingsdaten aus dem Internet ohne gültige Rechtsgrundlage)
  • Unzureichende Awareness bei Nutzern von KI-Systemen (z.B. Nutzung einer KI zur Bewerberauswahl durch einen Mitarbeiter, obwohl das Unternehmen eine solche KI-Verarbeitung gar nicht einsetzen will)
  • Unzureichende Sicherstellung von Betroffenenrechte (z.B. durch zu wenig Protokollierung des KI-Einsatzes und damit die Unmöglichkeit, eine Beauskunftung nach Art. 15 DS-GVO durchzuführen)

Die DS-GVO sieht vor, dass Betroffene über die Verarbeitung von personenbezogenen Daten, die sie selbst betreffen, zu informieren sind. Auch hier ist wieder zwischen dem KI- Training und dem KI- Einsatz zu unterscheiden:

  1. Einsatz einer KI-Anwendung

    Wird eine KI-Anwendung als technisches Softwaresystem eingesetzt, dann ändert sich im Vergleich zur Verarbeitung ohne KI-Technologie nicht viel – es ist wie bislang über den Einsatz von KI zu informieren, bspw. wenn im Rahmen eines Bewerbungsprozesses KI zur Kategorisierung von Berufserfahrung und Qualifikation eingesetzt wird.

  2. Training eines KI-Modells

    Wird ein KI-Modell neu trainiert bzw. ein bestehendes KI-Modell mit eigenen Daten nachtrainiert, werden meist personenbezogene Daten verwendet, die nicht bei der betroffenen Person erhoben wurden. Hier sieht die DS-GVO in Art. 14 dennoch Informationspflichten vor. Oftmals handelt es sich hierbei um personenbezogene Daten aus öffentlichen Quellen (z.B. Common Crawl Datenbank), bei denen eine Information aller betroffenen Personen schwer umgesetzt werden kann. Hier können allerdings Ausnahmen von der Informationspflicht, wie beispielsweise die Unverhältnismäßigkeit einschlägig sein. Dies gilt es von Verantwortlichen zu prüfen und zu dokumentieren.

    Achtung aber: Nicht alle Daten aus dem Internet können für das KI-Training mit einer Rechtsgrundlage „Interessensabwägung“ verwendet werden (Beispiel Daten von Kindern, siehe oben).

Die Sicherstellung der Betroffenenrechte stellt eines der wichtigsten Fundamente der DS-GVO dar. Bei KI-Technologie stellt sich insbesondere die Frage, wie mit einem Auskunftsersuchen (Art. 15 DS-GVO) und dem Recht auf Berechtigung/Löschung (Art. 16/17 DS-GVO) umgegangen wird.

  1. Recht auf Auskunft

    Auch bei KI gilt, dass ein Antrag nach Art. 15 DS-GVO innerhalb von 4 Wochen beantwortet werden muss – auch dann, wenn keine personenbezogenen Daten beauskunftet werden können/müssen. Ganz im Sinne des risikoorientierten Ansatzes der DS-GVO gilt hier: Große (datengetriebene) Unternehmen/Konzerne brauchen einen Datenschutz-Compliance-Prozess während ein KI-Startup abwarten kann, ob überhaupt eine Anfrage eingeht und dann entsprechend ad hoc darauf zu reagieren.

    Bei der Beauskunftung kann zwischen im Prinzip drei Fallkonstellationen unterschieden werden:

  1. Beauskunftung zu Trainingsdaten:
    Dies betrifft KI-Anbieter bzw. Unternehmen, die ein Nachtraining/Finetuning bestehender KI-Modelle als KI-Betreiber durchführen. Da diesen die Trainingsdaten i.d.R. bekannt sind, kann auch ohne größeren Aufwand in diesen nach personenbezogenen Daten eines Betroffenen gesucht werden

  2. Beauskunftung zum KI-Einsatz:
    Da hier KI „nur“ ein sog. technisches Mittel darstellt, wird wie bei anderen Verarbeitungen auch beauskunftet. Der einzige Unterschied: Es wird dargelegt, dass mittels KI eine Verarbeitung realisiert/unterstützt wird.

  3. Beauskunftung zum KI-Modell:
    Hier stellen sich zunächst eine Reihe grundlegender technischer und rechtlicher Fragen, ob ein KI-Modell an sich überhaupt ein personenbezogenes Daten darstellt (siehe oben) – falls man der Ansicht wäre, dass dem nicht so ist, dann müsste entsprechend auch gar nicht beauskunftet werden. Falls doch, dann stellt sich die Frage, wie das technisch im Einzelfall überhaupt gehen kann, da KI-Modelle Klartextdaten nicht wie in einer Datenbank abspeichern, sondern diese (ggf. kodiert als sog. Tokens) mittels Wahrscheinlichkeitsverteilungen und mathematisch verkettet in mehrere Ebenen in den Unmengen internen Parametern ablegen – und häufig erst durch spezifische Eingaben/Prompts als KI-Ausgabe generiert werden können.

    Noch komplexer wird es bei KI-as-a-Service: Während die meisten KI-Modelle zwar an sich deterministisch sind, d.h. zu einer Eingabe wird immer die gleich Ausgabe erzeugt, werden diese im Betrieb mit Zufallsstartwerten, ggf. zusätzlich noch weiteren internen Zuständen (abhängig von vorherigen Eingaben) und unterschiedlichen Hardwareumgebunden (bei KI-as-a-Service) versehen, was eine Reproduktion von Ein-/Ausgaben mitunter gar nicht möglich macht.

Tipp 1: Die Verantwortungssphären prüfen (siehe oben). Evtl. Ist man als KI-Betreiber gar nicht der richtige Adressat eines Auskunftsersuchens zu Daten des KI-Modells?

Tipp 2: Der Einsatz von KI sollte (datenschutzkonform) protokolliert werden. Mit diesen Protokolldaten lässt sich ggfs. schon hinreichend auf Anfragen im Hinblick auf den Einsatz von KI reagieren.


  1. Recht auf Berichtigung/Löschung
    Bezüglich des „Compliance“-Prozesses gelten die gleichen Anforderungen wie beim Recht auf Auskunft (siehe oben).

    Jedenfalls bei KI-Systemen, die als „Große Sprachmodelle“ einzuordnen sind (ChatGPT/Copilot, LAMA u.a.) stellte sich bislang wiederholt die Frage, wie die Anforderung der Datenrichtigkeit nach Art. 5 Abs. 1 DS-GVO gewährleistet werden kann. Diese Modelle wurden mit großen Mengen semi- strukturierter Daten zu offenen Zwecken trainiert, sodass es technisch absehbar ist, dass diese, am Maßstab von Wahrscheinlichkeiten gemessen, scheinbar passende Ergebnisse sprachlich korrekt ausgeben, diese jedoch inhaltlich falsch sind. Diese in einem ansonsten plausiblen und sprachlich einwandfreien Kontext plötzlich auftretende Falschausgaben werden auch als „Halluzinationen“ bezeichnet. Eine sachgerechte Prüfung eines Berichtigungsanspruchs setzt regelmäßig voraus, dass eine unrichtige Ausgabe auch reproduziert werden kann. Dies bedeutet, dass meist die KI-Eingabe (Prompt) von Seiten der Betroffenen bei einem Berichtigungsanspruch mitgeliefert werden muss.

    Für die Umsetzung eines statthaften Berichtigungsbegehrens gilt weiter zu beachten: Während es zu einem gegebenen Prompt technisch möglich ist, die einzelnen Parameter, die zu einer dazu passenden Ausgabe verwendet werden, zu lokalisieren, ist es ungleich schwerer, diese derart anzupassen, dass eine unrichtige Ausgabe zu einer richten Ausgabe gewandelt wird und das sonstige KI-Modell nicht allzu viel Einbußen bei seinen sonstigen Ausgaben erleidet. Grundsätzlich vorstellbar, wenn auch mitunter nur auf einen einzelnen Prompt beschränkt, ist aber ein Feintuning-Ansatz, der auch sonst bei KI-Modellen verwendet wird, wenn unerwünscht Ausgaben in andere Ergebnisse um-trainiert werden sollen. Mit Blick auf die Verantwortungssphäre ist der KI-Produktanbieter hier in der Pflicht, aber nicht zwingend das Unternehmen, das eine KI „nur“ einsetzt.

    Soll das Recht auf Löschung (Art. 17 DS-GVO) bei einem KI-Modell realisiert werden, dann greifen ähnliche Fragestellungen wie bei der Berichtigung: Es ist ein konkreter Prompt für die Reproduzierbarkeit erforderlich, ein schlichtes Löschen von lokalisierten Parametern ist meist aufgrund der Beeinträchtigung der Modellqualität technisch nicht möglich, stattdessen kann mit einem Nachtraining zumindest zu einem Prompt die Ausgabewahrscheinlichkeit derart reduziert werden, dass eine zu löschende Ausgabe nicht mehr auftritt – dies nennt sich „vergessendes Lernen“. Eine abschließende datenschutzaufsichtliche Bewertung dieser Fragestellungen steht bislang noch aus.

Das Training von KI-Modellen erfordert viel Rechenleistung. Gleiches gilt für den Betrieb von den momentan modernsten KI-Architekturen, den Großen Sprachmodelle. Während manche von diesen unter dem Begriff „Open Source“ sogar frei heruntergeladen werden können, scheitert der Betrieb auf eigener Hardware momentan häufig aufgrund der sehr hohen Kosten für die Beschaffung (und mitunter Betrieb mit Blick auf die Stromkosten) der erforderlichen GPU-Beschleuniger.

In vielen Fällen werden Unternehmen daher auf cloudbasierte Softwarelösungen zurückgreifen (häufig: AI-as-a-Service). Dies wird im Regelfall im Rahmen der Auftragsverarbeitung erfolgen, sodass die bekannten Anforderungen nach Art. 28 DS-GVO gelten. Entscheidend ist allerdings, ob das anbietende Unternehmen tatsächlich weisungsgebunden für den Verantwortlichen tätig ist, oder ob auch eine Verarbeitung zu eigenen Zwecken erfolgt. Eine Abgrenzung ist anhand der bekannten Maßstäbe zu treffen.

Da die Eingabe- und daraus resultierenden Ausgabedaten für die Verbesserung von KI-Modellen (bei zukünftigen Versionen) von Seiten der KI-Produktanbieter sehr relevant sind, ist bei Abschluss eines Vertrages zur Auftragsverarbeitung auf die Einhaltung der Zweckbindung zu achten. Sollten in Einzelfällen dennoch Daten aus der Auftragsverarbeitung heraus durch den KI-as-a Service Dienstleister (KI-Dienstleister) zu eigenen Zwecken verwendet werden wollen, dann ist hierbei neben einer (häufig nicht leicht zu findenden) Rechtsgrundlage sowohl für den KI-Betreiber als auch KI-Dienstleister ebenfalls auf die Informationspflichten für die Betroffenen zu achten.

Zusätzlich ist bei einem Transfer in ein unsicheres Drittland auf weitere Garantien des Kapitel V DS-GVO zu achten – Datenübermittlungen etwa in die USA werden insoweit meist auf das sog. EU-U.S. Data Privacy Framework gestützt.

Neben den oben dargestellten allgemeinen Informationen haben wir auch einen Flyer 'Next-Level-Bausteine für KI' herausgeben (siehe unten), mit dem wir auf acht zentrale Punkte im Bereich Datenschutz und KI hinweisen wollen. Des Weiteren ist auf dieser Webseite auch der Entwurfsstand unserer Checkliste 'Datenschutz und KI' veröffentlicht, die in nächster Zeit zum einen fortgeschrieben wird als auch in spezifischen Prüfszenarien einer Praxistauglichkeit unterzogen wird – sollte es Anmerkungen oder Verbesserungsvorschläge zu diesem 'Konsultationsstand' geben, dann bitten wir um eine E-Mail an ki@lda.bayern.de. Die Checkliste, die einem Good-Practice-Ansatz verfolgt, werden wir auch regelmäßig an Entwicklungen auf deutscher und europäischer Ebene mit dem Ziel der Harmonisierung der Datenschutzvorschriften anpassen.


Dokumente zum Download

Flyer

Der Flyer enthält Informationen zu Maßnahmen zum datenschutzkonformen Einsatz von KI.

Checkliste

Die Checkliste stellt Anfor­derungen an die Entwicklung und den Einsatz von Anwen­dungen der Kategorie KI dar.