[MA] Privatsphäre bewahrender Gradient Descent mittels additiv homomorpher Verschlüsselung am Beispiel von Linearer Regressionen

  • Name:

    Privatsphäre bewahrender Gradient Descent mittels additiv homomorpher Verschlüsselung am Beispiel von Linearer Regressionen

  • Venue:

    Geb. 50.34, SR 236 und online: https://i62bbb.tm.kit.edu/b/mic-7xx-rfr

  • Date:

    2023-03-07

  • Time:

    16:15

  • Mit der immer größeren Relevanz des maschinellem Lernens spielen Daten eine immer
    größere Rolle für die Wirtschaft. Es ist soweit gekommen, dass in den meisten großen Kon-
    zernen lernende Modelle nicht wegzudenken sind. Aufgrund unseres Verhaltens schlägt
    uns Netflix die passenden Filme, Amazon das passende Produkt oder Spotify unser nächs-
    tes Lieblingslied vor. Doch jedes lernende Modell benötigt viele und qualitativ nützliche
    Daten, um am Ende ein sinnvolles Ergebnis zu liefern. In einer Zeit, in der die Datenver-
    fügbarkeit stark wächst, steigt auch das Verlangen nach Datenschutz von persönlichen
    Daten. Gerade in Deutschland und der EU ist Datenschutz in den letzten Jahren ein in der
    Relevanz stark zunehmendes Thema. Durch die daraus entstandenen Maßnahmen wird es
    immer schwieriger ein Modell sinnvoll zu trainieren, da der Zugang zu den benötigten
    persönlichen Daten verhindert wird. In dieser Arbeit stellen wir eine Konstruktion vor, die
    ein Modell nur auf verschlüsselten Daten trainiert. Hierfür ermöglicht ein additiv homo-
    morphes Verschlüsselungsverfahren Operationen auf verschlüsselten Daten auszuführen.
    Die Konstruktion garantiert damit, dass die verwendeten Daten nur verschlüsselt zu se-
    hen sind und dadurch niemals der tatsächliche Inhalt der Daten preisgegeben wird. Am
    Ende erhalten wir aber trotzdem trainierte Modellparameter. Wir entsprechen somit dem
    Datenschutz, da wir eine Geheimhaltungsgarantie der Daten abgeben können. Der große
    Vorteil hiervon ist, dass das Teilen von sensiblen Daten durch die Geheimhaltung stark
    erleichtert wird, da ein Herausgeber der Daten nicht den Datenschutz dadurch verliert.
    Eine aufstrebende Technik im maschinellem Lernen ist das föderale Lernen, welches in
    der neuen Konstruktion umgesetzt wird. Im Vergleich zu dem herkömmlichen zentralen
    maschinellem Lernen gibt es beim föderalem Lernen mehrere dezentralisierte Parteien, die
    alle ihren eigenen Datensatz besitzen. Es wird ein gemeinsames Modell trainiert, indem
    jeder Teilnehmer der Konstruktion parallel auf ihren Daten lernt und die entstandenen
    Zwischenergebnisse am Ende von einer zentralen Partei zusammengefasst werden. Bei
    der herkömmlichen zentralisierten Technik werden die Daten direkt auf einem Gerät
    gesammelt und erst dort das Modell ohne Möglichkeit der Parallelisierung trainiert. Mit
    der föderalen Lösung wird eine bessere Skalierung der Konstruktion bei großen Daten-
    mengen erreicht, da die einzelnen Teilnehmer parallel trainieren können. In der neuen
    Konstruktion wird es den einzelnen Parteien ermöglicht ein gemeinsames und robustes
    Modell, basierend auf den Daten aller Parteien, zu entwerfen ohne die eigenen Daten
    teilen zu müssen. Diese Technik wird in der Konstruktion mit dem additiv homomorphen
    Verschlüsselungsverfahren harmonieren und wir können Einsparungen in der Laufzeit
    für die Berechnungen auf den verschlüsselten Daten durch die Konstruktion erzielen. Es
    entsteht somit eine Win-Win-Situation, da es als Partei immer protabel ist mit seinen
    Daten am Lernen teilzunehmen, um ein sinnvolleres und robusteres Modell zu erhalten.
    Aus Sicht der anderen Parteien ist es wünschenswert, dass so viele Parteien wie möglich
    an dem Training teilnehmen, um die Größe des Datensatz zu erweitern.
    In der Konstruktion benutzen wir als Modell die lineare Regression und setzen diese
    mittels Gradient Descent um. Aufgrund der Linearität des Modells wird es ermöglicht
    das Training nur durch die Operationen des additiv homomorphen Verschlüsselungsver-
    fahrens auf verschlüsselten Daten umzusetzen und den Datenschutz damit zu erreichen.
    Wir behandeln damit sowohl ein weitverbreitetes Modell als auch eine weitverbreitete
    Optimierungsmethode, womit wir vergleichbare Ergebnisse für ähnliche Konstruktionen
    erhalten können. Auch anhand einer Implementierung der Konstruktion ist es möglich eine
    Tendenz über die Umsetzbarkeit des Trainings mit Gradient Descent auf verschlüsselten
    Daten und großen Datensätzen zu geben.