Geförderte Projekte

MINERVA: On-Premise KI-Assistent für Cybersicherheit

|   Call 2023

Das Ziel dieses Projekts is einen KI-Assistenten speziell für Cybersicherheitsexpert:innen zu entwickeln. Durch den vollständigen Einsatz und die Optimierung von Large Language Models (LLMs) in einer lokalen Infrastruktur ermöglicht die Lösung einen sicheren Zugriff auf strukturierte (text-to-SQL) und unstrukturierte Daten mittels Retrieval Augmented Generation (RAG). Dieser Ansatz stellt sicher, dass Organisationen die volle Hoheit über ihre sensiblen Daten behalten, während sie zugleich von KI-gestützten Suchfunktionen profitieren. Auf diese Weise können Analyst:innen große Mengen sicherheitsrelevanter Informationen aus unterschiedlichen Quellen effizient verarbeiten, ohne auf externe Cloud Anbieter angewiesen zu sein.

Cybersecurity Expert:innen benötigen einen umfassenden Zugang zu Bedrohungsdaten, detaillierten Berichten und den neuesten Nachrichten, müssen sich aber bei ihrer täglichen Arbeit mit mehreren Tools, Datenbanken und externen Ressourcen auseinandersetzen. Diese Komplexität führt häufig zu einer Informationsflut und erhöht das Risiko, entscheidende Zusammenhänge zu übersehen, die zur Korrelation, Verhinderung oder Eindämmung von Cyberangriffen beitragen könnten. Cloud-basierte Sprachmodelle können zwar die Betriebskosten senken, führen aber zu erheblichen Datenschutzproblemen, insbesondere bei kritischen Infrastrukturen, und schaffen Abhängigkeiten von externen Anbietern.

Im Gegensatz dazu bietet der Einsatz von LLMs On-Premise die Möglichkeit, die Kontrolle über sensible Daten und die lokale Infrastruktur zu behalten, obwohl dies erhebliche Rechenkapazitäten erfordert. Kleinere Modelle kommen mit weniger GPUs aus, eignen sich aber nur für einfachere Abfragen, während größere Modelle komplexere Aufgaben lösen können, insbesondere leistungsstarken GPUs, ausgestattet sind.

Unser erstes MVP nutzte ein kleineres Llama 7B Modell, um eine Bedrohungsdatenbank abzufragen und verschiedene Bedrohungsberichte zu verarbeiten. Erste Ergebnisse deuteten darauf hin, dass ein größeres Modell zu genaueren und aussagekräftigeren Antworten führen würde. Um dies zu prüfen, setzten wir zwei lokal gehostete NVIDIA L40 GPUs mit insgesamt 80 GB VRAM ein, um ein Llama70B Modell mit INT4 quantization zu betreiben. Obwohl dieser Schritt die Leistung bei strukturierten Abfragen und der Dokumentensuche verbessern sollte, erwies sich die präzise SQL-Generierung aus natürlicher Sprache als wesentliche Herausforderung. Die Komplexität der Datenbankschemata – oft geprägt von umfangreicher Geschäftslogik und komplexen Beziehungen – erschwerte es dem Modell, zuverlässige SQL-Abfragen ohne zusätzlichen Kontext oder Expertise zu erstellen. Zwar funktionierte die Dokumentensuche gut, doch das Text-zu-SQL Problem wurde zum zentralen technischen Engpass, was uns dazu veranlasste, unsere Herangehensweise zu überdenken.

In der Folge änderten wir unsere Strategie. Statt von Hardwareeinschränkungen auszugehen, testeten wir ein vollständiges Llama 70B Modell über API-basierte Dienste, das etwa 70 % größer ist als die quantized Variante. Auf diese Weise konnten wir die Fähigkeiten des Modells vor einer finalen On-Premise Implementierung validieren. So gelang es uns, klarere Anforderungen für Kunden festzulegen, die lokale LLM-Lösungen umsetzen wollen – von ersten API-Tests bis hin zur vollständig lokalen Einrichtung mit geeigneter Infrastruktur.

Nach der Validierung des Modells richteten wir unser Augenmerk auf die Datenarchitektur. Wir integrierten Daten aus verschiedenen Cybersecurity Datenquellen, darunter Tenable, Qualys, Microsoft Defender und die National Vulnerability Database (NVD), in ein einheitliches Schema. Dadurch können Analyst:innen nun mithilfe natürlicher Sprachabfragen sowohl auf strukturierte Sicherheitsdaten – etwa Ergebnisse von Schwachstellenscans, Sicherheitsalarme auf Endpoints oder CVE-Daten – als auch auf unstrukturierte Daten wie Bedrohungsberichte und Warnhinweise zugreifen. Indem wir die Datenintegration vorab priorisierten und die zugrunde liegenden Datenbanksysteme vereinfachten, entstand eine Lösung, die Datenhoheit wahrt, den effizienten Zugriff auf sicherheitsrelevante Informationen aus verschiedenen Quellen ermöglicht und vollständig ohne die Abhängigkeit von externen Cloud-Anbietern auskommt.

ProjektleiterIn
Sonja Judith Fink
IKARUS Security Software GmbH
office(at)ikarus.at 

Auflistung der weiteren Projekt- bzw. KooperationspartnerInnen
CyberACI GmbH
+43 1 58995-0

Kontakt
Sonja Judith Fink
Blechturmgasse 11, 1050 Wien

01 58995 0
office(at)ikarus.at 
https://www.IKARUSsecurity.com 
https://www.cyberaci.com/minerva/ 

Bundesministerium für Finanzen
Österreichische Forschungsförderungsgesellschaft - FFG