Was kostet eine Self-Hosted-KI-Plattform?

Setup typischerweise 8.000-25.000 € einmalig (je nach Komplexität, Quellen, SSO). Laufende Hosting-Kosten in EU-Cloud bei 500-3.500 € pro Monat je nach Nutzerzahl und Modell. On-Premise mit eigener GPU-Hardware: einmalig 15.000-80.000 € Hardware plus Strom.

Welche Modelle setzt ihr ein?

Aktuell vor allem Llama 3 (70B/8B), Qwen 2.5 (72B/32B), Mistral / Mixtral, je nach Sprache, Use Case und Hardware. Modell-Wahl machen wir nach Praxis-Tests, nicht nach Benchmark-Hype.

Brauchen wir eigene GPU-Hardware?

Nicht zwingend. Für viele Mittelständler reicht GPU-Mietsystem in EU-Cloud (Hetzner GPU-Server, RunPod EU, Scaleway). On-Premise lohnt sich ab ~150 aktiven Nutzern oder bei strengen Compliance-Vorgaben.

Wie ist die Antwort-Qualität verglichen mit ChatGPT?

Llama 3 70B und Qwen 2.5 72B liegen für die meisten Business-Use-Cases auf GPT-4-Niveau, in einzelnen Bereichen darunter, in deutscher Sprache mittlerweile sehr nah dran. Wir testen vor Setup mit Euren echten Use Cases.

Kann RAG / Wissensdatenbank integriert werden?

Ja — wir setzen das standardmäßig mit ein. Eure PDFs, Confluence, Datenbanken als RAG-Index, Antworten mit Quellenangabe.

Was ist mit Updates und neuen Modellen?

Open-Source-Landschaft entwickelt sich schnell. Wir prüfen halbjährlich neue Modelle, testen sie gegen Eure Use Cases und empfehlen Wechsel, wenn es sich lohnt — Du entscheidest, wann gewechselt wird.

Bietet ihr auch SLA und Monitoring?

Ja. Service-Verträge mit SLA (Reaktionszeit, Uptime), 24/7-Monitoring, Backup, Updates. Auf Wunsch komplette Verantwortung für Betrieb bei uns.

Wann macht Self-Hosted Sinn — und wann nicht?

Sinnvoll bei: strengem Datenschutz, vielen aktiven Nutzern (>100), hohem Audit-Bedarf, branchenspezifischen Compliance-Vorgaben. Weniger sinnvoll bei: <30 Nutzern und unkritischen Daten — da reichen oft Enterprise-SaaS-Lizenzen.

Self-Hosted KI

Self-Hosted KI — Eure eigene KI-Plattform, in Deutschland gehostet

ChatGPT, Copilot und Claude sind großartig — aber Eure sensiblen Daten haben dort nichts verloren. Wir richten Self-Hosted KI ein: Eure eigene KI-Plattform mit Open-Source-LLMs, OpenWebUI als Oberfläche, gehostet in Deutschland oder bei Euch on-premise. Volle Kontrolle, keine Daten-Abflüsse.

Strategiegespräch anfragen Use Cases ansehen

Volle Kontrolle über Eure Daten

Alternative zu ChatGPT & Co.

Zentrale KI-Plattform im Browser

Datensouveränität ohne Kompromisse

KI auf Eurer Infrastruktur — ohne US-Cloud, ohne Datenabfluss

Bei sensiblen Daten ist die Public Cloud oft keine Option. Mit Open-Source-Modellen wie Llama oder Mistral und passenden Inferenz-Stacks bauen wir KI-Lösungen, die vollständig auf Eurer Infrastruktur in Deutschland oder der EU laufen. Kein Datenabfluss zu US-Anbietern, keine versteckten Lizenzkosten, volle Kontrolle über Updates und Modelle — DSGVO ohne Workaround.

Strategiegespräch anfragen Use Cases ansehen

Self-hosted KI auf eigener Infrastruktur — Llama, Mistral und EU-Hosting für maximale Datensouveränität

Typische Ausgangslage

Wo Du jetzt vermutlich stehst

Diese Probleme hören wir in fast jedem Erstgespräch — und sie sind der eigentliche Grund, warum KI-Projekte scheitern oder gar nicht erst starten.

Sensible Daten dürfen nicht in US-Clouds

Mandanten-, Patienten-, Konstruktions-, Personaldaten — viele Branchen verbieten den Upload in US-SaaS. Mitarbeiter:innen behelfen sich heimlich, was zum echten Risiko wird.

ChatGPT-Lizenzen explodieren bei vielen Nutzern

Pro User pro Monat 20-40 € rechnet sich auf 200 Mitarbeitende schnell zu sechsstelligen Beträgen. Self-Hosted ist langfristig wirtschaftlicher und planbarer.

Keine Kontrolle über Modell-Updates

OpenAI ändert das Modell, plötzlich antworten interne Tools anders. Bei Self-Hosted entscheidet Ihr, wann (und ob) ein Update kommt.

DSGVO und Audit-Anforderungen

Audit-fest dokumentieren, welche Daten an wen gingen — bei Cloud-Anbietern oft nur bedingt möglich. Self-Hosted gibt Euch komplettes Logging und Kontrolle.

Leistungsbausteine

Was bei we make ai dazugehört

Konkrete Bausteine, die wir in jedem Projekt liefern — kein Beraterdeutsch.

Modell-Auswahl & Hosting

Auswahl passender Open-Source-LLMs (Llama 3, Qwen, Mistral, Mixtral) je nach Sprach-Qualität, Latenz, Hardware-Budget. Setup auf eigenen GPU-Servern oder EU-Cloud (Hetzner, Scaleway).

OpenWebUI als Oberfläche

ChatGPT-ähnliche, deutschsprachige UI für Mitarbeitende — mit Konversations-Verlauf, Modellauswahl, Datei-Upload, Workspaces. Vertraute UX ohne Schulungs-Aufwand.

RAG & eigene Wissensdatenbank

Eure PDFs, Confluence-Seiten, Datenbank-Inhalte als RAG eingebunden — Mitarbeitende fragen die KI Eure Inhalte mit Quellenangabe. Kein externer Datenfluss.

SSO, Rollen, Mandanten

Auditfähigkeit & Logging

Vollständiges Logging aller Konversationen, Audit-Export, Retention-Policies, Maskierung sensibler Felder. Compliance-tauglich für regulierte Branchen.

Betrieb, Updates und Monitoring

Wir übernehmen Setup, Updates, Monitoring (Latenz, GPU-Auslastung, Fehler) und planen Skalierung mit Euch. Optional komplett im Service-Vertrag.

Anwendungsbeispiele

So sieht das in der Praxis aus

Konkrete Szenarien aus Mittelstand, Dienstleistung, Handwerk und E-Commerce — keine Demos, sondern Anwendungen, die wir so oder ähnlich gebaut haben.

Kanzleien und Beratungen

Mandantenarbeit mit KI ohne Daten-Upload zu US-SaaS — KI für Recherche, Schriftsatz-Entwürfe, Vertragsanalyse läuft komplett in Eurer Umgebung.

Industrie & Maschinenbau

Konstruktions- und Service-Wissen bleibt im Haus. KI für technische Dokumentation, Service-Wissen, Engineering-Recherche ohne IP-Risiko.

Healthcare & Pharma

Patienten- und Studiendaten dürfen die EU-Infrastruktur nicht verlassen. Self-Hosted KI ermöglicht produktive KI-Nutzung im Alltag, ohne Risiko.

Banken & Versicherungen

Audit-Anforderungen, BaFin, MaRisk — Self-Hosted gibt Euch volle Logging-Kontrolle und Rückverfolgbarkeit, die Cloud-Anbieter nicht garantieren können.

Öffentliche Verwaltung

Bürgerdaten und interne Vorgänge bleiben auf eigenen Servern. KI als Assistent für Sachbearbeitung, Recherche, Dokumenten-Analyse.

Mittelstand mit vielen KI-Nutzern

Ab ca. 100 aktiven KI-Nutzern wird Self-Hosted oft günstiger als Pro-User-Lizenzen — bei besserer Kontrolle und mehr Flexibilität.

So arbeiten wir

Vom Erstgespräch bis zum Live-Gang

Klarer Prozess. Festpreis. Kein offenes Stundenrad.

Schritt 01

Anforderungs-Workshop

Welche Use Cases, welche Nutzerzahl, welches Datenschutz-Level, welches Hosting-Modell (EU-Cloud oder on-premise)? Hardware- und Modell-Empfehlung.

Schritt 02

Setup & Modell-Auswahl

Bereitstellung Hardware/Cloud, Modell-Deployment, OpenWebUI-Installation, SSO, Backup. Erste Tests mit Standard-Use-Cases.

Schritt 03

RAG & Integration

Anbindung Eurer Wissensquellen, Berechtigungen, ggf. erste Workflow-Integrationen (n8n, eigene APIs). Schulung der ersten Anwender.

Schritt 04

Betrieb & Skalierung

Monitoring, Updates, Modell-Wechsel bei Bedarf, Skalierung mit wachsender Nutzerzahl. Optional komplett bei uns im Service-Vertrag.

Aus der Praxis

Kanzlei mit 90 MA spart 35.000 €/Jahr — bei voller Datenhoheit.

Ausgangslage

Eine Wirtschaftskanzlei nutzte ChatGPT Enterprise für ~70 Anwälte (rechnerisch ~30.000 €/Jahr). Mandantendaten durften aber offiziell nicht hoch — Anwälte taten es trotzdem teilweise.

Lösung

Self-Hosted KI mit Llama 3 70B + Mistral als Fallback, OpenWebUI mit SSO, RAG auf 18.000 Bedingungswerke und eigene Schriftsatz-Bibliothek. Hosting bei Hetzner Falkenstein, Audit-Log, AVV-konform.

Ergebnis

Lizenzkosten von ~30.000 € auf ~12.000 € Hosting/Jahr gesunken. Mandantendaten bleiben in EU-Infrastruktur. Anwaltskanzlei kann Mandanten gegenüber explizit „ohne US-Cloud“ garantieren — Wettbewerbsvorteil bei DAX-Mandaten.

Warum we make ai

Was uns von klassischen Beratungen und Dev-Agenturen unterscheidet

Wir kennen Open-Source-LLMs in der Praxis

Wir betreiben Self-Hosted-Setups produktiv, nicht aus dem Tutorial. Modell-Auswahl, Quantisierung, GPU-Sizing, Latenz-Optimierung — Erfahrung statt Trial-and-Error.

EU-Hosting oder bei Euch on-premise

Wir hosten in Hetzner Falkenstein/Helsinki, Scaleway Paris oder direkt in Eurem Rechenzentrum. Ihr entscheidet — wir liefern, was zur Compliance passt.

Vertraute UI für Mitarbeitende

OpenWebUI sieht aus wie ChatGPT — aber mit Eurer Kontrolle. Kein Schulungs-Overhead, sofortige Akzeptanz im Team.

Voller Service oder Übergabe

Wir können Setup übergeben oder den Betrieb komplett übernehmen (SLA, Monitoring, Updates). Du bist nicht an uns gebunden.

Häufige Fragen

Was Du noch wissen solltest

Hast Du eine andere Frage? Schreib uns.

Direkt loslegen

Lass uns über Dein Projekt sprechen

Schick uns ein paar Stichworte zu Deinem Vorhaben — wir melden uns innerhalb von 24 Stunden mit einem konkreten Vorschlag für ein Strategiegespräch.

Antwort innerhalb von 24 Stunden

Kostenfrei und unverbindlich

Festpreis-Angebot nach dem Erstgespräch

Passt auch dazu

Du willst wissen, was bei Dir konkret möglich ist?

In 30 Minuten zeigen wir Dir, welche KI-Anwendung in Deinem Unternehmen am schnellsten Wirkung zeigt — kostenlos und unverbindlich.

Kostenloses Strategiegespräch