Private AI für Ihr Unternehmen — gehostet in Europa
OpenAI-kompatible Endpoints, kuratierte Open-Source-Modelle und transparente Credit-Abrechnung. Pilotieren Sie mit Starter ab 490€ / Monat, skalieren Sie zu Business und Enterprise — ohne Daten an US-Anbieter zu senden.
Pilot-Programme verfügbar — sprechen Sie uns an.
- Hosting
- Deutschland & EU
- Compliance
- DSGVO-konform
- API
- OpenAI-kompatibel
Use Cases
Echte KI — in den Tools, die Sie bereits nutzen
Wir hosten nicht einfach Modelle — wir bringen KI direkt in Ihre bestehenden Plattformen, damit Ihre Daten dort bleiben, wo sie hingehören.
Nextcloud AI
Dokumenten-Zusammenfassungen, semantische Suche und KI-Chat über Ihre Dateien — direkt in dem Nextcloud, das Sie ohnehin betreiben.
GitLab AI
Code-Erklärungen, Merge-Request-Zusammenfassungen und ein privater Entwicklungs-Assistent — innerhalb Ihres GitLab, nicht in einer fremden Cloud.
Agentic Coding & IDE-Assistenten
Ein privater Endpunkt für Claude Code, Cursor, Continue und CLI-Agenten. Ihr Code bleibt in Ihrer Umgebung.
Plattform
Ihre private KI-Plattform — vollständig gemanaged
Gebaut für regulierte Umgebungen, in denen Datensouveränität und planbarer Betrieb wichtiger sind als Benchmarks.
Privacy-first
DSGVO-konform per Design. Keine Daten verlassen Ihre Umgebung, nichts wird an öffentliche KI-APIs weitergegeben.
EU- & Deutschland-Hosting
Betrieben in europäischen Rechenzentren. Wählbar zwischen Deutschland und anderen EU-Regionen — je nach Compliance-Anforderung.
OpenAI-kompatible API
Drop-in-kompatible Endpunkte. Bestehende Tools auf unsere Plattform umschwenken, ohne Integrationen umzubauen.
Moderne Open-Source-Modelle
Kuratierte, produktionsreife Open-Source-Modelle. Aktualisiert und betrieben von uns — kein Modell-Wildwuchs bei Ihnen.
High-Performance-Inference
Betrieben auf moderner KI-Infrastruktur mit H100-Klasse-Hardware, optimiert für reale Workloads — nicht für Benchmarks.
Transparente Nutzung
Klare Nutzungstransparenz und planbare Kostenstruktur. Keine Überraschungsrechnungen durch Token-Spitzen.
Drop-in kompatibel
OpenAI-kompatibel — Umstellung in 5 Zeilen
Gleiche SDKs, gleiche Endpoints. Tauschen Sie Base URL und API-Key — und Ihre bestehenden Tools laufen auf der Private-AI-Plattform.
curl https://api.bnerd.com/v1/chat/completions \
-H "Authorization: Bearer $BNERD_API_KEY" \
-H "Content-Type: application/json" \
-d '{
"model": "llama-3.3-70b",
"messages": [{"role": "user", "content": "Hallo!"}]
}'
from openai import OpenAI
client = OpenAI(
base_url="https://api.bnerd.com/v1",
api_key=os.environ["BNERD_API_KEY"],
)
response = client.chat.completions.create(
model="llama-3.3-70b",
messages=[{"role": "user", "content": "Hallo!"}],
)
import OpenAI from "openai";
const client = new OpenAI({
baseURL: "https://api.bnerd.com/v1",
apiKey: process.env.BNERD_API_KEY,
});
const response = await client.chat.completions.create({
model: "llama-3.3-70b",
messages: [{ role: "user", content: "Hallo!" }],
});
Beispiel-Modellname; verfügbare Modelle nennen wir auf Anfrage.
Architektur
Gebaut für Kontrolle und Transparenz
Eine Plattform, in die Sie hineinwachsen — vom ersten Pilot bis zu produktiven KI-Funktionen in Ihren Tools.
- Shared Infrastructure mit klarer Trennung
- Workloads laufen auf gemeinsamer Plattform-Infrastruktur mit strikter Mandantentrennung und paketabhängiger Priorisierung. Keine überraschenden Modellwechsel, keine fremden Daten in Ihrer Inference.
- Gehostet in Europa
- Betrieben in EU- und deutschen Rechenzentren, unter europäischer Jurisdiktion. Datenresidenz ist ein Deployment-Entscheid, kein Kleingedrucktes.
- Offene Architektur
- Open-Source-Modelle, OpenAI-kompatible API und Standard-Integrationen — sodass Sie später wechseln, austauschen oder selbst betreiben können. Kein Vendor-Lock-in.
- Vom Starter zur Enterprise
- Pilot mit Starter, skalieren Sie zu Business für produktive Lasten, wechseln Sie zu Enterprise für Governance, Compliance und individuelle SLAs.
Managed AI API Gateway
Preise
Drei Pakete für jeden Workload. Token-Preise und Credit-System gelten einheitlich für alle Tiers.
Alle Preise zzgl. MwSt. Nur für Geschäftskunden.
Welches Paket passt zu Ihnen?
Für kleinere produktive Workloads, interne Assistenten, RAG-Prototypen und kontrollierte API-Nutzung.
Für Team- und Unternehmens-Workloads mit höherem Durchsatz, stabilerer Nutzung und priorisierter Verarbeitung.
Für geschäftskritische KI-Workloads mit Governance, Compliance, Integration und individuellen Betriebsanforderungen.
Inkludiert
- 20 Mio. Credits / Monat
- Shared Best-Effort AI Infrastruktur
- OpenAI-kompatible API
- Standard Queue Priorität
- Standard API Limits & Context
- Basis Monitoring
- DSGVO-konformes Hosting in der EU
- Verfügbarkeit: bis 99,5%
- E-Mail Support
Inkludiert
- 50 Mio. Credits / Monat
- Priorisierte Verarbeitung in der Shared Infrastruktur
- Erweiterte API Limits
- Höhere Requests / Token pro Minute
- Erweiterte Context Limits
- Voller Zugriff auf Premium-Modelle
- Optionaler VPN-Zugang · SSO möglich
- Monitoring & erweitertes Usage Reporting
- Verfügbarkeit: bis 99,9%
- E-Mail Support · Slack Connect / Teams optional
Inkludiert
- Individuelle Credit-Kontingente
- Höchste Priorisierung in der Shared Infrastruktur
- Individuelle API Limits & Concurrency
- Erweiterte Context Limits
- Voller Zugriff auf Premium-Modelle
- Private Networking möglich
- VPN / SSO Integration
- Audit Logging & erweitertes Reporting
- Eigene Modelle optional integrierbar
- Individuelle SLA Vereinbarungen
- Priority Support (E-Mail, Telefon, Slack Connect / Teams)
Token-Preise
Preise je 1 Mio. Tokens. Gelten einheitlich für alle Pakete.
Credit-System
Die Plattform rechnet credit-basiert ab. Modell-Klassen verbrauchen unterschiedlich viele Credits pro Token.
- Standard 1× Credits
- Advanced 3× Credits
- Premium 6× Credits
- 10 Mio. Standard Tokens = 10 Mio. Credits
- 2 Mio. Advanced Tokens = 6 Mio. Credits
- 0,5 Mio. Premium Tokens = 3 Mio. Credits
Credit-Rechner
Schätzen Sie Ihren Verbrauch und sehen Sie sofort, was jedes Paket kosten würde — inkl. OnDemand-Überlauf.
Geschätzte Nutzung
0
0
0
Eingaben in Mio. Tokens pro Monat. Credit-Faktoren: Standard 1×, Advanced 3×, Premium 6×.
Unverbindliche Schätzung. Über das inkludierte Kontingent hinaus gelten OnDemand-Preise (proportional über alle Modell-Klassen).
Laufzeit & Vorauszahlung
Längere Laufzeit oder Vorauszahlung erhöht das Credit-Kontingent — die Listenpreise bleiben identisch.
Monatlich
Standard- Standardpreise
- Flexible Nutzung
- Keine Mindestlaufzeit
12 Monate Commitment
+20% Credits- +20% zusätzliche Credits pro Monat
- Stabile Preisgrundlage über 12 Monate
12 Monate Vorauszahlung
+30% Credits- +30% zusätzliche Credits pro Monat
- Voraus bezahlt — eine Abrechnung pro Jahr
Fair Usage & Performance
Ein API-first managed Service: Sie konzentrieren sich auf die Integration, wir betreiben Infrastruktur und Modelle. Paketabhängige Limits sorgen für stabile Performance unter Last.
Requests pro Minute
Tier-abhängige RPM-Limits schützen die Plattform und stellen vorhersagbare Antwortzeiten sicher.
Token pro Minute
TPM-Limits skalieren mit dem Paket — Business und Enterprise haben deutlich höhere Durchsätze.
Context Limits
Maximale Context-Größe je Request, abhängig vom Paket und Modell.
Queue Priorisierung
Priorisierte Lanes für Business und Enterprise sorgen für stabilere Antwortzeiten unter Last.
Private AI — FAQs
Häufige Fragen zu Datenresidenz, Integrationen und Engagement-Modell.
-
Inference und alle damit verbundenen Daten bleiben innerhalb der Plattform, die wir für Sie betreiben — in EU- oder deutschen Rechenzentren. Es wird nichts an öffentliche KI-APIs weitergeleitet, und nichts fließt in das Training geteilter Modelle.
-
Ja. Wir bieten OpenAI-kompatible Endpunkte, sodass die meisten bestehenden Client-Bibliotheken, SDKs und Integrationen schon durch Tausch von Base-URL und Key funktionieren. Beim Rollout unterstützen wir.
-
Nextcloud, GitLab und alles, was die OpenAI-kompatible API spricht — inklusive Claude Code, Cursor, Continue und CLI-Agenten. Kundenspezifische Integrationen sind Teil des Engagements.
-
Drei Pakete (Starter 490€, Business 1490€, Enterprise ab 2490€) mit monatlicher Grundgebühr und inkludiertem Credit-Kontingent. Token-Verbrauch wird credit-basiert abgerechnet — siehe Preise-Sektion. 12-Monats-Commitment bringt +20% Credits, Vorauszahlung +30%.
-
Ja. Die Plattform lässt sich in unserer Managed-Umgebung, auf von uns betriebenem dediziertem Bare Metal oder — bei einigen Setups — innerhalb Ihrer eigenen Infrastruktur als Managed Service betreiben.
-
Eine kuratierte Auswahl produktionsreifer Open-Source-Modelle aus den Familien Llama, Qwen, Mistral und DeepSeek — eingeordnet in Standard, Advanced und Premium. Die Modell-Liste wird regelmäßig aktualisiert. Auf Anfrage nennen wir das aktuelle Set.
-
Operative Logs für Plattform-Betrieb werden kurzfristig vorgehalten und automatisch rotiert. Inference-Inhalte werden nicht für Modell-Training verwendet und nicht über die Verarbeitungsdauer hinaus gespeichert. Aufbewahrungszeiträume legen wir vertraglich fest.
-
Ja. Wir stellen einen DSGVO-konformen AVV (Data Processing Agreement) bereit, der EU-Hosting, Subunternehmer und technisch-organisatorische Maßnahmen abdeckt.
-
Monatliche Abrechnung (Standard) oder 12-Monats-Commitment / Vorauszahlung mit Bonus-Credits. Bei monatlicher Laufzeit zum Ende des Monats kündbar. Bei Commitments gilt die vereinbarte Laufzeit; Verlängerung ist optional.
-
Ja. Wir bieten Pilot-Programme für die Validierung in Ihrer Umgebung. Sprechen Sie uns an — wir schneiden Scope, Modelle und Limits auf Ihren Use Case zu.
-
Starter: E-Mail Support während der Geschäftszeiten. Business: E-Mail plus optional Slack Connect / Teams. Enterprise: Priority Support inkl. Telefon, mit individuellen Response-Zeiten gemäß SLA.
Sie haben Fragen oder wünschen ein individuelles Angebot? Wir beraten Sie gerne.
Kontakt
Unsere Cloud Experten beraten Sie gerne und individuell.
- Unser Büro
-
Sillemstraße 76A
20257 Hamburg, Deutschland
Mo - Fr: 09.00 - 18.00 Uhr
- Telefon
- +49 40 239 69 754 0
- hello@bnerd.com