Wo werden meine Daten gespeichert und verarbeitet?

Inference und alle damit verbundenen Daten bleiben innerhalb der Plattform, die wir für Sie betreiben — in EU- oder deutschen Rechenzentren. Es wird nichts an öffentliche KI-APIs weitergeleitet, und nichts fließt in das Training geteilter Modelle.

Ist die API wirklich OpenAI-kompatibel?

Ja. Wir bieten OpenAI-kompatible Endpunkte, sodass die meisten bestehenden Client-Bibliotheken, SDKs und Integrationen schon durch Tausch von Base-URL und Key funktionieren. Beim Rollout unterstützen wir.

Welche Integrationen werden heute unterstützt?

Nextcloud, GitLab und alles, was die OpenAI-kompatible API spricht — inklusive Claude Code, Cursor, Continue und CLI-Agenten. Kundenspezifische Integrationen sind Teil des Engagements.

Wie funktioniert das Pricing?

Drei Pakete (Starter 490€, Business 1490€, Enterprise ab 2490€) mit monatlicher Grundgebühr und inkludiertem Credit-Kontingent. Token-Verbrauch wird credit-basiert abgerechnet — siehe Preise-Sektion. 12-Monats-Commitment bringt +20% Credits, Vorauszahlung +30%.

Kann das On-Premise oder in unserer eigenen Cloud laufen?

Ja. Die Plattform lässt sich in unserer Managed-Umgebung, auf von uns betriebenem dediziertem Bare Metal oder — bei einigen Setups — innerhalb Ihrer eigenen Infrastruktur als Managed Service betreiben.

Welche Modelle sind verfügbar?

Eine kuratierte Auswahl produktionsreifer Open-Source-Modelle aus den Familien Llama, Qwen, Mistral und DeepSeek — eingeordnet in Standard, Advanced und Premium. Die Modell-Liste wird regelmäßig aktualisiert. Auf Anfrage nennen wir das aktuelle Set.

Wie lange werden Logs und Daten aufbewahrt?

Operative Logs für Plattform-Betrieb werden kurzfristig vorgehalten und automatisch rotiert. Inference-Inhalte werden nicht für Modell-Training verwendet und nicht über die Verarbeitungsdauer hinaus gespeichert. Aufbewahrungszeiträume legen wir vertraglich fest.

Gibt es einen Auftragsverarbeitungsvertrag (AVV / DPA)?

Ja. Wir stellen einen DSGVO-konformen AVV (Data Processing Agreement) bereit, der EU-Hosting, Subunternehmer und technisch-organisatorische Maßnahmen abdeckt.

Wie funktionieren Abrechnung und Kündigung?

Monatliche Abrechnung (Standard) oder 12-Monats-Commitment / Vorauszahlung mit Bonus-Credits. Bei monatlicher Laufzeit zum Ende des Monats kündbar. Bei Commitments gilt die vereinbarte Laufzeit; Verlängerung ist optional.

Gibt es ein Pilot- oder Trial-Programm?

Ja. Wir bieten Pilot-Programme für die Validierung in Ihrer Umgebung. Sprechen Sie uns an — wir schneiden Scope, Modelle und Limits auf Ihren Use Case zu.

Wie schnell ist der Support pro Paket?

Starter: E-Mail Support während der Geschäftszeiten. Business: E-Mail plus optional Slack Connect / Teams. Enterprise: Priority Support inkl. Telefon, mit individuellen Response-Zeiten gemäß SLA.

Managed AI API Gateway · EU-gehostet · DSGVO-konform

Private AI für Ihr Unternehmen — gehostet in Europa

OpenAI-kompatible Endpoints, kuratierte Open-Source-Modelle und transparente Credit-Abrechnung. Pilotieren Sie mit Starter ab 490€ / Monat, skalieren Sie zu Business und Enterprise — ohne Daten an US-Anbieter zu senden.

Pilot-Programme verfügbar — sprechen Sie uns an.

Kontakt aufnehmen Preise ansehen Use Cases ansehen

Deutschland & EU
Hosting: DSGVO-konform
Compliance: OpenAI-kompatibel
API

Use Cases

Echte KI — in den Tools, die Sie bereits nutzen

Wir hosten nicht einfach Modelle — wir bringen KI direkt in Ihre bestehenden Plattformen, damit Ihre Daten dort bleiben, wo sie hingehören.

Nextcloud AI

Dokumenten-Zusammenfassungen, semantische Suche und KI-Chat über Ihre Dateien — direkt in dem Nextcloud, das Sie ohnehin betreiben.

GitLab AI

Code-Erklärungen, Merge-Request-Zusammenfassungen und ein privater Entwicklungs-Assistent — innerhalb Ihres GitLab, nicht in einer fremden Cloud.

Agentic Coding & IDE-Assistenten

Ein privater Endpunkt für Claude Code, Cursor, Continue und CLI-Agenten. Ihr Code bleibt in Ihrer Umgebung.

Plattform

Ihre private KI-Plattform — vollständig gemanaged

Gebaut für regulierte Umgebungen, in denen Datensouveränität und planbarer Betrieb wichtiger sind als Benchmarks.

Privacy-first

DSGVO-konform per Design. Keine Daten verlassen Ihre Umgebung, nichts wird an öffentliche KI-APIs weitergegeben.

EU- & Deutschland-Hosting

Betrieben in europäischen Rechenzentren. Wählbar zwischen Deutschland und anderen EU-Regionen — je nach Compliance-Anforderung.

OpenAI-kompatible API

Drop-in-kompatible Endpunkte. Bestehende Tools auf unsere Plattform umschwenken, ohne Integrationen umzubauen.

Moderne Open-Source-Modelle

Kuratierte, produktionsreife Open-Source-Modelle. Aktualisiert und betrieben von uns — kein Modell-Wildwuchs bei Ihnen.

High-Performance-Inference

Betrieben auf moderner KI-Infrastruktur mit H100-Klasse-Hardware, optimiert für reale Workloads — nicht für Benchmarks.

Transparente Nutzung

Klare Nutzungstransparenz und planbare Kostenstruktur. Keine Überraschungsrechnungen durch Token-Spitzen.

Drop-in kompatibel

OpenAI-kompatibel — Umstellung in 5 Zeilen

Gleiche SDKs, gleiche Endpoints. Tauschen Sie Base URL und API-Key — und Ihre bestehenden Tools laufen auf der Private-AI-Plattform.

bnerd@de-muc1:~⎇ main

$ curl https://api.bnerd.com/v1/chat/completions \
  -H "Authorization: Bearer $BNERD_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "model": "llama-3.3-70b",
    "messages": [{"role": "user", "content": "Hallo!"}]
  }'

from openai import OpenAI

client = OpenAI(
    base_url="https://api.bnerd.com/v1",
    api_key=os.environ["BNERD_API_KEY"],
)

response = client.chat.completions.create(
    model="llama-3.3-70b",
    messages=[{"role": "user", "content": "Hallo!"}],
)

import OpenAI from "openai";

const client = new OpenAI({
  baseURL: "https://api.bnerd.com/v1",
  apiKey: process.env.BNERD_API_KEY,
});

const response = await client.chat.completions.create({
  model: "llama-3.3-70b",
  messages: [{ role: "user", content: "Hallo!" }],
});

0:api de-muc1 b'nerd

Beispiel-Modellname; verfügbare Modelle nennen wir auf Anfrage.

Architektur

Gebaut für Kontrolle und Transparenz

Eine Plattform, in die Sie hineinwachsen — vom ersten Pilot bis zu produktiven KI-Funktionen in Ihren Tools.

Shared Infrastructure mit klarer Trennung: Workloads laufen auf gemeinsamer Plattform-Infrastruktur mit strikter Mandantentrennung und paketabhängiger Priorisierung. Keine überraschenden Modellwechsel, keine fremden Daten in Ihrer Inference.
Gehostet in Europa: Betrieben in EU- und deutschen Rechenzentren, unter europäischer Jurisdiktion. Datenresidenz ist ein Deployment-Entscheid, kein Kleingedrucktes.
Offene Architektur: Open-Source-Modelle, OpenAI-kompatible API und Standard-Integrationen — sodass Sie später wechseln, austauschen oder selbst betreiben können. Kein Vendor-Lock-in.
Vom Starter zur Enterprise: Pilot mit Starter, skalieren Sie zu Business für produktive Lasten, wechseln Sie zu Enterprise für Governance, Compliance und individuelle SLAs.

Preise ansehen

Managed AI API Gateway

Preise

Drei Pakete für jeden Workload. Token-Preise und Credit-System gelten einheitlich für alle Tiers.

Alle Preise zzgl. MwSt. Nur für Geschäftskunden.

Welches Paket passt zu Ihnen?

Starter

Für kleinere produktive Workloads, interne Assistenten, RAG-Prototypen und kontrollierte API-Nutzung.

Business

Für Team- und Unternehmens-Workloads mit höherem Durchsatz, stabilerer Nutzung und priorisierter Verarbeitung.

Enterprise

Für geschäftskritische KI-Workloads mit Governance, Compliance, Integration und individuellen Betriebsanforderungen.

Starter

Prototypen & kleinere produktive Workloads.

490€ / Monat

Pilot starten

Inkludiert

20 Mio. Credits / Monat
Shared Best-Effort AI Infrastruktur
OpenAI-kompatible API
Standard Queue Priorität
Standard API Limits & Context
Basis Monitoring
DSGVO-konformes Hosting in der EU
Verfügbarkeit: bis 99,5%
E-Mail Support

Business

Priorisierte Verarbeitung für Team-Workloads.

1490€ / Monat

Demo anfragen

Inkludiert

50 Mio. Credits / Monat
Priorisierte Verarbeitung in der Shared Infrastruktur
Erweiterte API Limits
Höhere Requests / Token pro Minute
Erweiterte Context Limits
Voller Zugriff auf Premium-Modelle
Optionaler VPN-Zugang · SSO möglich
Monitoring & erweitertes Usage Reporting
Verfügbarkeit: bis 99,9%
E-Mail Support · Slack Connect / Teams optional

Enterprise

Geschäftskritisch · Compliance · Custom.

ab

2490€ / Monat

Beratung anfragen

Inkludiert

Individuelle Credit-Kontingente
Höchste Priorisierung in der Shared Infrastruktur
Individuelle API Limits & Concurrency
Erweiterte Context Limits
Voller Zugriff auf Premium-Modelle
Private Networking möglich
VPN / SSO Integration
Audit Logging & erweitertes Reporting
Eigene Modelle optional integrierbar
Individuelle SLA Vereinbarungen
Priority Support (E-Mail, Telefon, Slack Connect / Teams)

Token-Preise

Preise je 1 Mio. Tokens. Gelten einheitlich für alle Pakete.

Modell-Klasse

Inklusive Nutzung

OnDemand

Standard

Chatbots · RAG · Automationen

Inklusive Nutzung 1,90€

OnDemand 2,90€

Advanced

Coding Assistants · Agenten · komplexe Assistenten

Inklusive Nutzung 4,90€

OnDemand 6,90€

Premium

Reasoning · High-End KI · komplexe Analyse

Inklusive Nutzung 9,90€

OnDemand 14,90€

Credit-System

Die Plattform rechnet credit-basiert ab. Modell-Klassen verbrauchen unterschiedlich viele Credits pro Token.

Standard 1× Credits
Advanced 3× Credits
Premium 6× Credits

Beispiel

10 Mio. Standard Tokens = 10 Mio. Credits
2 Mio. Advanced Tokens = 6 Mio. Credits
0,5 Mio. Premium Tokens = 3 Mio. Credits

Gesamtverbrauch: 19 Mio. Credits

Credit-Rechner

Schätzen Sie Ihren Verbrauch und sehen Sie sofort, was jedes Paket kosten würde — inkl. OnDemand-Überlauf.

Geschätzte Nutzung

Standard Tokens Chatbots, RAG, Automationen

0

Advanced Tokens Coding, Agenten, Assistenten

0

Premium Tokens Reasoning, High-End

0

Eingaben in Mio. Tokens pro Monat. Credit-Faktoren: Standard 1×, Advanced 3×, Premium 6×.

Pakete im Vergleich

Gesamtverbrauch

0

Starter

Business

Enterprise

Paket anfragen

Unverbindliche Schätzung. Über das inkludierte Kontingent hinaus gelten OnDemand-Preise (proportional über alle Modell-Klassen).

Laufzeit & Vorauszahlung

Längere Laufzeit oder Vorauszahlung erhöht das Credit-Kontingent — die Listenpreise bleiben identisch.

Monatlich

Standard

Standardpreise
Flexible Nutzung
Keine Mindestlaufzeit

12 Monate Commitment

+20% Credits

+20% zusätzliche Credits pro Monat
Stabile Preisgrundlage über 12 Monate

12 Monate Vorauszahlung

+30% Credits

+30% zusätzliche Credits pro Monat
Voraus bezahlt — eine Abrechnung pro Jahr

Fair Usage & Performance

Ein API-first managed Service: Sie konzentrieren sich auf die Integration, wir betreiben Infrastruktur und Modelle. Paketabhängige Limits sorgen für stabile Performance unter Last.

Requests pro Minute

Tier-abhängige RPM-Limits schützen die Plattform und stellen vorhersagbare Antwortzeiten sicher.

Token pro Minute

TPM-Limits skalieren mit dem Paket — Business und Enterprise haben deutlich höhere Durchsätze.

Context Limits

Maximale Context-Größe je Request, abhängig vom Paket und Modell.

Queue Priorisierung

Priorisierte Lanes für Business und Enterprise sorgen für stabilere Antwortzeiten unter Last.

Private AI — FAQs

Häufige Fragen zu Datenresidenz, Integrationen und Engagement-Modell.

: Inference und alle damit verbundenen Daten bleiben innerhalb der Plattform, die wir für Sie betreiben — in EU- oder deutschen Rechenzentren. Es wird nichts an öffentliche KI-APIs weitergeleitet, und nichts fließt in das Training geteilter Modelle.
: Ja. Wir bieten OpenAI-kompatible Endpunkte, sodass die meisten bestehenden Client-Bibliotheken, SDKs und Integrationen schon durch Tausch von Base-URL und Key funktionieren. Beim Rollout unterstützen wir.
: Nextcloud, GitLab und alles, was die OpenAI-kompatible API spricht — inklusive Claude Code, Cursor, Continue und CLI-Agenten. Kundenspezifische Integrationen sind Teil des Engagements.
: Drei Pakete (Starter 490€, Business 1490€, Enterprise ab 2490€) mit monatlicher Grundgebühr und inkludiertem Credit-Kontingent. Token-Verbrauch wird credit-basiert abgerechnet — siehe Preise-Sektion. 12-Monats-Commitment bringt +20% Credits, Vorauszahlung +30%.
: Ja. Die Plattform lässt sich in unserer Managed-Umgebung, auf von uns betriebenem dediziertem Bare Metal oder — bei einigen Setups — innerhalb Ihrer eigenen Infrastruktur als Managed Service betreiben.
: Eine kuratierte Auswahl produktionsreifer Open-Source-Modelle aus den Familien Llama, Qwen, Mistral und DeepSeek — eingeordnet in Standard, Advanced und Premium. Die Modell-Liste wird regelmäßig aktualisiert. Auf Anfrage nennen wir das aktuelle Set.
: Operative Logs für Plattform-Betrieb werden kurzfristig vorgehalten und automatisch rotiert. Inference-Inhalte werden nicht für Modell-Training verwendet und nicht über die Verarbeitungsdauer hinaus gespeichert. Aufbewahrungszeiträume legen wir vertraglich fest.
: Ja. Wir stellen einen DSGVO-konformen AVV (Data Processing Agreement) bereit, der EU-Hosting, Subunternehmer und technisch-organisatorische Maßnahmen abdeckt.
: Monatliche Abrechnung (Standard) oder 12-Monats-Commitment / Vorauszahlung mit Bonus-Credits. Bei monatlicher Laufzeit zum Ende des Monats kündbar. Bei Commitments gilt die vereinbarte Laufzeit; Verlängerung ist optional.
: Ja. Wir bieten Pilot-Programme für die Validierung in Ihrer Umgebung. Sprechen Sie uns an — wir schneiden Scope, Modelle und Limits auf Ihren Use Case zu.
: Starter: E-Mail Support während der Geschäftszeiten. Business: E-Mail plus optional Slack Connect / Teams. Enterprise: Priority Support inkl. Telefon, mit individuellen Response-Zeiten gemäß SLA.

Sie haben Fragen oder wünschen ein individuelles Angebot? Wir beraten Sie gerne.

Anfrage stellen

Kontakt

Unsere Cloud Experten beraten Sie gerne und individuell.

Sillemstraße 76A

20257 Hamburg, Deutschland

Mo - Fr: 09.00 - 18.00 Uhr

+49 40 239 69 754 0

hello@bnerd.com