BYOK + lokales Sprachmodell — kein KI-Vendor-Lock-in

Tech-USP: Alle KI-Aufrufe gehen durch einen OpenAI-kompatiblen Adapter. Anthropic, OpenAI, Llama via Ollama, vLLM, On-Prem-Setups — austauschbar über Environment-Variablen, kein Code-Change in Eurer App.

Käufer-Sicht: Eure Reklamations-Daten, Mandanten-Akten, Wartungs-Historien werden niemals an US-Anbieter geschickt — Ihr habt eigene KI auf eigener Hardware. Provider-Wechsel später ist eine .env-Änderung, kein Sprint.

Was das konkret bedeutet

Eine Konfiguration, drei Provider-Welten:

# Cloud-API (kumiko.rocks Hosted-Default)
LLM_ENDPOINT=https://api.anthropic.com/v1
LLM_API_KEY=sk-ant-...
LLM_MODEL=claude-sonnet-4-6

# BYOK Cloud (eigener OpenAI-Account)
LLM_ENDPOINT=https://api.openai.com/v1
LLM_API_KEY=sk-...
LLM_MODEL=gpt-4o

# Lokales Modell (Ollama auf Eurem GPU-Server)
LLM_ENDPOINT=http://gpu-server.intern:11434/v1
LLM_API_KEY=ollama
LLM_MODEL=llama3.1:70b

Im App-Code bleibt alles gleich:

const result = await ai.generate({
  prompt: "Schlage 8D-Schritte D2-D4 aus dieser Reklamation vor: ...",
  schema: vorschlagSchema,
});

Der Adapter macht den Rest. Kein Provider-spezifischer Code in Euren Features.

Drei Modi

Modus	Wann	Setup
Cloud-API	kumiko.rocks Hosted-Default, schnellster Start	Anthropic-API mit Plattform-Schlüssel — wir kümmern uns
BYOK Cloud	Power-User mit eigenem Anthropic/OpenAI-Account, eigene Quotas/Compliance	Env-Vars setzen, Plattform nutzt Euren Account
Lokales Modell	Mittelstand mit DSGVO-Druck oder Air-Gapped-Setup	Ollama oder vLLM auf eigenem GPU-Server — KI-Daten verlassen das Netz nie

Was Ihr dadurch gratis bekommt

Provider-Wechsel ohne Code-Change

Anthropic-API teurer geworden? Llama 3.1 70B reicht für Eure Tasks? OpenAI hat besseres Modell? — Env-Var ändern, deployen, fertig. Kein Refactoring, keine Provider-spezifischen SDKs in Eurem Code, keine Migration.

Daten und KI bleiben im eigenen Haus

Lokales Sprachmodell auf eigener GPU-Hardware (z.B. RTX-4090, A100, oder gemietete H100-Instanz bei einem deutschen Anbieter). Reklamations-Beschreibungen, Mandanten-Akten, Wartungs-Berichte werden lokal verarbeitet — kein US-Cloud-Datenfluss, kein Schrems-II-Risiko, kein „aber unser Sub-Auftragsverarbeiter”.

Air-Gapped möglich

Vollständig offline-fähig. Keine ausgehenden Netzwerk-Verbindungen. Selbst Updates über signierte Container-Images, manuelle Installation. Compliance-Auditor-tauglich für ISO 27001 und höhere Sicherheitsstufen.

Cost-Optimierung pro Task-Typ

Einfache Klassifikations-Tasks → kleines lokales Modell (Llama 3.1 8B, ~5€/Tag GPU-Strom). Komplexe Generierungs-Tasks → größeres Cloud-Modell (Claude Opus oder GPT-4o, pay-per-token). Mischung pro Feature konfigurierbar.

Welches lokale Modell wann?

Modell	Wann sinnvoll	Hardware
Llama 3.1 8B	Klassifikation, einfache Extraktion, Prompts mit klarem Output-Schema	1× RTX 4090 (~24 GB VRAM)
Llama 3.1 70B	Reports generieren, mehrstufige Reasoning-Tasks, längere Kontexte	2× A100 (80 GB) oder Quantization
Mistral / Mixtral 8x7B	Code-Generation, mehrsprachig, gute deutsche Qualität	1× A100 oder 2× RTX 4090
Qwen 2.5 72B	Anspruchsvolle Reasoning + lange Kontexte	wie Llama 70B

Empfehlung für Pilot-Setup: Llama 3.1 8B als Default, Cloud-API als Fallback für komplexe Tasks. Skalierung nach Workload.

Was es nicht ist

Kein eigenes LLM-Training — wir hosten keine Trainings-Pipeline. Off-the-shelf-Modelle, fine-tuned bei Bedarf über externe Anbieter
Kein Caching-/Rate-Limit-Layer — Adapter ist dünn, keine Re-Implementierung von OpenAI-Caching. Wer das braucht, baut es als Middleware vor dem Adapter
Kein Multi-Provider-Fallback — ein Modus gleichzeitig, kein automatischer Failover Cloud→Local. Kann später kommen, ist heute kein Pflicht-Feature

Wo das im Pitch landet

DACH-Sales: Top-Argument #2 „Daten und KI bleiben bei Euch” — eigener Server, eigenes Modell. Reklamationen, Mandanten-Akten, Wartungs-Historien werden niemals extern verarbeitet
Indie-Hacker: Sub-Argument „switch providers anytime, no lock-in” — Anthropic teuer? OpenAI ausgefallen? Local-Llama für die meisten Tasks, Cloud nur für Komplexes
Enterprise: Compliance-Closer — Air-gapped-Modus für ISO 27001, SOC2, BSI-Grundschutz, höhere Sicherheitsstufen