Tech-USP: Alle KI-Aufrufe gehen durch einen OpenAI-kompatiblen Adapter. Anthropic, OpenAI, Llama via Ollama, vLLM, On-Prem-Setups — austauschbar über Environment-Variablen, kein Code-Change in Eurer App.
Käufer-Sicht: Eure Reklamations-Daten, Mandanten-Akten, Wartungs-Historien werden niemals an US-Anbieter geschickt — Ihr habt eigene KI auf eigener Hardware. Provider-Wechsel später ist eine
.env-Änderung, kein Sprint.
Was das konkret bedeutet
Eine Konfiguration, drei Provider-Welten:
# Cloud-API (kumiko.so Hosted-Default)
LLM_ENDPOINT=https://api.anthropic.com/v1
LLM_API_KEY=sk-ant-...
LLM_MODEL=claude-sonnet-4-6
# BYOK Cloud (eigener OpenAI-Account)
LLM_ENDPOINT=https://api.openai.com/v1
LLM_API_KEY=sk-...
LLM_MODEL=gpt-4o
# Lokales Modell (Ollama auf Eurem GPU-Server)
LLM_ENDPOINT=http://gpu-server.intern:11434/v1
LLM_API_KEY=ollama
LLM_MODEL=llama3.1:70b
Im App-Code bleibt alles gleich:
const result = await ai.generate({
prompt: "Schlage 8D-Schritte D2-D4 aus dieser Reklamation vor: ...",
schema: vorschlagSchema,
});
Der Adapter macht den Rest. Kein Provider-spezifischer Code in Euren Features.
Drei Modi
| Modus | Wann | Setup |
|---|---|---|
| Cloud-API | kumiko.so Hosted-Default, schnellster Start | Anthropic-API mit Plattform-Schlüssel — wir kümmern uns |
| BYOK Cloud | Power-User mit eigenem Anthropic/OpenAI-Account, eigene Quotas/Compliance | Env-Vars setzen, Plattform nutzt Euren Account |
| Lokales Modell | Mittelstand mit DSGVO-Druck oder Air-Gapped-Setup | Ollama oder vLLM auf eigenem GPU-Server — KI-Daten verlassen das Netz nie |
Was Ihr dadurch gratis bekommt
Provider-Wechsel ohne Code-Change
Anthropic-API teurer geworden? Llama 3.1 70B reicht für Eure Tasks? OpenAI hat besseres Modell? — Env-Var ändern, deployen, fertig. Kein Refactoring, keine Provider-spezifischen SDKs in Eurem Code, keine Migration.
Daten und KI bleiben im eigenen Haus
Lokales Sprachmodell auf eigener GPU-Hardware (z.B. RTX-4090, A100, oder gemietete H100-Instanz bei einem deutschen Anbieter). Reklamations-Beschreibungen, Mandanten-Akten, Wartungs-Berichte werden lokal verarbeitet — kein US-Cloud-Datenfluss, kein Schrems-II-Risiko, kein „aber unser Sub-Auftragsverarbeiter”.
Air-Gapped möglich
Vollständig offline-fähig. Keine ausgehenden Netzwerk-Verbindungen. Selbst Updates über signierte Container-Images, manuelle Installation. Compliance-Auditor-tauglich für ISO 27001 und höhere Sicherheitsstufen.
Cost-Optimierung pro Task-Typ
Einfache Klassifikations-Tasks → kleines lokales Modell (Llama 3.1 8B, ~5€/Tag GPU-Strom). Komplexe Generierungs-Tasks → größeres Cloud-Modell (Claude Opus oder GPT-4o, pay-per-token). Mischung pro Feature konfigurierbar.
Welches lokale Modell wann?
| Modell | Wann sinnvoll | Hardware |
|---|---|---|
| Llama 3.1 8B | Klassifikation, einfache Extraktion, Prompts mit klarem Output-Schema | 1× RTX 4090 (~24 GB VRAM) |
| Llama 3.1 70B | Reports generieren, mehrstufige Reasoning-Tasks, längere Kontexte | 2× A100 (80 GB) oder Quantization |
| Mistral / Mixtral 8x7B | Code-Generation, mehrsprachig, gute deutsche Qualität | 1× A100 oder 2× RTX 4090 |
| Qwen 2.5 72B | Anspruchsvolle Reasoning + lange Kontexte | wie Llama 70B |
Empfehlung für Pilot-Setup: Llama 3.1 8B als Default, Cloud-API als Fallback für komplexe Tasks. Skalierung nach Workload.
Was es nicht ist
- Kein eigenes LLM-Training — wir hosten keine Trainings-Pipeline. Off-the-shelf-Modelle, fine-tuned bei Bedarf über externe Anbieter
- Kein Caching-/Rate-Limit-Layer — Adapter ist dünn, keine Re-Implementierung von OpenAI-Caching. Wer das braucht, baut es als Middleware vor dem Adapter
- Kein Multi-Provider-Fallback — ein Modus gleichzeitig, kein automatischer Failover Cloud→Local. Kann später kommen, ist heute kein Pflicht-Feature
Wo das im Pitch landet
- DACH-Sales: Top-Argument #2 „Daten und KI bleiben bei Euch” — eigener Server, eigenes Modell. Reklamationen, Mandanten-Akten, Wartungs-Historien werden niemals extern verarbeitet
- Indie-Hacker: Sub-Argument „switch providers anytime, no lock-in” — Anthropic teuer? OpenAI ausgefallen? Local-Llama für die meisten Tasks, Cloud nur für Komplexes
- Enterprise: Compliance-Closer — Air-gapped-Modus für ISO 27001, SOC2, BSI-Grundschutz, höhere Sicherheitsstufen