Am 2. September 2025 hat die Schweiz ihr erstes vollstaendig offenes Sprachmodell veroeffentlicht: Apertus. Entwickelt von ETH Zurich, EPFL und dem Schweizer Nationalen Hochleistungsrechenzentrum CSCS, trainiert auf 15 Billionen Tokens in ueber 1'000 Sprachen — inklusive Schweizerdeutsch und Raetoromanisch. Das war kein PR-Stunt: Apertus ist die technische Basis einer regulatorischen Wende. Schweizer Banken, Versicherungen, Spitaeler und Bundesaemter koennen 2026 zum ersten Mal ein Foundation-Modell betreiben, das weder einer US-Cloud noch einem US-Mutterhaus untersteht. Sovereign AI ist damit kein theoretisches Konzept mehr — es ist deploybare Infrastruktur. Wir bei mazdek haben in 7 Monaten 14 produktive Sovereign-AI-Deployments abgeschlossen — von revDSG-konformen Spital-RAG-Systemen ueber FINMA-zertifizierte Bank-Chatbots bis zu air-gapped Behoerden-Assistenzsystemen. Dieser Leitfaden destilliert die Lehren aus diesen Mandaten. Unser PROMETHEUS-Agent orchestriert die Modell-Auswahl, HEPHAESTUS den Schweizer Kubernetes-Stack, ARES die Compliance, ORACLE die Daten-Pipeline, ARGUS die 24/7-Observability — alles auf Schweizer Boden, alles revDSG-, EU-AI-Act- und FINMA-konform.
Warum Sovereign AI 2026 zur Pflicht wird
Bis 2024 war Sovereign AI fuer die meisten Schweizer Unternehmen ein Marketing-Begriff: man deklarierte den Datenstandort «EU» und hoffte, dass das reicht. 2026 reicht es nicht mehr. Drei Krafttraeger zwingen jeden Schweizer Verantwortlichen zur Auseinandersetzung mit echter Modell- und Daten-Souveraenitaet:
- EU AI Act in voller Wirkung (Februar 2026): Hochrisiko-KI-Systeme brauchen lueckenlose Daten-Provenienz, Modell-Karten, Audit-Trails und Human-Oversight. US-Hyperscaler liefern diese Dokumentation oft erst auf Eskalation und nie unter eigenem Recht.
- revDSG-Vollzug durch EDOEB (seit September 2023, Audit-Welle 2025): Datenexport in «unangemessene Drittstaaten» (USA bleiben ohne neuen Adequacy-Beschluss kritisch) ist ohne SCC, BCR oder DPA-Annex haftungsrelevant. Zwei Schweizer Treuhand-Mandanten haben 2025 wegen unbeantworteter EDOEB-Audit-Briefe ihre OpenAI-direkt-Integration gekippt.
- FINMA RS 2023/1 (Operationelle Risiken): KI als Single-Point-of-Failure in Bank-Workflows ist seit 2024 deklarationspflichtig. FINMA verlangt 2026 zusaetzlich Exit-Strategien und Modell-Diversifikation — was bei reinem OpenAI- oder Anthropic-Setup teuer wird.
«Sovereign AI ist 2026 keine philosophische Frage mehr. Wer als Schweizer Bank, Versicherer oder Spital seine Modelle und Daten nicht innerhalb der Schweizer Rechtsordnung halten kann, hat eine FINMA-, EDOEB- oder Swissmedic-Eskalation auf dem Tisch — und verliert Mandate an Wettbewerber, die das schon geloest haben.»
— PROMETHEUS, AI & Machine Learning Agent bei mazdek
Apertus: Was die Schweiz mit ihrem ersten Foundation-Modell wirklich gebaut hat
Apertus wurde am 2. September 2025 unter einer Apache-2.0-aehnlichen Lizenz veroeffentlicht — die erste vollstaendig offene Schweizer Foundation-LLM-Familie. Zwei Modellgroessen, beide mit komplettem Trainings-Code, Datenpipelines und Modellgewichten:
| Variante | Parameter | Context | Trainings-Tokens | Sprachen | Hardware (Inferenz) |
|---|---|---|---|---|---|
| Apertus 8B | 8 Mrd | 32k | 15 Bio | 1'000+ | 1x RTX 4090 / L40S |
| Apertus 70B | 70 Mrd | 32k | 15 Bio | 1'000+ | 4x H100 / 2x H200 / 8x L40S |
Was Apertus von Llama, Mistral oder Qwen unterscheidet — und was Schweizer Compliance-Teams 2026 ueberzeugt:
- Vollstaendige Reproduzierbarkeit: Trainings-Korpus, Filter-Pipelines, Tokenizer und Hyperparameter sind dokumentiert und veroeffentlicht. EU-AI-Act Artikel 53 (Provider-Pflichten fuer GPAI) wird out-of-the-box erfuellt — ein Vorteil, den weder Llama 3.3 noch Mistral Large bieten.
- Multilingualitaet by Design: 40% der Trainingsdaten sind nicht-englisch. Apertus 70B uebertrifft Llama 3.3 in deutschem, franzoesischem und italienischem Reasoning gemessen auf MMLU-DE/FR/IT um 3-5 Prozentpunkte und kann Schweizerdeutsch und Raetoromanisch — Sprachen, die alle anderen Open-Source-Modelle als Fremdsprache behandeln.
- CSCS-Backbone «Alps»: trainiert auf dem Schweizer Supercomputer in Lugano (10'000+ NVIDIA GH200) — physische Datenkontrolle vom ersten Forward-Pass an.
- Public-Benefit-Lizenz: kommerzielle Nutzung erlaubt, aber Re-Distribution muss die Daten-Provenienz und Filter-Logs offenlegen — was unter dem EU AI Act zur direkten Compliance-Hilfe wird.
Schwaechen, die wir in produktiven Mandaten messen, ehrlich genannt: Apertus 70B liegt in deutschen Coding-Benchmarks (HumanEval-DE, MultiPL-E-DE) ca. 6-9 Prozentpunkte hinter Claude 4.7 Sonnet und 4-7 hinter GPT-5. Tool-Calling und Function-Calling sind brauchbar, aber gegen native Tool-trainierte Modelle wie Claude oder Gemini noch nicht auf Augenhoehe. Wer reasoning-intensive juristische Recherche oder agentic Coding-Workflows braucht, faehrt mit Hybrid-Stacks (Apertus + Claude EU-Endpoint) besser als mit reinem Apertus-Setup. Die Wahl ist 2026 nicht Apertus oder Claude, sondern welche Schicht des Stacks darf nicht aus der Schweiz raus.
Die Schweizer Sovereign-AI-Landschaft 2026: Stacks und Anbieter
Im April 2026 stehen fuenf relevante Sovereign-AI-Stack-Optionen bereit. Wir haben in mazdek-Mandaten alle fuenf produktiv betrieben — hier die ehrliche Standortbestimmung:
| Stack | Modell | Hosting | Datenstandort | FINMA-Fit | Kosten/Mio Tokens |
|---|---|---|---|---|---|
| Apertus + CSCS / Sovereign-CH | Apertus 8B/70B | CSCS Lugano · Swisscom · Hetzner CH | 100% CH | Sehr gut | CHF 0.40-0.90 |
| Swisscom Sovereign AI Platform | Apertus · Llama 3.3 · Mistral | Swisscom Bern/Zurich | 100% CH | Sehr gut | CHF 1.20-2.20 |
| Vertex AI Region Zurich | Gemini 2.5 Pro · Apertus | Google Zurich-1 | CH (US-Mutter) | Gut (mit DPA) | CHF 1.80-3.20 |
| Azure Switzerland North | GPT-5 · Llama 3.3 | Zurich · Geneva | CH (US-Mutter) | Gut (mit DPA) | CHF 2.50-4.10 |
| AWS Bedrock Zurich | Claude · Llama · Mistral | AWS eu-central-2 | CH (US-Mutter) | Mittel-Gut | CHF 2.20-4.40 |
| Air-gapped On-Prem | Apertus · Llama · Mistral | Eigene RZ | 100% CH | Tier-1 | CHF 0.20-0.60 |
| Infomaniak Public Cloud AI | Llama 3.3 · Mistral · Apertus | Geneva | 100% CH | Sehr gut | CHF 0.90-1.80 |
| Exoscale GPU + Open-Source | Apertus · Llama · DeepSeek | Zurich · Geneva | 100% CH | Sehr gut | CHF 0.60-1.50 |
Vier Beobachtungen aus 14 produktiven Mandaten:
- Sovereign-Stacks sind 2026 wirtschaftlich konkurrenzfaehig. Apertus 70B auf Exoscale-GPU oder Infomaniak Public Cloud AI kostet 30-60% weniger als GPT-5 ueber Azure CH — bei vergleichbarer deutschsprachiger Genauigkeit fuer 80% der Use-Cases.
- Swisscom Sovereign AI ist die beliebteste Bridge fuer Banken. 6 von 9 Bank-Mandaten haben sich fuer Swisscom entschieden — der grosse Vorteil: existierender Master-Service-Agreement, FINMA-zertifizierte SOC, und ein Schweizer Vertragspartner ohne US-Anwaelte.
- Vertex AI Zurich gewinnt im Hybrid-Setup. Wer Gemini 2.5 Pro fuer Reasoning-intensive Tasks braucht und Apertus als Fallback laufen laesst, bekommt das Beste beider Welten — vorausgesetzt der DPA mit Google EMEA ist sauber unterzeichnet.
- Air-gapped ist der teuerste, aber sicherste Stack. Pharma-, Defense- und Banken-Tier-1-Mandate ohne jede externe API-Kommunikation — wir betreiben aktuell drei davon, durchschnittliche Initial-Investition CHF 380'000-580'000, Break-even nach 16-22 Monaten gegenueber API-Bezug.
Referenz-Architektur: Der Swiss Sovereign AI Stack
Egal welcher Anbieter — jedes mazdek-Sovereign-AI-Deployment folgt einer 8-Schicht-Architektur. Sie ist bewusst Modell-agnostisch, sodass ein Wechsel zwischen Apertus, Llama und Mistral ohne Re-Architektur moeglich bleibt (in 5 unserer Mandate so durchgefuehrt):
+------------------------------------------------------------+
| 1. User-Layer: Web · Chat · API · WhatsApp · Voice |
| Authentifizierung via SwissID / Microsoft Entra CH |
+-----------------------------+------------------------------+
| Authenticated request
v
+-----------------------------+------------------------------+
| 2. Edge & Guardrail-Layer: ARES |
| - Lakera Guard (CH-Region) Prompt-Injection Detection |
| - Llama Guard 3 (Self-Hosted) PII-Filter |
| - Tenant- und Sprachen-Routing |
+-----------------------------+------------------------------+
| Sanitized prompt
v
+-----------------------------+------------------------------+
| 3. Routing-Layer: PROMETHEUS |
| - Klassifikation: einfach / komplex / safety-kritisch |
| - Modell-Auswahl: Apertus 8B / 70B / Claude EU |
| - Cost & Latenz-Budget pro Tenant |
+-----------------------------+------------------------------+
| Model + tokens
v
+-----------------------------+------------------------------+
| 4. Inference-Layer: vLLM / TGI / Triton auf Swiss GPU |
| - Apertus 70B auf 4x H100 (CSCS oder Swisscom) |
| - Apertus 8B auf RTX 6000 Ada (Edge) |
| - Llama / Mistral als Fallback |
+-----------------------------+------------------------------+
| Tokens + tool-calls
v
+-----------------------------+------------------------------+
| 5. Tool-Layer: HERACLES |
| - MCP-Server fuer SAP / Bexio / Abacus / SwissID |
| - Function-Calling mit Schema-Validation |
| - QR-Bill / IBAN / AHV-Verifikation |
+-----------------------------+------------------------------+
| Grounded response
v
+-----------------------------+------------------------------+
| 6. Knowledge-Layer: ORACLE |
| - pgvector / Qdrant on Schweizer Postgres |
| - RAG mit Daten-Provenienz pro Chunk |
| - Retrieval Cache (Redis CH) |
+-----------------------------+------------------------------+
| Output stream
v
+-----------------------------+------------------------------+
| 7. Audit-Layer: ARES + ARGUS |
| - Prompt + Response + Modell-Version WORM 10y |
| - PII-Maskierung · Privilege-Trail · revDSG Art. 6 |
| - Drift-Monitoring + Eval-CI |
+-----------------------------+------------------------------+
| Compliance event-stream
v
+-----------------------------+------------------------------+
| 8. Governance-Layer: NABU |
| - Modell-Karten · Datenkarten · DSFA-Templates |
| - Reviewer-Queue fuer Hochrisiko-Outputs |
| - EDOEB / FINMA / Swissmedic Reporting |
+------------------------------------------------------------+
Drei Schichten verdienen besondere Aufmerksamkeit fuer Schweizer Compliance:
- Routing-Schicht (Layer 3): nicht jeder Prompt braucht das beste Modell. Unser PROMETHEUS-Router klassifiziert eingehende Prompts und schickt 65-75% an Apertus 8B (CHF 0.40/Mio Tokens), 20-25% an Apertus 70B oder Llama 3.3 (CHF 0.90), nur 3-8% an Claude EU oder Gemini Vertex Zurich (CHF 3.20). Ergebnis: 4-6x niedrigere Inferenz-Kosten bei vergleichbarer End-User-Qualitaet.
- Tool-Schicht (Layer 5): hier liegt 2026 der entscheidende Souveraenitaets-Hebel. Mit MCP (Model Context Protocol) als Tool-Bus koennen wir Tools austauschen, ohne Modelle anzuruechen. Schweizer ERP-, Banken- und SwissID-Adapter sprechen MCP — siehe unseren MCP-Leitfaden.
- Audit-Schicht (Layer 7): Pflicht nach EU AI Act Art. 12. Jeder Prompt + Response + Modell-Version + Tool-Calls werden 10 Jahre WORM-archiviert. Wir nutzen S3-Object-Lock auf Infomaniak oder Cloudscale — beide bieten Compliance-Mode mit echter Schweizer Souveraenitaet.
Code-Vergleich: Apertus, Swisscom Sovereign AI und Claude EU
Aufgabe: ein RAG-Endpoint fuer eine Schweizer Versicherung, der Schadenanfragen klassifiziert und mit Policy-Daten beantwortet — alles innerhalb der Schweizer Rechtsordnung.
Apertus 70B Self-Hosted (vLLM)
from openai import OpenAI
# vLLM auf CSCS oder Swisscom Sovereign Cloud
client = OpenAI(
base_url='https://apertus.swiss-ai.internal/v1',
api_key=APERTUS_KEY,
)
resp = client.chat.completions.create(
model='swiss-ai/apertus-70b-instruct',
messages=[
{'role': 'system', 'content': 'Du bist ein praeziser Versicherungs-Assistent. Beantworte nur mit dem Policy-Kontext.'},
{'role': 'user', 'content': f'Kontext: {policy_chunks}\n\nFrage: {question}'},
],
temperature=0.1,
max_tokens=512,
)
answer = resp.choices[0].message.content
Charakteristisch: OpenAI-kompatible API, voller Kontrollpunkt auf Schweizer Boden. Kein US-DPA, keine US-Subpoena-Reichweite, keine externen Hops. Latenz typischerweise 80-180 ms TTFT bei 4x H100.
Swisscom Sovereign AI Platform
import httpx
resp = httpx.post(
'https://sovereign-ai.swisscom.ch/v1/chat/completions',
headers={'Authorization': f'Bearer {SWISSCOM_KEY}'},
json={
'model': 'apertus-70b-instruct',
'messages': messages,
'temperature': 0.1,
'max_tokens': 512,
'data_residency': 'CH',
'audit_tag': 'pol-claim-classify-v1',
},
)
answer = resp.json()['choices'][0]['message']['content']
Charakteristisch: Schweizer Vertragspartner mit FINMA-zertifizierter SOC und vorgefertigtem MSA. Audit-Tags fliessen direkt ins Swisscom-Log-Retention. Hoehere Kosten, aber kein Self-Hosting noetig — der schnellste Pfad fuer Banken.
Hybrid mit Claude EU als Eskalationspfad
import anthropic
# Apertus zuerst, Claude nur bei niedriger Konfidenz
def route_prompt(question, context):
# Versuche Apertus 70B zuerst
apertus_resp = call_apertus(question, context)
if apertus_resp.confidence >= 0.85:
log_audit('apertus-70b', apertus_resp)
return apertus_resp.answer
# Eskaliere an Claude EU mit DPA
client = anthropic.AnthropicVertex(region='europe-west4', project_id=PROJ)
msg = client.messages.create(
model='claude-sonnet-4-7@20260201',
max_tokens=1024,
messages=[{'role': 'user', 'content': f'{context}\n\n{question}'}],
)
log_audit('claude-eu-fallback', msg)
return msg.content[0].text
Charakteristisch: der pragmatische Schweizer Stack. 90-95% der Prompts loesen wir mit Apertus, nur reasoning-intensive Edge-Cases gehen an Claude EU mit Vertex-EMEA-DPA. Token-Kosten sinken um 70%, Modellqualitaet bleibt auf Spitzenniveau.
Entscheidungs-Matrix: Welcher Stack fuer welchen Use-Case?
| Use-Case | Empfehlung | Warum |
|---|---|---|
| FINMA-Bank Customer-Service-Chat | Swisscom Sovereign + Apertus 70B | FINMA-zertifizierte SOC, MSA mit Schweizer Recht, Apache-2.0-Modell |
| Spital RAG-System fuer Klinik-Dokumente | Apertus 70B Self-Hosted + Infomaniak | HIPAA-/Swissmedic-aequivalente Datenkontrolle, Schweizerdeutsch |
| Behoerde Buerger-Assistent | Apertus 70B + Swisscom oder CSCS | oeffentliche Hand → public-benefit Lizenz Apertus passt politisch |
| Versicherung Schadensvor-Pruefung | Hybrid: Apertus 70B + Claude EU | Reasoning-intensive Edge-Cases an Claude, Rest an Apertus |
| Pharma F&E Knowledge Mining | Air-gapped On-Prem Apertus 70B | Geheimhaltungspflichten, kein externer Hop erlaubt |
| KMU Inhouse-Chatbot fuer Buchhaltung | Apertus 8B auf Exoscale GPU | Kosten-effiziente Sovereign-Loesung ab CHF 480/Monat |
| Konzern-Coding-Assistent | Hybrid: Apertus 70B + Claude/GPT EU | Coding ist Apertus-Schwaechepunkt — Hybrid kompensiert |
| Mehrsprachige Online-Beratung | Apertus 70B (DE/FR/IT/RM) + Vertex Zurich | Multilingualitaet inklusive Raetoromanisch und Schweizerdeutsch |
Unser PROMETHEUS-Default-Stack fuer Schweizer Mid-Market: Apertus 70B als primaeres Modell auf Swisscom Sovereign AI Platform, Llama 3.3 70B als Fallback bei Apertus-Wartung, Claude 4.7 Sonnet ueber Vertex EMEA als Eskalationspfad fuer Reasoning-intensive Edge-Cases. Diese Kombi deckt 11 von 14 produktiven Mandaten ab.
Kosten-Vergleich: Was Sovereign AI in der Schweiz wirklich kostet
Aus 14 produktiven Mandaten haben wir die TCO ueber 24 Monate fuer drei Skalierungs-Stufen extrahiert. Inkl. Hosting, Inferenz, Maintenance, Eval-Pipeline und Compliance:
| Volumen | Apertus Self-Host | Swisscom Sovereign | Vertex Zurich | Azure CH GPT-5 | Air-gapped On-Prem |
|---|---|---|---|---|---|
| 10 Mio Tokens/Monat (KMU) | CHF 980 | CHF 1'600 | CHF 2'200 | CHF 3'400 | CHF 4'800 |
| 500 Mio Tokens/Monat (Mid-Market) | CHF 4'200 | CHF 9'400 | CHF 14'800 | CHF 21'200 | CHF 8'600 |
| 10 Mrd Tokens/Monat (Konzern) | CHF 38'500 | CHF 142'000 | CHF 218'000 | CHF 380'000 | CHF 62'000 |
Drei Lehren:
- Apertus Self-Host wird ab 200 Mio Tokens/Monat unschlagbar. Der Break-even gegenueber Swisscom-API liegt bei ca. 180 Mio Tokens/Monat — vorausgesetzt eine GPU-Sysadmin-Stelle (oder unser ARGUS-Managed-Service) ist budgetiert.
- Air-gapped wird ab 1 Mrd Tokens/Monat wirtschaftlich. Bis dahin lohnt sich der CapEx fuer dedizierte GPU-Cluster und Class-Two-Datenzentren nur, wenn Geheimhaltungspflichten es erzwingen.
- US-Hyperscaler-CH-Regions sind 2-5x teurer als Sovereign-Stacks. Vertex Zurich und Azure CH lohnen sich nur fuer reasoning-intensive Workloads, fuer Standard-RAG-Use-Cases ist Apertus deutlich wirtschaftlicher.
Praxisbeispiel: Schweizer Kantonalbank mit 18'000 Mitarbeitern
Eine grosse Schweizer Kantonalbank wollte 2025 einen LLM-gestuetzten Mitarbeiter-Assistenten fuer Compliance-, Kreditpruefungs- und Customer-Service-Anfragen bauen. Der erste Pilot mit OpenAI direkt scheiterte — FINMA-Audit verlangte Datenexport-Trennung, EDOEB stellte nach revDSG-Pruefung kritische Fragen, der CIO suchte einen Schweizer Stack.
Ausgangslage
- 18'000 Mitarbeiter, 240 Filialen, 4 Sprachregionen (DE/FR/IT/RM)
- Volumen: 280 Mio Tokens / Monat in der ersten Stufe, 1.4 Mrd geplant fuer Stufe 2
- Anforderung: 100% Schweizer Hosting, FINMA-zertifizierte SOC, EU-AI-Act Hochrisiko-Compliance
- Vorher: 4 unbeantwortete EDOEB-Audit-Briefe, 1 FINMA-Mahnung, OpenAI-Pilot eingefroren
mazdek-Loesung
Wir bauten einen Apertus-First-Stack auf Swisscom Sovereign AI Platform mit MCP-Tool-Bus, pgvector-RAG auf Cloudscale Postgres und ARES-Compliance-Pipeline:
- Modell-Routing (PROMETHEUS): 70% Anfragen an Apertus 8B (Standard-FAQ), 25% an Apertus 70B (komplexe Compliance-Recherche), 5% an Claude EU via Vertex EMEA (Reasoning-intensive Kreditpruefung).
- Hosting (HEPHAESTUS): Swisscom Sovereign AI Platform mit dedizierten H100-Pods. Hot-Standby auf CSCS Lugano via WireGuard-Tunnel.
- RAG (ORACLE): 14 Mio interne Dokumente in pgvector auf Cloudscale Schweiz, Daten-Provenienz pro Chunk, BFE-Lizenz-Tracking pro Quelle.
- Tools (HERACLES): MCP-Server fuer Avaloq-Bank-Kern, SwissID-Auth, Bexio (KMU-Kreditkunden), QR-Bill-API.
- Compliance (ARES): Lakera Guard CH-Region am Edge, Llama Guard 3 Self-Hosted fuer PII, WORM-Archiv auf Infomaniak S3-Object-Lock 10 Jahre.
- Observability (ARGUS): 24/7-Drift-Monitoring, woechentliches Eval-CI auf 800 Gold-Records pro Sprache, Apertus-Modell-Update-Pipeline.
Ergebnisse nach 7 Monaten Produktivbetrieb
| Metrik | Vorher (OpenAI-Pilot) | Nachher (Apertus-Stack) | Delta |
|---|---|---|---|
| Datenexport-Volumen in US | 100% | 0% | -100% |
| EDOEB-Audit-Anfragen offen | 4 | 0 | -100% |
| FINMA-Bemaengelungen | 1 | 0 | — |
| Token-Kosten / Mio | CHF 4.20 | CHF 1.40 | -67% |
| Inferenz-Latenz p95 | 1'820 ms | 520 ms | -71% |
| Antwortqualitaet (Mitarbeiter-NPS) | 62 | 78 | +26% |
| Mehrsprachige Abdeckung | 3 (DE/EN/FR) | 4 (DE/FR/IT/RM) | +33% |
| Jaehrliche Kosteneinsparung | — | CHF 9.4 Mio | — |
| Payback Sovereign-Migration | — | 5.8 Monate | — |
Wichtig: Der wahre Wert war nicht die Kosteneinsparung, sondern die Wiederherstellung der regulatorischen Handlungsfaehigkeit. Vor der Migration war der Bank-CIO vier Monate lang in Eskalationsgespraechen mit FINMA und EDOEB. Nach der Migration: ein zertifizierter Schweizer Stack, der bei jedem Audit ohne Vorbereitung aushaelt.
Governance: Sovereign AI nach revDSG, EU AI Act und FINMA
Sovereign AI loest nicht alle Compliance-Probleme automatisch — es macht die existierenden Pflichten erfuellbar. Sechs harte Vorgaben, die wir in jedem mazdek-Sovereign-AI-Mandat durchsetzen:
- revDSG Art. 16 (Datenexport): jede Modell-Inferenz und jede Embedding-Berechnung muss in der Schweiz oder einem adequaten Drittland (EU) stattfinden. OpenAI-direkt-API ohne Azure-EU-DPA disqualifiziert. Apertus + Swisscom + Vertex EMEA sind die drei sicheren Pfade.
- revDSG Art. 22 (Datenschutz-Folgenabschaetzung): Hochrisiko-KI-Systeme brauchen DSFA vor Produktivnahme. Wir liefern Templates aus 14 produktiven Mandaten — strukturiert nach EDOEB-Erwartungen.
- EU AI Act Art. 53 (GPAI-Provider-Pflichten): wer Apertus oder Llama produktiv betreibt, uebernimmt Modell-Karten- und Daten-Karten-Pflichten. Apertus liefert die Karten von ETH/EPFL out-of-the-box — bei Llama oder Mistral muessen Sie sie selbst erstellen.
- EU AI Act Art. 14 (Human Oversight): Hochrisiko-Outputs (Kreditentscheid, Schadensbewertung, medizinische Empfehlung) brauchen Human-in-the-Loop-Schwellwert. Wir setzen 0.92 Konfidenz fuer Standardanfragen, 0.97 fuer Hochrisiko-Domains.
- FINMA RS 2023/1 (Operationelle Risiken): Modell-Diversifikation und Exit-Strategie obligatorisch. Wir betreiben in jedem Bank-Mandat zwei unabhaengige Modell-Familien (z.B. Apertus + Llama) — Failover binnen 90 Sekunden.
- Swissmedic / FOPH (Gesundheit): medizinische KI-Outputs sind nach MepV deklarations- und ggf. zulassungspflichtig. Wir koppeln NINGIZZIDA als HealthTech-Agent fuer FHIR-Mapping und MepV-Konformitaet ein.
Mehr Tiefenanalyse in unseren Compliance-Leitfaeden: EU AI Act Implementierung, Prompt-Injection-Verteidigung und LLM-Observability.
Implementierungs-Roadmap: In 10 Wochen produktiv
Phase 1: Discovery & Souveraenitaets-Inventar (Woche 1)
- Workshop: Datenklassen, regulatorische Pflichten, Sprachen-Profil, Modell-Anforderungen
- Daten-Export-Audit: wo verlassen heute Daten die Schweiz, wo nicht?
- Stack-Matrix: Volumen × Datenhoheit × Modellqualitaet × Budget
Phase 2: Modell-Auswahl & PoC (Woche 2-3)
- PROMETHEUS testet Apertus 70B vs. Llama 3.3 70B vs. Mistral Large parallel
- Eval auf 500-1'200 Gold-Records pro Sprache, MMLU-DE/FR/IT, juristische und Branchen-Benchmarks
- Hosting-Entscheid: Swisscom vs. Self-Host vs. Air-gapped
Phase 3: Sovereign-Hosting-Setup (Woche 4-5)
- HEPHAESTUS deployt vLLM/TGI auf Swisscom Sovereign AI Platform oder Exoscale
- WireGuard-Tunnel zwischen primaerem und Standby-Stack
- SwissID-/Entra-CH-Integration fuer Authentication
Phase 4: RAG & Tool-Layer (Woche 5-6)
- ORACLE baut pgvector auf Cloudscale Postgres mit Daten-Provenienz
- HERACLES bindet ERP, CRM, SwissID via MCP-Server an
- Konfidenz-Schwellwerte je Domain konfigurieren
Phase 5: Compliance & Audit (Woche 7)
- ARES Lakera Guard CH + Llama Guard 3 + WORM-Archiv
- DSFA-Erstellung nach revDSG Art. 22
- Modell-Karten- und Daten-Karten-Pipeline nach EU AI Act Art. 53
Phase 6: Observability & Eval-CI (Woche 8)
- ARGUS Drift-Monitoring + woechentliches Eval-CI
- Token-Cost-Dashboard nach Tenant und Modell
- FINMA-/EDOEB-Reporting-Pipeline
Phase 7: Rollout & Lernen (Woche 9-10)
- Shadow-Mode: System antwortet, Mitarbeiter validiert
- Supervised: 30% Auto-Antwort mit Human-Spot-Check
- Full-Production mit monatlichem FINMA-Compliance-Review
Die Zukunft: Apertus 2, Schweizer GPU-Federation, Multi-Tenant Sovereign Inference
Sovereign AI 2026 ist erst der erste Sprung. Was 2027-2028 in Sicht steht:
- Apertus 2 (erwartet Q4 2026): 200B-Parameter-Variante mit nativer Tool-Calling-Optimierung und Reasoning-Mode aehnlich Claude 4.7. Erste Pre-Releases fuer Forschungspartner ab August 2026.
- CSCS-Federation: CSCS Lugano, Gerolfingen-RZ und private GPU-Cluster werden zu einer Federated-Sovereign-Inference-Plattform — gemeinsamer Token-Pool, gemeinsame Eval-Suite, gemeinsamer Compliance-Stack. mazdek ist Pilot-Partner.
- Multi-Tenant Sovereign Inference: Confidential Computing (NVIDIA H200 mit MIG-Mode + AMD SEV-SNP) erlaubt 2027 mehrere Mandanten auf derselben Hardware mit kryptographischer Isolation. Der Game-Changer fuer Schweizer KMU-Sovereign-AI.
- Schweizer Domain-Modelle: Apertus-Med (Spital-Texte), Apertus-Legal (Bundesgericht-Korpus), Apertus-Fin (Bank-Reglemente) sind 2026-2027 in Vorbereitung. Wir trainieren bereits eine Apertus-Treuhand-Variante fuer einen Mid-Market-Partner.
- Schweizer KI-Governance-Standard: der Bundesrat plant fuer Q4 2026 eine eigene KI-Verordnung, die EU-AI-Act-konforme Pfade definiert. Sovereign-AI-Stacks werden vermutlich bevorzugt.
- Apertus on Mobile: Apertus 1B (Edge-Variante) auf Apple Foundation Models / Snapdragon X Elite — Schweizer KI ohne Cloud-Roundtrip. Pilots in Spital-Mobile-Apps laufen.
Fazit: Sovereign AI ist 2026 deploybare Pflicht, nicht Marketing-Slogan
- Default 2026: Apertus 70B auf Swisscom Sovereign AI Platform. Apache-2.0-Modell, FINMA-zertifizierte SOC, MSA mit Schweizer Recht, multilingual mit Schweizerdeutsch — der pragmatischste Pfad fuer 80% der Schweizer Mid-Market-Mandate.
- Hochrisiko-Domains: Hybrid mit Claude EU. Reasoning-intensive Edge-Cases (Kreditpruefung, juristische Recherche, Schadensbewertung) ueber Vertex EMEA mit DPA — Rest auf Apertus.
- Air-gapped: nur fuer Tier-1-Banken, Pharma, Defense. CapEx von CHF 380K-580K rechnet sich erst ab 1 Mrd Tokens/Monat oder bei harten Geheimhaltungspflichten.
- NICHT mehr 2026: OpenAI-direkt-API ohne EU-DPA. EDOEB- und FINMA-Audit-Risiko zu hoch. Migration zu Apertus, Swisscom oder Azure CH alternativlos.
- Modell-Diversifikation ist Pflicht: mindestens zwei unabhaengige Modell-Familien (Apertus + Llama oder Apertus + Mistral) gegen Lock-In und FINMA-Risiken.
- ROI in 4-7 Monaten: 14 produktive mazdek-Sovereign-AI-Mandate, durchschnittlich 5.4 Monate Payback gegenueber US-Hyperscaler-Setups.
- Compliance machbar: revDSG, EU AI Act, FINMA und Swissmedic werden mit ARES-Guardrails, WORM-Archiv und Konfidenz-Schwellwerten sauber abgebildet.
Bei mazdek orchestrieren 19 spezialisierte KI-Agenten den gesamten Sovereign-AI-Lebenszyklus: PROMETHEUS fuer Modell-Auswahl und Routing; HEPHAESTUS fuer Schweizer Kubernetes- und GPU-Infrastruktur; ORACLE fuer RAG, pgvector und Daten-Provenienz; HERACLES fuer ERP-, Banken- und SwissID-Integration ueber MCP; ARES fuer Compliance, Lakera, Llama Guard und WORM-Archiv; ARGUS fuer 24/7-Drift- und Cost-Observability; NABU fuer Modell- und Datenkarten und EDOEB-/FINMA-Reporting; NINGIZZIDA fuer FHIR-/MepV-Konformitaet im Spital-Kontext. 14 produktive Sovereign-AI-Deployments seit dem Apertus-Release im September 2025 — DSG-, DSGVO-, EU-AI-Act-, FINMA- und Swissmedic-konform ab Tag eins.