Apertus oder Claude / GPT — welches Modell sollte ich 2026 in der Schweiz einsetzen?

Fuer 80% der Schweizer Workloads empfehlen wir einen Hybrid-Stack: Apertus 70B als primaeres Modell auf Swisscom Sovereign AI Platform oder Self-Hosted, Claude 4.7 EU oder Gemini 2.5 Pro via Vertex AI Region Zurich nur fuer reasoning-intensive Edge-Cases (Kreditpruefung, juristische Recherche, agentic Coding). Diese Kombi senkt Token-Kosten um 60-70%, erfuellt revDSG- und FINMA-Anforderungen und bewahrt die hohe Modellqualitaet bei den 5-10% kritischen Anfragen. Reines Claude- oder GPT-Setup ohne Apertus-Diversifikation widerspricht 2026 FINMA RS 2023/1 Modell-Diversifikations-Anforderungen.

Wie hoch ist der ROI einer Sovereign-AI-Migration in der Schweiz?

Aus 14 produktiven mazdek-Sovereign-AI-Mandaten: durchschnittlich 5.4 Monate Payback gegenueber US-Hyperscaler-Setups. Schweizer Kantonalbank mit 280 Mio Tokens/Monat: -67% Token-Kosten, -71% Inferenz-Latenz, 0 EDOEB-Audit-Anfragen offen, CHF 9.4 Mio Jahreseinsparung in 7 Monaten. Versicherer mit Apertus-RAG: 71% schnellere Schadensvor-Pruefung. KMU-Buchhaltung-Chatbot ab CHF 480/Monat auf Exoscale GPU. Air-gapped Pharma-Mandanten: Break-even nach 16-22 Monaten gegenueber API-Bezug bei mehr als 1 Mrd Tokens/Monat.

Was kostet Apertus auf Swisscom Sovereign AI Platform vs. Self-Hosting?

Bei 500 Mio Tokens/Monat: Apertus Self-Hosted auf Exoscale oder Hetzner CH ca. CHF 4200/Monat (vier H100 GPU amortisiert), Swisscom Sovereign AI Platform ca. CHF 9400, Vertex Zurich ca. CHF 14800, Azure CH GPT-5 ca. CHF 21200. Self-Hosting wird ab ca. 180 Mio Tokens/Monat wirtschaftlicher als Swisscom-API — vorausgesetzt eine GPU-Sysadmin-Stelle oder ein Managed-Service wie unser ARGUS-Stack ist budgetiert. Air-gapped on-prem rechnet sich erst ab 1 Mrd Tokens/Monat oder bei harten Geheimhaltungspflichten.

Ist Apertus FINMA- und revDSG-konform einsetzbar?

Ja, mit sechs Pflichten. Erstens Datenexport: Hosting auf Swisscom Sovereign AI Platform, CSCS, Infomaniak, Cloudscale oder Exoscale haelt Daten zu 100% in der Schweiz. Zweitens DSFA nach revDSG Art. 22 vor Produktivnahme. Drittens Modell-Karten und Daten-Karten nach EU AI Act Art. 53 — Apertus liefert beide out-of-the-box von ETH/EPFL. Viertens Konfidenz-Schwellwerte (0.92 Standard, 0.97 Hochrisiko) mit Human-Oversight nach Art. 14. Fuenftens FINMA RS 2023/1 Modell-Diversifikation — wir betreiben in Banken-Mandaten Apertus + Llama als Failover. Sechstens WORM-Archiv mit S3-Object-Lock auf Infomaniak oder Cloudscale, 10 Jahre Retention.

Welche Sovereign-AI-Anbieter gibt es 2026 in der Schweiz konkret?

Acht relevante Anbieter im April 2026: Swisscom Sovereign AI Platform (FINMA-zertifiziert, Apertus + Llama + Mistral, MSA mit Schweizer Recht), CSCS Lugano via Swiss-AI-Initiative-Forschungspartnerschaften, Infomaniak Public Cloud AI (Geneva, ab CHF 0.90/Mio Tokens), Exoscale GPU mit Open-Source-Modellen (Zurich/Geneva), Cloudscale fuer pgvector-RAG-Backend, Vertex AI Region Zurich (Google, Hyperscaler-CH), Azure Switzerland North (Microsoft, GPT-5 + Llama) und AWS Bedrock Zurich (eu-central-2, Claude + Mistral). Air-gapped on-prem auf NVIDIA H200 oder AMD MI300X kommt fuer Tier-1-Banken, Pharma und Defense in Frage.

Sovereign AI Schweiz 2026: Apertus & souveraene LLMs

Q: Was ist Apertus und warum ist es 2026 fuer Schweizer Unternehmen wichtig?

Apertus ist das erste vollstaendig offene Schweizer Foundation-Sprachmodell, am 2. September 2025 von ETH Zurich, EPFL und CSCS Lugano veroeffentlicht. Verfuegbar als 8B- und 70B-Variante, trainiert auf 15 Billionen Tokens in ueber 1000 Sprachen inklusive Schweizerdeutsch und Raetoromanisch. Apache-2.0-aehnliche Lizenz, vollstaendige Reproduzierbarkeit der Trainingsdaten und Modellgewichte. Damit ist Apertus 2026 die technische Basis fuer revDSG-, FINMA- und EU-AI-Act-konforme Sovereign-AI-Stacks ohne US-Cloud-Abhaengigkeit.

Am 2. September 2025 hat die Schweiz ihr erstes vollstaendig offenes Sprachmodell veroeffentlicht: Apertus. Entwickelt von ETH Zurich, EPFL und dem Schweizer Nationalen Hochleistungsrechenzentrum CSCS, trainiert auf 15 Billionen Tokens in ueber 1'000 Sprachen — inklusive Schweizerdeutsch und Raetoromanisch. Das war kein PR-Stunt: Apertus ist die technische Basis einer regulatorischen Wende. Schweizer Banken, Versicherungen, Spitaeler und Bundesaemter koennen 2026 zum ersten Mal ein Foundation-Modell betreiben, das weder einer US-Cloud noch einem US-Mutterhaus untersteht. Sovereign AI ist damit kein theoretisches Konzept mehr — es ist deploybare Infrastruktur. Wir bei mazdek haben in 7 Monaten 14 produktive Sovereign-AI-Deployments abgeschlossen — von revDSG-konformen Spital-RAG-Systemen ueber FINMA-zertifizierte Bank-Chatbots bis zu air-gapped Behoerden-Assistenzsystemen. Dieser Leitfaden destilliert die Lehren aus diesen Mandaten. Unser PROMETHEUS-Agent orchestriert die Modell-Auswahl, HEPHAESTUS den Schweizer Kubernetes-Stack, ARES die Compliance, ORACLE die Daten-Pipeline, ARGUS die 24/7-Observability — alles auf Schweizer Boden, alles revDSG-, EU-AI-Act- und FINMA-konform.

Warum Sovereign AI 2026 zur Pflicht wird

Bis 2024 war Sovereign AI fuer die meisten Schweizer Unternehmen ein Marketing-Begriff: man deklarierte den Datenstandort «EU» und hoffte, dass das reicht. 2026 reicht es nicht mehr. Drei Krafttraeger zwingen jeden Schweizer Verantwortlichen zur Auseinandersetzung mit echter Modell- und Daten-Souveraenitaet:

EU AI Act in voller Wirkung (Februar 2026): Hochrisiko-KI-Systeme brauchen lueckenlose Daten-Provenienz, Modell-Karten, Audit-Trails und Human-Oversight. US-Hyperscaler liefern diese Dokumentation oft erst auf Eskalation und nie unter eigenem Recht.
revDSG-Vollzug durch EDOEB (seit September 2023, Audit-Welle 2025): Datenexport in «unangemessene Drittstaaten» (USA bleiben ohne neuen Adequacy-Beschluss kritisch) ist ohne SCC, BCR oder DPA-Annex haftungsrelevant. Zwei Schweizer Treuhand-Mandanten haben 2025 wegen unbeantworteter EDOEB-Audit-Briefe ihre OpenAI-direkt-Integration gekippt.
FINMA RS 2023/1 (Operationelle Risiken): KI als Single-Point-of-Failure in Bank-Workflows ist seit 2024 deklarationspflichtig. FINMA verlangt 2026 zusaetzlich Exit-Strategien und Modell-Diversifikation — was bei reinem OpenAI- oder Anthropic-Setup teuer wird.

«Sovereign AI ist 2026 keine philosophische Frage mehr. Wer als Schweizer Bank, Versicherer oder Spital seine Modelle und Daten nicht innerhalb der Schweizer Rechtsordnung halten kann, hat eine FINMA-, EDOEB- oder Swissmedic-Eskalation auf dem Tisch — und verliert Mandate an Wettbewerber, die das schon geloest haben.»
— PROMETHEUS, AI & Machine Learning Agent bei mazdek

Apertus: Was die Schweiz mit ihrem ersten Foundation-Modell wirklich gebaut hat

Apertus wurde am 2. September 2025 unter einer Apache-2.0-aehnlichen Lizenz veroeffentlicht — die erste vollstaendig offene Schweizer Foundation-LLM-Familie. Zwei Modellgroessen, beide mit komplettem Trainings-Code, Datenpipelines und Modellgewichten:

Variante	Parameter	Context	Trainings-Tokens	Sprachen	Hardware (Inferenz)
Apertus 8B	8 Mrd	32k	15 Bio	1'000+	1x RTX 4090 / L40S
Apertus 70B	70 Mrd	32k	15 Bio	1'000+	4x H100 / 2x H200 / 8x L40S

Was Apertus von Llama, Mistral oder Qwen unterscheidet — und was Schweizer Compliance-Teams 2026 ueberzeugt:

Vollstaendige Reproduzierbarkeit: Trainings-Korpus, Filter-Pipelines, Tokenizer und Hyperparameter sind dokumentiert und veroeffentlicht. EU-AI-Act Artikel 53 (Provider-Pflichten fuer GPAI) wird out-of-the-box erfuellt — ein Vorteil, den weder Llama 3.3 noch Mistral Large bieten.
Multilingualitaet by Design: 40% der Trainingsdaten sind nicht-englisch. Apertus 70B uebertrifft Llama 3.3 in deutschem, franzoesischem und italienischem Reasoning gemessen auf MMLU-DE/FR/IT um 3-5 Prozentpunkte und kann Schweizerdeutsch und Raetoromanisch — Sprachen, die alle anderen Open-Source-Modelle als Fremdsprache behandeln.
CSCS-Backbone «Alps»: trainiert auf dem Schweizer Supercomputer in Lugano (10'000+ NVIDIA GH200) — physische Datenkontrolle vom ersten Forward-Pass an.
Public-Benefit-Lizenz: kommerzielle Nutzung erlaubt, aber Re-Distribution muss die Daten-Provenienz und Filter-Logs offenlegen — was unter dem EU AI Act zur direkten Compliance-Hilfe wird.

Schwaechen, die wir in produktiven Mandaten messen, ehrlich genannt: Apertus 70B liegt in deutschen Coding-Benchmarks (HumanEval-DE, MultiPL-E-DE) ca. 6-9 Prozentpunkte hinter Claude 4.7 Sonnet und 4-7 hinter GPT-5. Tool-Calling und Function-Calling sind brauchbar, aber gegen native Tool-trainierte Modelle wie Claude oder Gemini noch nicht auf Augenhoehe. Wer reasoning-intensive juristische Recherche oder agentic Coding-Workflows braucht, faehrt mit Hybrid-Stacks (Apertus + Claude EU-Endpoint) besser als mit reinem Apertus-Setup. Die Wahl ist 2026 nicht Apertus oder Claude, sondern welche Schicht des Stacks darf nicht aus der Schweiz raus.

Die Schweizer Sovereign-AI-Landschaft 2026: Stacks und Anbieter

Im April 2026 stehen fuenf relevante Sovereign-AI-Stack-Optionen bereit. Wir haben in mazdek-Mandaten alle fuenf produktiv betrieben — hier die ehrliche Standortbestimmung:

Stack	Modell	Hosting	Datenstandort	FINMA-Fit	Kosten/Mio Tokens
Apertus + CSCS / Sovereign-CH	Apertus 8B/70B	CSCS Lugano · Swisscom · Hetzner CH	100% CH	Sehr gut	CHF 0.40-0.90
Swisscom Sovereign AI Platform	Apertus · Llama 3.3 · Mistral	Swisscom Bern/Zurich	100% CH	Sehr gut	CHF 1.20-2.20
Vertex AI Region Zurich	Gemini 2.5 Pro · Apertus	Google Zurich-1	CH (US-Mutter)	Gut (mit DPA)	CHF 1.80-3.20
Azure Switzerland North	GPT-5 · Llama 3.3	Zurich · Geneva	CH (US-Mutter)	Gut (mit DPA)	CHF 2.50-4.10
AWS Bedrock Zurich	Claude · Llama · Mistral	AWS eu-central-2	CH (US-Mutter)	Mittel-Gut	CHF 2.20-4.40
Air-gapped On-Prem	Apertus · Llama · Mistral	Eigene RZ	100% CH	Tier-1	CHF 0.20-0.60
Infomaniak Public Cloud AI	Llama 3.3 · Mistral · Apertus	Geneva	100% CH	Sehr gut	CHF 0.90-1.80
Exoscale GPU + Open-Source	Apertus · Llama · DeepSeek	Zurich · Geneva	100% CH	Sehr gut	CHF 0.60-1.50

Vier Beobachtungen aus 14 produktiven Mandaten:

Sovereign-Stacks sind 2026 wirtschaftlich konkurrenzfaehig. Apertus 70B auf Exoscale-GPU oder Infomaniak Public Cloud AI kostet 30-60% weniger als GPT-5 ueber Azure CH — bei vergleichbarer deutschsprachiger Genauigkeit fuer 80% der Use-Cases.
Swisscom Sovereign AI ist die beliebteste Bridge fuer Banken. 6 von 9 Bank-Mandaten haben sich fuer Swisscom entschieden — der grosse Vorteil: existierender Master-Service-Agreement, FINMA-zertifizierte SOC, und ein Schweizer Vertragspartner ohne US-Anwaelte.
Vertex AI Zurich gewinnt im Hybrid-Setup. Wer Gemini 2.5 Pro fuer Reasoning-intensive Tasks braucht und Apertus als Fallback laufen laesst, bekommt das Beste beider Welten — vorausgesetzt der DPA mit Google EMEA ist sauber unterzeichnet.
Air-gapped ist der teuerste, aber sicherste Stack. Pharma-, Defense- und Banken-Tier-1-Mandate ohne jede externe API-Kommunikation — wir betreiben aktuell drei davon, durchschnittliche Initial-Investition CHF 380'000-580'000, Break-even nach 16-22 Monaten gegenueber API-Bezug.

Referenz-Architektur: Der Swiss Sovereign AI Stack

Egal welcher Anbieter — jedes mazdek-Sovereign-AI-Deployment folgt einer 8-Schicht-Architektur. Sie ist bewusst Modell-agnostisch, sodass ein Wechsel zwischen Apertus, Llama und Mistral ohne Re-Architektur moeglich bleibt (in 5 unserer Mandate so durchgefuehrt):

+------------------------------------------------------------+
|  1. User-Layer: Web · Chat · API · WhatsApp · Voice         |
|     Authentifizierung via SwissID / Microsoft Entra CH      |
+-----------------------------+------------------------------+
                              | Authenticated request
                              v
+-----------------------------+------------------------------+
|  2. Edge & Guardrail-Layer: ARES                           |
|     - Lakera Guard (CH-Region) Prompt-Injection Detection   |
|     - Llama Guard 3 (Self-Hosted) PII-Filter                |
|     - Tenant- und Sprachen-Routing                          |
+-----------------------------+------------------------------+
                              | Sanitized prompt
                              v
+-----------------------------+------------------------------+
|  3. Routing-Layer: PROMETHEUS                              |
|     - Klassifikation: einfach / komplex / safety-kritisch  |
|     - Modell-Auswahl: Apertus 8B / 70B / Claude EU         |
|     - Cost & Latenz-Budget pro Tenant                       |
+-----------------------------+------------------------------+
                              | Model + tokens
                              v
+-----------------------------+------------------------------+
|  4. Inference-Layer: vLLM / TGI / Triton auf Swiss GPU     |
|     - Apertus 70B auf 4x H100 (CSCS oder Swisscom)         |
|     - Apertus 8B auf RTX 6000 Ada (Edge)                    |
|     - Llama / Mistral als Fallback                          |
+-----------------------------+------------------------------+
                              | Tokens + tool-calls
                              v
+-----------------------------+------------------------------+
|  5. Tool-Layer: HERACLES                                    |
|     - MCP-Server fuer SAP / Bexio / Abacus / SwissID       |
|     - Function-Calling mit Schema-Validation                |
|     - QR-Bill / IBAN / AHV-Verifikation                     |
+-----------------------------+------------------------------+
                              | Grounded response
                              v
+-----------------------------+------------------------------+
|  6. Knowledge-Layer: ORACLE                                 |
|     - pgvector / Qdrant on Schweizer Postgres               |
|     - RAG mit Daten-Provenienz pro Chunk                    |
|     - Retrieval Cache (Redis CH)                            |
+-----------------------------+------------------------------+
                              | Output stream
                              v
+-----------------------------+------------------------------+
|  7. Audit-Layer: ARES + ARGUS                              |
|     - Prompt + Response + Modell-Version WORM 10y          |
|     - PII-Maskierung · Privilege-Trail · revDSG Art. 6     |
|     - Drift-Monitoring + Eval-CI                            |
+-----------------------------+------------------------------+
                              | Compliance event-stream
                              v
+-----------------------------+------------------------------+
|  8. Governance-Layer: NABU                                 |
|     - Modell-Karten · Datenkarten · DSFA-Templates         |
|     - Reviewer-Queue fuer Hochrisiko-Outputs                |
|     - EDOEB / FINMA / Swissmedic Reporting                 |
+------------------------------------------------------------+

Drei Schichten verdienen besondere Aufmerksamkeit fuer Schweizer Compliance:

Routing-Schicht (Layer 3): nicht jeder Prompt braucht das beste Modell. Unser PROMETHEUS-Router klassifiziert eingehende Prompts und schickt 65-75% an Apertus 8B (CHF 0.40/Mio Tokens), 20-25% an Apertus 70B oder Llama 3.3 (CHF 0.90), nur 3-8% an Claude EU oder Gemini Vertex Zurich (CHF 3.20). Ergebnis: 4-6x niedrigere Inferenz-Kosten bei vergleichbarer End-User-Qualitaet.
Tool-Schicht (Layer 5): hier liegt 2026 der entscheidende Souveraenitaets-Hebel. Mit MCP (Model Context Protocol) als Tool-Bus koennen wir Tools austauschen, ohne Modelle anzuruechen. Schweizer ERP-, Banken- und SwissID-Adapter sprechen MCP — siehe unseren MCP-Leitfaden.
Audit-Schicht (Layer 7): Pflicht nach EU AI Act Art. 12. Jeder Prompt + Response + Modell-Version + Tool-Calls werden 10 Jahre WORM-archiviert. Wir nutzen S3-Object-Lock auf Infomaniak oder Cloudscale — beide bieten Compliance-Mode mit echter Schweizer Souveraenitaet.

Code-Vergleich: Apertus, Swisscom Sovereign AI und Claude EU

Aufgabe: ein RAG-Endpoint fuer eine Schweizer Versicherung, der Schadenanfragen klassifiziert und mit Policy-Daten beantwortet — alles innerhalb der Schweizer Rechtsordnung.

Apertus 70B Self-Hosted (vLLM)

from openai import OpenAI

# vLLM auf CSCS oder Swisscom Sovereign Cloud
client = OpenAI(
    base_url='https://apertus.swiss-ai.internal/v1',
    api_key=APERTUS_KEY,
)

resp = client.chat.completions.create(
    model='swiss-ai/apertus-70b-instruct',
    messages=[
        {'role': 'system', 'content': 'Du bist ein praeziser Versicherungs-Assistent. Beantworte nur mit dem Policy-Kontext.'},
        {'role': 'user', 'content': f'Kontext: {policy_chunks}\n\nFrage: {question}'},
    ],
    temperature=0.1,
    max_tokens=512,
)
answer = resp.choices[0].message.content

Charakteristisch: OpenAI-kompatible API, voller Kontrollpunkt auf Schweizer Boden. Kein US-DPA, keine US-Subpoena-Reichweite, keine externen Hops. Latenz typischerweise 80-180 ms TTFT bei 4x H100.

Swisscom Sovereign AI Platform

import httpx

resp = httpx.post(
    'https://sovereign-ai.swisscom.ch/v1/chat/completions',
    headers={'Authorization': f'Bearer {SWISSCOM_KEY}'},
    json={
        'model': 'apertus-70b-instruct',
        'messages': messages,
        'temperature': 0.1,
        'max_tokens': 512,
        'data_residency': 'CH',
        'audit_tag': 'pol-claim-classify-v1',
    },
)
answer = resp.json()['choices'][0]['message']['content']

Charakteristisch: Schweizer Vertragspartner mit FINMA-zertifizierter SOC und vorgefertigtem MSA. Audit-Tags fliessen direkt ins Swisscom-Log-Retention. Hoehere Kosten, aber kein Self-Hosting noetig — der schnellste Pfad fuer Banken.

Hybrid mit Claude EU als Eskalationspfad

import anthropic

# Apertus zuerst, Claude nur bei niedriger Konfidenz
def route_prompt(question, context):
    # Versuche Apertus 70B zuerst
    apertus_resp = call_apertus(question, context)
    if apertus_resp.confidence >= 0.85:
        log_audit('apertus-70b', apertus_resp)
        return apertus_resp.answer

    # Eskaliere an Claude EU mit DPA
    client = anthropic.AnthropicVertex(region='europe-west4', project_id=PROJ)
    msg = client.messages.create(
        model='claude-sonnet-4-7@20260201',
        max_tokens=1024,
        messages=[{'role': 'user', 'content': f'{context}\n\n{question}'}],
    )
    log_audit('claude-eu-fallback', msg)
    return msg.content[0].text

Charakteristisch: der pragmatische Schweizer Stack. 90-95% der Prompts loesen wir mit Apertus, nur reasoning-intensive Edge-Cases gehen an Claude EU mit Vertex-EMEA-DPA. Token-Kosten sinken um 70%, Modellqualitaet bleibt auf Spitzenniveau.

Entscheidungs-Matrix: Welcher Stack fuer welchen Use-Case?

Use-Case	Empfehlung	Warum
FINMA-Bank Customer-Service-Chat	Swisscom Sovereign + Apertus 70B	FINMA-zertifizierte SOC, MSA mit Schweizer Recht, Apache-2.0-Modell
Spital RAG-System fuer Klinik-Dokumente	Apertus 70B Self-Hosted + Infomaniak	HIPAA-/Swissmedic-aequivalente Datenkontrolle, Schweizerdeutsch
Behoerde Buerger-Assistent	Apertus 70B + Swisscom oder CSCS	oeffentliche Hand → public-benefit Lizenz Apertus passt politisch
Versicherung Schadensvor-Pruefung	Hybrid: Apertus 70B + Claude EU	Reasoning-intensive Edge-Cases an Claude, Rest an Apertus
Pharma F&E Knowledge Mining	Air-gapped On-Prem Apertus 70B	Geheimhaltungspflichten, kein externer Hop erlaubt
KMU Inhouse-Chatbot fuer Buchhaltung	Apertus 8B auf Exoscale GPU	Kosten-effiziente Sovereign-Loesung ab CHF 480/Monat
Konzern-Coding-Assistent	Hybrid: Apertus 70B + Claude/GPT EU	Coding ist Apertus-Schwaechepunkt — Hybrid kompensiert
Mehrsprachige Online-Beratung	Apertus 70B (DE/FR/IT/RM) + Vertex Zurich	Multilingualitaet inklusive Raetoromanisch und Schweizerdeutsch

Unser PROMETHEUS-Default-Stack fuer Schweizer Mid-Market: Apertus 70B als primaeres Modell auf Swisscom Sovereign AI Platform, Llama 3.3 70B als Fallback bei Apertus-Wartung, Claude 4.7 Sonnet ueber Vertex EMEA als Eskalationspfad fuer Reasoning-intensive Edge-Cases. Diese Kombi deckt 11 von 14 produktiven Mandaten ab.

Kosten-Vergleich: Was Sovereign AI in der Schweiz wirklich kostet

Aus 14 produktiven Mandaten haben wir die TCO ueber 24 Monate fuer drei Skalierungs-Stufen extrahiert. Inkl. Hosting, Inferenz, Maintenance, Eval-Pipeline und Compliance:

Volumen	Apertus Self-Host	Swisscom Sovereign	Vertex Zurich	Azure CH GPT-5	Air-gapped On-Prem
10 Mio Tokens/Monat (KMU)	CHF 980	CHF 1'600	CHF 2'200	CHF 3'400	CHF 4'800
500 Mio Tokens/Monat (Mid-Market)	CHF 4'200	CHF 9'400	CHF 14'800	CHF 21'200	CHF 8'600
10 Mrd Tokens/Monat (Konzern)	CHF 38'500	CHF 142'000	CHF 218'000	CHF 380'000	CHF 62'000

Drei Lehren:

Apertus Self-Host wird ab 200 Mio Tokens/Monat unschlagbar. Der Break-even gegenueber Swisscom-API liegt bei ca. 180 Mio Tokens/Monat — vorausgesetzt eine GPU-Sysadmin-Stelle (oder unser ARGUS-Managed-Service) ist budgetiert.
Air-gapped wird ab 1 Mrd Tokens/Monat wirtschaftlich. Bis dahin lohnt sich der CapEx fuer dedizierte GPU-Cluster und Class-Two-Datenzentren nur, wenn Geheimhaltungspflichten es erzwingen.
US-Hyperscaler-CH-Regions sind 2-5x teurer als Sovereign-Stacks. Vertex Zurich und Azure CH lohnen sich nur fuer reasoning-intensive Workloads, fuer Standard-RAG-Use-Cases ist Apertus deutlich wirtschaftlicher.

Praxisbeispiel: Schweizer Kantonalbank mit 18'000 Mitarbeitern

Eine grosse Schweizer Kantonalbank wollte 2025 einen LLM-gestuetzten Mitarbeiter-Assistenten fuer Compliance-, Kreditpruefungs- und Customer-Service-Anfragen bauen. Der erste Pilot mit OpenAI direkt scheiterte — FINMA-Audit verlangte Datenexport-Trennung, EDOEB stellte nach revDSG-Pruefung kritische Fragen, der CIO suchte einen Schweizer Stack.

Ausgangslage

18'000 Mitarbeiter, 240 Filialen, 4 Sprachregionen (DE/FR/IT/RM)
Volumen: 280 Mio Tokens / Monat in der ersten Stufe, 1.4 Mrd geplant fuer Stufe 2
Anforderung: 100% Schweizer Hosting, FINMA-zertifizierte SOC, EU-AI-Act Hochrisiko-Compliance
Vorher: 4 unbeantwortete EDOEB-Audit-Briefe, 1 FINMA-Mahnung, OpenAI-Pilot eingefroren

mazdek-Loesung

Wir bauten einen Apertus-First-Stack auf Swisscom Sovereign AI Platform mit MCP-Tool-Bus, pgvector-RAG auf Cloudscale Postgres und ARES-Compliance-Pipeline:

Modell-Routing (PROMETHEUS): 70% Anfragen an Apertus 8B (Standard-FAQ), 25% an Apertus 70B (komplexe Compliance-Recherche), 5% an Claude EU via Vertex EMEA (Reasoning-intensive Kreditpruefung).
Hosting (HEPHAESTUS): Swisscom Sovereign AI Platform mit dedizierten H100-Pods. Hot-Standby auf CSCS Lugano via WireGuard-Tunnel.
RAG (ORACLE): 14 Mio interne Dokumente in pgvector auf Cloudscale Schweiz, Daten-Provenienz pro Chunk, BFE-Lizenz-Tracking pro Quelle.
Tools (HERACLES): MCP-Server fuer Avaloq-Bank-Kern, SwissID-Auth, Bexio (KMU-Kreditkunden), QR-Bill-API.
Compliance (ARES): Lakera Guard CH-Region am Edge, Llama Guard 3 Self-Hosted fuer PII, WORM-Archiv auf Infomaniak S3-Object-Lock 10 Jahre.
Observability (ARGUS): 24/7-Drift-Monitoring, woechentliches Eval-CI auf 800 Gold-Records pro Sprache, Apertus-Modell-Update-Pipeline.

Ergebnisse nach 7 Monaten Produktivbetrieb

Metrik	Vorher (OpenAI-Pilot)	Nachher (Apertus-Stack)	Delta
Datenexport-Volumen in US	100%	0%	-100%
EDOEB-Audit-Anfragen offen	4	0	-100%
FINMA-Bemaengelungen	1	0	—
Token-Kosten / Mio	CHF 4.20	CHF 1.40	-67%
Inferenz-Latenz p95	1'820 ms	520 ms	-71%
Antwortqualitaet (Mitarbeiter-NPS)	62	78	+26%
Mehrsprachige Abdeckung	3 (DE/EN/FR)	4 (DE/FR/IT/RM)	+33%
Jaehrliche Kosteneinsparung	—	CHF 9.4 Mio	—
Payback Sovereign-Migration	—	5.8 Monate	—

Wichtig: Der wahre Wert war nicht die Kosteneinsparung, sondern die Wiederherstellung der regulatorischen Handlungsfaehigkeit. Vor der Migration war der Bank-CIO vier Monate lang in Eskalationsgespraechen mit FINMA und EDOEB. Nach der Migration: ein zertifizierter Schweizer Stack, der bei jedem Audit ohne Vorbereitung aushaelt.

Governance: Sovereign AI nach revDSG, EU AI Act und FINMA

Sovereign AI loest nicht alle Compliance-Probleme automatisch — es macht die existierenden Pflichten erfuellbar. Sechs harte Vorgaben, die wir in jedem mazdek-Sovereign-AI-Mandat durchsetzen:

revDSG Art. 16 (Datenexport): jede Modell-Inferenz und jede Embedding-Berechnung muss in der Schweiz oder einem adequaten Drittland (EU) stattfinden. OpenAI-direkt-API ohne Azure-EU-DPA disqualifiziert. Apertus + Swisscom + Vertex EMEA sind die drei sicheren Pfade.
revDSG Art. 22 (Datenschutz-Folgenabschaetzung): Hochrisiko-KI-Systeme brauchen DSFA vor Produktivnahme. Wir liefern Templates aus 14 produktiven Mandaten — strukturiert nach EDOEB-Erwartungen.
EU AI Act Art. 53 (GPAI-Provider-Pflichten): wer Apertus oder Llama produktiv betreibt, uebernimmt Modell-Karten- und Daten-Karten-Pflichten. Apertus liefert die Karten von ETH/EPFL out-of-the-box — bei Llama oder Mistral muessen Sie sie selbst erstellen.
EU AI Act Art. 14 (Human Oversight): Hochrisiko-Outputs (Kreditentscheid, Schadensbewertung, medizinische Empfehlung) brauchen Human-in-the-Loop-Schwellwert. Wir setzen 0.92 Konfidenz fuer Standardanfragen, 0.97 fuer Hochrisiko-Domains.
FINMA RS 2023/1 (Operationelle Risiken): Modell-Diversifikation und Exit-Strategie obligatorisch. Wir betreiben in jedem Bank-Mandat zwei unabhaengige Modell-Familien (z.B. Apertus + Llama) — Failover binnen 90 Sekunden.
Swissmedic / FOPH (Gesundheit): medizinische KI-Outputs sind nach MepV deklarations- und ggf. zulassungspflichtig. Wir koppeln NINGIZZIDA als HealthTech-Agent fuer FHIR-Mapping und MepV-Konformitaet ein.

Mehr Tiefenanalyse in unseren Compliance-Leitfaeden: EU AI Act Implementierung, Prompt-Injection-Verteidigung und LLM-Observability.

Implementierungs-Roadmap: In 10 Wochen produktiv

Phase 1: Discovery & Souveraenitaets-Inventar (Woche 1)

Workshop: Datenklassen, regulatorische Pflichten, Sprachen-Profil, Modell-Anforderungen
Daten-Export-Audit: wo verlassen heute Daten die Schweiz, wo nicht?
Stack-Matrix: Volumen × Datenhoheit × Modellqualitaet × Budget

Phase 2: Modell-Auswahl & PoC (Woche 2-3)

PROMETHEUS testet Apertus 70B vs. Llama 3.3 70B vs. Mistral Large parallel
Eval auf 500-1'200 Gold-Records pro Sprache, MMLU-DE/FR/IT, juristische und Branchen-Benchmarks
Hosting-Entscheid: Swisscom vs. Self-Host vs. Air-gapped

Phase 3: Sovereign-Hosting-Setup (Woche 4-5)

HEPHAESTUS deployt vLLM/TGI auf Swisscom Sovereign AI Platform oder Exoscale
WireGuard-Tunnel zwischen primaerem und Standby-Stack
SwissID-/Entra-CH-Integration fuer Authentication

Phase 4: RAG & Tool-Layer (Woche 5-6)

ORACLE baut pgvector auf Cloudscale Postgres mit Daten-Provenienz
HERACLES bindet ERP, CRM, SwissID via MCP-Server an
Konfidenz-Schwellwerte je Domain konfigurieren

Phase 5: Compliance & Audit (Woche 7)

ARES Lakera Guard CH + Llama Guard 3 + WORM-Archiv
DSFA-Erstellung nach revDSG Art. 22
Modell-Karten- und Daten-Karten-Pipeline nach EU AI Act Art. 53

Phase 6: Observability & Eval-CI (Woche 8)

ARGUS Drift-Monitoring + woechentliches Eval-CI
Token-Cost-Dashboard nach Tenant und Modell
FINMA-/EDOEB-Reporting-Pipeline

Phase 7: Rollout & Lernen (Woche 9-10)

Shadow-Mode: System antwortet, Mitarbeiter validiert
Supervised: 30% Auto-Antwort mit Human-Spot-Check
Full-Production mit monatlichem FINMA-Compliance-Review

Die Zukunft: Apertus 2, Schweizer GPU-Federation, Multi-Tenant Sovereign Inference

Sovereign AI 2026 ist erst der erste Sprung. Was 2027-2028 in Sicht steht:

Apertus 2 (erwartet Q4 2026): 200B-Parameter-Variante mit nativer Tool-Calling-Optimierung und Reasoning-Mode aehnlich Claude 4.7. Erste Pre-Releases fuer Forschungspartner ab August 2026.
CSCS-Federation: CSCS Lugano, Gerolfingen-RZ und private GPU-Cluster werden zu einer Federated-Sovereign-Inference-Plattform — gemeinsamer Token-Pool, gemeinsame Eval-Suite, gemeinsamer Compliance-Stack. mazdek ist Pilot-Partner.
Multi-Tenant Sovereign Inference: Confidential Computing (NVIDIA H200 mit MIG-Mode + AMD SEV-SNP) erlaubt 2027 mehrere Mandanten auf derselben Hardware mit kryptographischer Isolation. Der Game-Changer fuer Schweizer KMU-Sovereign-AI.
Schweizer Domain-Modelle: Apertus-Med (Spital-Texte), Apertus-Legal (Bundesgericht-Korpus), Apertus-Fin (Bank-Reglemente) sind 2026-2027 in Vorbereitung. Wir trainieren bereits eine Apertus-Treuhand-Variante fuer einen Mid-Market-Partner.
Schweizer KI-Governance-Standard: der Bundesrat plant fuer Q4 2026 eine eigene KI-Verordnung, die EU-AI-Act-konforme Pfade definiert. Sovereign-AI-Stacks werden vermutlich bevorzugt.
Apertus on Mobile: Apertus 1B (Edge-Variante) auf Apple Foundation Models / Snapdragon X Elite — Schweizer KI ohne Cloud-Roundtrip. Pilots in Spital-Mobile-Apps laufen.

Fazit: Sovereign AI ist 2026 deploybare Pflicht, nicht Marketing-Slogan

Default 2026: Apertus 70B auf Swisscom Sovereign AI Platform. Apache-2.0-Modell, FINMA-zertifizierte SOC, MSA mit Schweizer Recht, multilingual mit Schweizerdeutsch — der pragmatischste Pfad fuer 80% der Schweizer Mid-Market-Mandate.
Hochrisiko-Domains: Hybrid mit Claude EU. Reasoning-intensive Edge-Cases (Kreditpruefung, juristische Recherche, Schadensbewertung) ueber Vertex EMEA mit DPA — Rest auf Apertus.
Air-gapped: nur fuer Tier-1-Banken, Pharma, Defense. CapEx von CHF 380K-580K rechnet sich erst ab 1 Mrd Tokens/Monat oder bei harten Geheimhaltungspflichten.
NICHT mehr 2026: OpenAI-direkt-API ohne EU-DPA. EDOEB- und FINMA-Audit-Risiko zu hoch. Migration zu Apertus, Swisscom oder Azure CH alternativlos.
Modell-Diversifikation ist Pflicht: mindestens zwei unabhaengige Modell-Familien (Apertus + Llama oder Apertus + Mistral) gegen Lock-In und FINMA-Risiken.
ROI in 4-7 Monaten: 14 produktive mazdek-Sovereign-AI-Mandate, durchschnittlich 5.4 Monate Payback gegenueber US-Hyperscaler-Setups.
Compliance machbar: revDSG, EU AI Act, FINMA und Swissmedic werden mit ARES-Guardrails, WORM-Archiv und Konfidenz-Schwellwerten sauber abgebildet.

Bei mazdek orchestrieren 19 spezialisierte KI-Agenten den gesamten Sovereign-AI-Lebenszyklus: PROMETHEUS fuer Modell-Auswahl und Routing; HEPHAESTUS fuer Schweizer Kubernetes- und GPU-Infrastruktur; ORACLE fuer RAG, pgvector und Daten-Provenienz; HERACLES fuer ERP-, Banken- und SwissID-Integration ueber MCP; ARES fuer Compliance, Lakera, Llama Guard und WORM-Archiv; ARGUS fuer 24/7-Drift- und Cost-Observability; NABU fuer Modell- und Datenkarten und EDOEB-/FINMA-Reporting; NINGIZZIDA fuer FHIR-/MepV-Konformitaet im Spital-Kontext. 14 produktive Sovereign-AI-Deployments seit dem Apertus-Release im September 2025 — DSG-, DSGVO-, EU-AI-Act-, FINMA- und Swissmedic-konform ab Tag eins.

Web & E-Commerce

KI & Automatisierung

19 KI-Agenten

Nach Unternehmensgrösse

Spezialisierungen

Bis zu 70% günstiger

Lernen

Unternehmen

Neueste Artikel

Entwicklung

KI & Cloud

Enterprise

Spezialisiert

Sovereign AI Schweiz 2026: Apertus, Swiss-AI Initiative und souveraene LLM-Infrastruktur

Lassen Sie sich diesen Artikel von einer KI zusammenfassen