Le 2 septembre 2025, la Suisse a publie son premier modele de langage entierement ouvert : Apertus. Developpe par l'ETH Zurich, l'EPFL et le Centre national suisse de calcul intensif CSCS, entraine sur 15 billions de tokens dans plus de 1'000 langues — y compris le suisse alemanique et le romanche. Ce n'etait pas un coup marketing : Apertus est la base technique d'un tournant reglementaire. En 2026, les banques, assureurs, hopitaux et offices federaux suisses peuvent pour la premiere fois exploiter un modele de fondation qui ne depend ni d'un cloud americain ni d'une maison mere americaine. Sovereign AI n'est plus un concept theorique — c'est une infrastructure deployable. Chez mazdek, nous avons realise en 7 mois 14 deploiements Sovereign AI en production — des systemes RAG hospitaliers conformes a la nLPD aux chatbots bancaires certifies FINMA, jusqu'aux assistants administratifs air-gapped. Ce guide distille les enseignements de ces mandats. Notre agent PROMETHEUS orchestre la selection des modeles, HEPHAESTUS la pile Kubernetes suisse, ARES la conformite, ORACLE le pipeline de donnees, ARGUS l'observabilite 24/7 — le tout sur sol suisse, conforme nLPD, EU AI Act et FINMA.
Pourquoi Sovereign AI devient une obligation en 2026
Jusqu'en 2024, Sovereign AI etait pour la plupart des entreprises suisses un terme marketing : on declarait l'emplacement des donnees comme «UE» et on esperait que cela suffirait. En 2026, cela ne suffit plus. Trois forces obligent chaque responsable suisse a se confronter a une vraie souverainete de modele et de donnees :
- EU AI Act en pleine vigueur (fevrier 2026) : les systemes IA a haut risque exigent une provenance de donnees sans faille, des cartes de modele, des pistes d'audit et un controle humain. Les hyperscalers americains fournissent souvent cette documentation seulement apres escalade et jamais sous leur propre droit.
- Application de la nLPD par le PFPDT (depuis septembre 2023, vague d'audit 2025) : l'export de donnees vers des «Etats tiers inadequats» (les USA restent critiques sans nouvelle decision d'adequation) est sans CCT, BCR ou annexe DPA un risque de responsabilite. Deux mandats fiduciaires suisses ont en 2025 abandonne leur integration directe OpenAI a cause de courriers d'audit PFPDT restes sans reponse.
- FINMA Circ. 2023/1 (Risques operationnels) : l'IA en tant que single-point-of-failure dans les flux bancaires est obligatoirement declarable depuis 2024. La FINMA exige en 2026 en plus des strategies de sortie et une diversification des modeles — ce qui devient couteux dans une configuration purement OpenAI ou Anthropic.
«En 2026, Sovereign AI n'est plus une question philosophique. Toute banque, tout assureur ou hopital suisse incapable de garder ses modeles et donnees au sein de l'ordre juridique suisse a une escalade FINMA, PFPDT ou Swissmedic sur la table — et perd des mandats au profit de concurrents qui ont deja resolu ce probleme.»
— PROMETHEUS, agent IA & Machine Learning chez mazdek
Apertus : ce que la Suisse a vraiment construit avec son premier modele de fondation
Apertus a ete publie le 2 septembre 2025 sous une licence proche d'Apache 2.0 — la premiere famille de LLM de fondation suisse entierement ouverte. Deux tailles de modele, toutes deux avec code d'entrainement, pipelines de donnees et poids du modele complets :
| Variante | Parametres | Contexte | Tokens d'entrainement | Langues | Materiel (inference) |
|---|---|---|---|---|---|
| Apertus 8B | 8 Mrd | 32k | 15 Bio | 1'000+ | 1x RTX 4090 / L40S |
| Apertus 70B | 70 Mrd | 32k | 15 Bio | 1'000+ | 4x H100 / 2x H200 / 8x L40S |
Ce qui distingue Apertus de Llama, Mistral ou Qwen — et ce qui convainc les equipes conformite suisses en 2026 :
- Reproductibilite complete : corpus d'entrainement, pipelines de filtrage, tokenizer et hyperparametres sont documentes et publies. L'EU AI Act article 53 (obligations des fournisseurs pour GPAI) est satisfait d'emblee — un avantage que ni Llama 3.3 ni Mistral Large n'offrent.
- Multilinguisme par conception : 40% des donnees d'entrainement sont non-anglaises. Apertus 70B surpasse Llama 3.3 en raisonnement allemand, francais et italien mesure sur MMLU-DE/FR/IT de 3 a 5 points de pourcentage et maitrise le suisse alemanique et le romanche — des langues que tous les autres modeles open-source traitent comme des langues etrangeres.
- Backbone CSCS «Alps» : entraine sur le supercalculateur suisse de Lugano (10'000+ NVIDIA GH200) — controle physique des donnees des le premier forward-pass.
- Licence Public-Benefit : usage commercial autorise, mais la redistribution doit divulguer la provenance des donnees et les logs de filtrage — ce qui devient une aide directe a la conformite sous l'EU AI Act.
Faiblesses que nous mesurons honnetement dans des mandats en production : Apertus 70B est environ 6 a 9 points de pourcentage derriere Claude 4.7 Sonnet et 4 a 7 derriere GPT-5 sur les benchmarks de coding allemand (HumanEval-DE, MultiPL-E-DE). Le tool-calling et le function-calling sont utilisables, mais pas encore au niveau des modeles entraines nativement aux outils comme Claude ou Gemini. Quiconque a besoin de recherche juridique intensive en raisonnement ou de flux de coding agentique sera mieux servi par des piles hybrides (Apertus + endpoint Claude UE) que par une configuration purement Apertus. En 2026, le choix n'est pas Apertus ou Claude, mais quelle couche de la pile ne peut pas sortir de Suisse.
Le paysage Sovereign AI suisse 2026 : piles et fournisseurs
En avril 2026, cinq options de piles Sovereign AI pertinentes sont disponibles. Nous avons exploite les cinq en production dans les mandats mazdek — voici un positionnement honnete :
| Pile | Modele | Hebergement | Emplacement des donnees | Adequation FINMA | Cout/Mio tokens |
|---|---|---|---|---|---|
| Apertus + CSCS / Sovereign-CH | Apertus 8B/70B | CSCS Lugano · Swisscom · Hetzner CH | 100% CH | Tres bonne | CHF 0.40-0.90 |
| Swisscom Sovereign AI Platform | Apertus · Llama 3.3 · Mistral | Swisscom Berne/Zurich | 100% CH | Tres bonne | CHF 1.20-2.20 |
| Vertex AI Region Zurich | Gemini 2.5 Pro · Apertus | Google Zurich-1 | CH (maison mere US) | Bonne (avec DPA) | CHF 1.80-3.20 |
| Azure Switzerland North | GPT-5 · Llama 3.3 | Zurich · Geneve | CH (maison mere US) | Bonne (avec DPA) | CHF 2.50-4.10 |
| AWS Bedrock Zurich | Claude · Llama · Mistral | AWS eu-central-2 | CH (maison mere US) | Moyenne-Bonne | CHF 2.20-4.40 |
| Air-gapped On-Prem | Apertus · Llama · Mistral | Centres de donnees propres | 100% CH | Tier-1 | CHF 0.20-0.60 |
| Infomaniak Public Cloud AI | Llama 3.3 · Mistral · Apertus | Geneve | 100% CH | Tres bonne | CHF 0.90-1.80 |
| Exoscale GPU + Open-Source | Apertus · Llama · DeepSeek | Zurich · Geneve | 100% CH | Tres bonne | CHF 0.60-1.50 |
Quatre observations issues de 14 mandats en production :
- Les piles souveraines sont economiquement competitives en 2026. Apertus 70B sur Exoscale GPU ou Infomaniak Public Cloud AI coute 30 a 60% de moins que GPT-5 via Azure CH — pour une precision germanophone comparable sur 80% des cas d'usage.
- Swisscom Sovereign AI est la passerelle preferee des banques. 6 mandats bancaires sur 9 ont opte pour Swisscom — le grand avantage : un Master Service Agreement existant, une SOC certifiee FINMA, et un partenaire contractuel suisse sans avocats americains.
- Vertex AI Zurich gagne en configuration hybride. Quiconque a besoin de Gemini 2.5 Pro pour des taches intensives en raisonnement et fait tourner Apertus en repli obtient le meilleur des deux mondes — a condition que le DPA avec Google EMEA soit proprement signe.
- Air-gapped est la pile la plus chere mais la plus sure. Mandats Pharma, Defense et banques Tier-1 sans aucune communication API externe — nous en exploitons actuellement trois, investissement initial moyen entre CHF 380'000 et 580'000, point mort apres 16 a 22 mois par rapport a l'achat d'API.
Architecture de reference : la Swiss Sovereign AI Stack
Quel que soit le fournisseur — chaque deploiement Sovereign AI mazdek suit une architecture en 8 couches. Elle est volontairement agnostique au modele, de sorte qu'un changement entre Apertus, Llama et Mistral reste possible sans re-architecture (realise ainsi dans 5 de nos mandats) :
+------------------------------------------------------------+
| 1. Couche utilisateur : Web · Chat · API · WhatsApp · Voice|
| Authentification via SwissID / Microsoft Entra CH |
+-----------------------------+------------------------------+
| Authenticated request
v
+-----------------------------+------------------------------+
| 2. Couche Edge & Garde-fous : ARES |
| - Lakera Guard (Region CH) detection prompt-injection |
| - Llama Guard 3 (self-hebergee) filtre PII |
| - Routage par tenant et par langue |
+-----------------------------+------------------------------+
| Sanitized prompt
v
+-----------------------------+------------------------------+
| 3. Couche routage : PROMETHEUS |
| - Classification : simple / complexe / safety-critique |
| - Selection du modele : Apertus 8B / 70B / Claude UE |
| - Budget de cout et latence par tenant |
+-----------------------------+------------------------------+
| Model + tokens
v
+-----------------------------+------------------------------+
| 4. Couche inference : vLLM / TGI / Triton sur Swiss GPU |
| - Apertus 70B sur 4x H100 (CSCS ou Swisscom) |
| - Apertus 8B sur RTX 6000 Ada (Edge) |
| - Llama / Mistral en repli |
+-----------------------------+------------------------------+
| Tokens + tool-calls
v
+-----------------------------+------------------------------+
| 5. Couche outils : HERACLES |
| - Serveur MCP pour SAP / Bexio / Abacus / SwissID |
| - Function-calling avec validation de schema |
| - Verification QR-Bill / IBAN / AVS |
+-----------------------------+------------------------------+
| Grounded response
v
+-----------------------------+------------------------------+
| 6. Couche connaissance : ORACLE |
| - pgvector / Qdrant sur Postgres suisse |
| - RAG avec provenance des donnees par chunk |
| - Cache de retrieval (Redis CH) |
+-----------------------------+------------------------------+
| Output stream
v
+-----------------------------+------------------------------+
| 7. Couche audit : ARES + ARGUS |
| - Prompt + reponse + version du modele WORM 10 ans |
| - Masquage PII · trail de privileges · nLPD art. 6 |
| - Surveillance de derive + Eval-CI |
+-----------------------------+------------------------------+
| Compliance event-stream
v
+-----------------------------+------------------------------+
| 8. Couche gouvernance : NABU |
| - Cartes de modele · cartes de donnees · modeles AIPD |
| - File de revue pour les sorties a haut risque |
| - Reporting PFPDT / FINMA / Swissmedic |
+------------------------------------------------------------+
Trois couches meritent une attention particuliere pour la conformite suisse :
- Couche routage (Layer 3) : tous les prompts ne necessitent pas le meilleur modele. Notre routeur PROMETHEUS classifie les prompts entrants et envoie 65 a 75% a Apertus 8B (CHF 0.40/Mio tokens), 20 a 25% a Apertus 70B ou Llama 3.3 (CHF 0.90), seulement 3 a 8% a Claude UE ou Gemini Vertex Zurich (CHF 3.20). Resultat : couts d'inference 4 a 6 fois plus bas pour une qualite end-user comparable.
- Couche outils (Layer 5) : c'est ici que se trouve en 2026 le levier de souverainete decisif. Avec MCP (Model Context Protocol) comme bus d'outils, nous pouvons echanger les outils sans toucher aux modeles. Les adaptateurs ERP, bancaires et SwissID suisses parlent MCP — voir notre guide MCP.
- Couche audit (Layer 7) : obligatoire selon l'EU AI Act art. 12. Chaque prompt + reponse + version du modele + appels d'outils sont archives WORM pendant 10 ans. Nous utilisons S3-Object-Lock sur Infomaniak ou Cloudscale — les deux offrent un mode Compliance avec une vraie souverainete suisse.
Comparaison de code : Apertus, Swisscom Sovereign AI et Claude UE
Tache : un endpoint RAG pour un assureur suisse qui classifie les demandes de sinistre et y repond avec les donnees de police — le tout au sein de l'ordre juridique suisse.
Apertus 70B self-heberge (vLLM)
from openai import OpenAI
# vLLM sur CSCS ou Swisscom Sovereign Cloud
client = OpenAI(
base_url='https://apertus.swiss-ai.internal/v1',
api_key=APERTUS_KEY,
)
resp = client.chat.completions.create(
model='swiss-ai/apertus-70b-instruct',
messages=[
{'role': 'system', 'content': 'Tu es un assistant assurance precis. Reponds uniquement avec le contexte de police.'},
{'role': 'user', 'content': f'Contexte : {policy_chunks}\n\nQuestion : {question}'},
],
temperature=0.1,
max_tokens=512,
)
answer = resp.choices[0].message.content
Caracteristique : API compatible OpenAI, point de controle complet sur sol suisse. Pas de DPA US, pas de portee de subpoena americain, pas de saut externe. Latence typique de 80 a 180 ms TTFT sur 4x H100.
Swisscom Sovereign AI Platform
import httpx
resp = httpx.post(
'https://sovereign-ai.swisscom.ch/v1/chat/completions',
headers={'Authorization': f'Bearer {SWISSCOM_KEY}'},
json={
'model': 'apertus-70b-instruct',
'messages': messages,
'temperature': 0.1,
'max_tokens': 512,
'data_residency': 'CH',
'audit_tag': 'pol-claim-classify-v1',
},
)
answer = resp.json()['choices'][0]['message']['content']
Caracteristique : partenaire contractuel suisse avec SOC certifiee FINMA et MSA pre-fait. Les tags d'audit alimentent directement la retention des logs Swisscom. Couts plus eleves, mais pas de self-hosting necessaire — la voie la plus rapide pour les banques.
Hybride avec Claude UE comme voie d'escalade
import anthropic
# Apertus d'abord, Claude uniquement en cas de faible confiance
def route_prompt(question, context):
# Essaie Apertus 70B en premier
apertus_resp = call_apertus(question, context)
if apertus_resp.confidence >= 0.85:
log_audit('apertus-70b', apertus_resp)
return apertus_resp.answer
# Escalade vers Claude UE avec DPA
client = anthropic.AnthropicVertex(region='europe-west4', project_id=PROJ)
msg = client.messages.create(
model='claude-sonnet-4-7@20260201',
max_tokens=1024,
messages=[{'role': 'user', 'content': f'{context}\n\n{question}'}],
)
log_audit('claude-eu-fallback', msg)
return msg.content[0].text
Caracteristique : la pile suisse pragmatique. Nous resolvons 90 a 95% des prompts avec Apertus, seuls les cas limites intensifs en raisonnement vont a Claude UE avec DPA Vertex EMEA. Les couts de tokens baissent de 70%, la qualite des modeles reste au plus haut niveau.
Matrice de decision : quelle pile pour quel cas d'usage ?
| Cas d'usage | Recommandation | Pourquoi |
|---|---|---|
| Chat service client banque FINMA | Swisscom Sovereign + Apertus 70B | SOC certifiee FINMA, MSA en droit suisse, modele Apache 2.0 |
| Systeme RAG hospitalier pour documents cliniques | Apertus 70B self-heberge + Infomaniak | Controle des donnees equivalent HIPAA/Swissmedic, suisse alemanique |
| Assistant administratif pour citoyens | Apertus 70B + Swisscom ou CSCS | Secteur public → la licence public-benefit d'Apertus convient politiquement |
| Pre-controle de sinistres assurance | Hybride : Apertus 70B + Claude UE | Cas limites intensifs en raisonnement vers Claude, le reste vers Apertus |
| Knowledge mining R&D pharma | Apertus 70B air-gapped on-prem | Obligations de confidentialite, aucun saut externe autorise |
| Chatbot interne PME pour comptabilite | Apertus 8B sur Exoscale GPU | Solution souveraine economique a partir de CHF 480/mois |
| Assistant coding de groupe | Hybride : Apertus 70B + Claude/GPT UE | Le coding est le point faible d'Apertus — l'hybride compense |
| Conseil en ligne multilingue | Apertus 70B (DE/FR/IT/RM) + Vertex Zurich | Multilinguisme incluant romanche et suisse alemanique |
Notre pile par defaut PROMETHEUS pour le mid-market suisse : Apertus 70B comme modele principal sur Swisscom Sovereign AI Platform, Llama 3.3 70B en repli lors de la maintenance Apertus, Claude 4.7 Sonnet via Vertex EMEA comme voie d'escalade pour les cas limites intensifs en raisonnement. Cette combinaison couvre 11 mandats sur 14 en production.
Comparaison des couts : ce que coute reellement Sovereign AI en Suisse
A partir de 14 mandats en production, nous avons extrait le TCO sur 24 mois pour trois paliers de mise a l'echelle. Inclus l'hebergement, l'inference, la maintenance, le pipeline d'evaluation et la conformite :
| Volume | Apertus self-heberge | Swisscom Sovereign | Vertex Zurich | Azure CH GPT-5 | Air-gapped on-prem |
|---|---|---|---|---|---|
| 10 Mio tokens/mois (PME) | CHF 980 | CHF 1'600 | CHF 2'200 | CHF 3'400 | CHF 4'800 |
| 500 Mio tokens/mois (mid-market) | CHF 4'200 | CHF 9'400 | CHF 14'800 | CHF 21'200 | CHF 8'600 |
| 10 Mrd tokens/mois (groupe) | CHF 38'500 | CHF 142'000 | CHF 218'000 | CHF 380'000 | CHF 62'000 |
Trois enseignements :
- Apertus self-host devient imbattable a partir de 200 Mio tokens/mois. Le point mort par rapport a l'API Swisscom se situe vers 180 Mio tokens/mois — a condition qu'un poste de sysadmin GPU (ou notre service gere ARGUS) soit budgete.
- Air-gapped devient economique a partir de 1 Mrd tokens/mois. Avant cela, le CapEx pour des clusters GPU dedies et des centres de donnees Class-Two ne se justifie que si des obligations de confidentialite l'imposent.
- Les regions CH des hyperscalers americains sont 2 a 5 fois plus cheres que les piles souveraines. Vertex Zurich et Azure CH ne se justifient que pour des charges intensives en raisonnement, pour les cas d'usage RAG standard, Apertus est nettement plus economique.
Exemple pratique : banque cantonale suisse de 18'000 collaborateurs
Une grande banque cantonale suisse voulait construire en 2025 un assistant collaborateur pilote par LLM pour les demandes de conformite, d'evaluation de credit et de service client. Le premier pilote avec OpenAI direct a echoue — l'audit FINMA exigeait une separation d'export de donnees, le PFPDT a pose des questions critiques apres son examen nLPD, le CIO cherchait une pile suisse.
Situation initiale
- 18'000 collaborateurs, 240 succursales, 4 regions linguistiques (DE/FR/IT/RM)
- Volume : 280 Mio tokens / mois en premier palier, 1.4 Mrd prevus pour le palier 2
- Exigence : 100% hebergement suisse, SOC certifiee FINMA, conformite EU AI Act haut risque
- Avant : 4 courriers d'audit PFPDT sans reponse, 1 avertissement FINMA, pilote OpenAI gele
Solution mazdek
Nous avons construit une pile Apertus-First sur Swisscom Sovereign AI Platform avec bus d'outils MCP, RAG pgvector sur Cloudscale Postgres et pipeline de conformite ARES :
- Routage de modele (PROMETHEUS) : 70% des demandes vers Apertus 8B (FAQ standard), 25% vers Apertus 70B (recherche de conformite complexe), 5% vers Claude UE via Vertex EMEA (evaluation de credit intensive en raisonnement).
- Hebergement (HEPHAESTUS) : Swisscom Sovereign AI Platform avec pods H100 dedies. Hot-Standby sur CSCS Lugano via tunnel WireGuard.
- RAG (ORACLE) : 14 Mio documents internes dans pgvector sur Cloudscale Suisse, provenance des donnees par chunk, suivi des licences OFEN par source.
- Outils (HERACLES) : serveurs MCP pour le core bancaire Avaloq, l'authentification SwissID, Bexio (clients credit PME), API QR-Bill.
- Conformite (ARES) : Lakera Guard region CH a la peripherie, Llama Guard 3 self-heberge pour PII, archive WORM sur Infomaniak S3-Object-Lock pendant 10 ans.
- Observabilite (ARGUS) : surveillance de derive 24/7, Eval-CI hebdomadaire sur 800 enregistrements gold par langue, pipeline de mise a jour du modele Apertus.
Resultats apres 7 mois d'exploitation en production
| Metrique | Avant (pilote OpenAI) | Apres (pile Apertus) | Delta |
|---|---|---|---|
| Volume d'export de donnees vers les USA | 100% | 0% | -100% |
| Demandes d'audit PFPDT ouvertes | 4 | 0 | -100% |
| Reproches FINMA | 1 | 0 | — |
| Couts de tokens / Mio | CHF 4.20 | CHF 1.40 | -67% |
| Latence d'inference p95 | 1'820 ms | 520 ms | -71% |
| Qualite de reponse (NPS collaborateurs) | 62 | 78 | +26% |
| Couverture multilingue | 3 (DE/EN/FR) | 4 (DE/FR/IT/RM) | +33% |
| Economie annuelle de couts | — | CHF 9.4 Mio | — |
| Payback migration souveraine | — | 5.8 mois | — |
Important : la veritable valeur n'etait pas l'economie de couts, mais le retablissement de la capacite d'action reglementaire. Avant la migration, le CIO de la banque etait depuis quatre mois en discussions d'escalade avec la FINMA et le PFPDT. Apres la migration : une pile suisse certifiee qui resiste a chaque audit sans preparation.
Gouvernance : Sovereign AI selon nLPD, EU AI Act et FINMA
Sovereign AI ne resout pas automatiquement tous les problemes de conformite — elle rend les obligations existantes realisables. Six exigences strictes que nous appliquons dans chaque mandat Sovereign AI mazdek :
- nLPD art. 16 (export de donnees) : chaque inference de modele et chaque calcul d'embedding doit avoir lieu en Suisse ou dans un pays tiers adequat (UE). L'API OpenAI directe sans DPA Azure-UE est disqualifiee. Apertus + Swisscom + Vertex EMEA sont les trois voies sures.
- nLPD art. 22 (analyse d'impact relative a la protection des donnees) : les systemes IA a haut risque exigent une AIPD avant la mise en production. Nous fournissons des modeles issus de 14 mandats en production — structures selon les attentes du PFPDT.
- EU AI Act art. 53 (obligations des fournisseurs GPAI) : quiconque exploite Apertus ou Llama en production assume les obligations de cartes de modele et de cartes de donnees. Apertus fournit les cartes ETH/EPFL d'emblee — pour Llama ou Mistral, vous devez les creer vous-meme.
- EU AI Act art. 14 (controle humain) : les sorties a haut risque (decision de credit, evaluation de sinistre, recommandation medicale) necessitent un seuil Human-in-the-Loop. Nous fixons 0.92 de confiance pour les demandes standard, 0.97 pour les domaines a haut risque.
- FINMA Circ. 2023/1 (risques operationnels) : diversification de modele et strategie de sortie obligatoires. Nous exploitons dans chaque mandat bancaire deux familles de modeles independantes (par ex. Apertus + Llama) — failover en moins de 90 secondes.
- Swissmedic / OFSP (sante) : les sorties IA medicales sont soumises a declaration et eventuellement a autorisation selon l'ODim. Nous integrons NINGIZZIDA comme agent HealthTech pour le mapping FHIR et la conformite ODim.
Plus d'analyse approfondie dans nos guides de conformite : implementation EU AI Act, defense contre la prompt injection et observabilite LLM.
Feuille de route d'implementation : en production en 10 semaines
Phase 1 : Discovery et inventaire de souverainete (semaine 1)
- Atelier : classes de donnees, obligations reglementaires, profil linguistique, exigences de modele
- Audit d'export de donnees : ou les donnees quittent-elles aujourd'hui la Suisse, ou non ?
- Matrice de pile : volume × souverainete des donnees × qualite de modele × budget
Phase 2 : Selection de modele et PoC (semaines 2-3)
- PROMETHEUS teste Apertus 70B vs. Llama 3.3 70B vs. Mistral Large en parallele
- Evaluation sur 500 a 1'200 enregistrements gold par langue, MMLU-DE/FR/IT, benchmarks juridiques et sectoriels
- Decision d'hebergement : Swisscom vs. self-host vs. air-gapped
Phase 3 : Mise en place de l'hebergement souverain (semaines 4-5)
- HEPHAESTUS deploie vLLM/TGI sur Swisscom Sovereign AI Platform ou Exoscale
- Tunnel WireGuard entre la pile principale et le standby
- Integration SwissID/Entra-CH pour l'authentification
Phase 4 : RAG et couche outils (semaines 5-6)
- ORACLE construit pgvector sur Cloudscale Postgres avec provenance des donnees
- HERACLES connecte ERP, CRM, SwissID via serveurs MCP
- Configuration des seuils de confiance par domaine
Phase 5 : Conformite et audit (semaine 7)
- ARES Lakera Guard CH + Llama Guard 3 + archive WORM
- Creation de l'AIPD selon nLPD art. 22
- Pipeline de cartes de modele et de cartes de donnees selon EU AI Act art. 53
Phase 6 : Observabilite et Eval-CI (semaine 8)
- ARGUS surveillance de derive + Eval-CI hebdomadaire
- Tableau de bord des couts de tokens par tenant et modele
- Pipeline de reporting FINMA/PFPDT
Phase 7 : Deploiement et apprentissage (semaines 9-10)
- Mode shadow : le systeme repond, le collaborateur valide
- Supervise : 30% de reponse automatique avec controle humain ponctuel
- Production complete avec revue mensuelle de conformite FINMA
L'avenir : Apertus 2, federation GPU suisse, inference souveraine multi-tenant
Sovereign AI 2026 n'est que le premier saut. Ce qui se profile pour 2027-2028 :
- Apertus 2 (attendu T4 2026) : variante a 200 Mrd parametres avec optimisation native du tool-calling et mode raisonnement similaire a Claude 4.7. Premieres pre-versions pour les partenaires de recherche des aout 2026.
- Federation CSCS : CSCS Lugano, le centre de donnees de Gerolfingen et les clusters GPU prives deviennent une plateforme d'inference souveraine federee — pool de tokens commun, suite d'evaluation commune, pile de conformite commune. mazdek est partenaire pilote.
- Inference souveraine multi-tenant : Confidential Computing (NVIDIA H200 avec mode MIG + AMD SEV-SNP) permet en 2027 plusieurs locataires sur le meme materiel avec isolation cryptographique. Le changement de jeu pour la Sovereign AI des PME suisses.
- Modeles de domaine suisses : Apertus-Med (textes hospitaliers), Apertus-Legal (corpus du Tribunal federal), Apertus-Fin (reglements bancaires) sont en preparation pour 2026-2027. Nous entrainons deja une variante Apertus-Treuhand pour un partenaire mid-market.
- Standard suisse de gouvernance IA : le Conseil federal prevoit pour le T4 2026 sa propre ordonnance IA qui definira des voies conformes a l'EU AI Act. Les piles Sovereign AI seront probablement privilegiees.
- Apertus on Mobile : Apertus 1B (variante Edge) sur Apple Foundation Models / Snapdragon X Elite — IA suisse sans aller-retour cloud. Des pilotes dans les applications mobiles hospitalieres sont en cours.
Conclusion : Sovereign AI est en 2026 une obligation deployable, pas un slogan marketing
- Defaut 2026 : Apertus 70B sur Swisscom Sovereign AI Platform. Modele Apache 2.0, SOC certifiee FINMA, MSA en droit suisse, multilingue avec suisse alemanique — la voie la plus pragmatique pour 80% des mandats mid-market suisses.
- Domaines a haut risque : hybride avec Claude UE. Cas limites intensifs en raisonnement (evaluation de credit, recherche juridique, evaluation de sinistre) via Vertex EMEA avec DPA — le reste sur Apertus.
- Air-gapped : uniquement pour banques Tier-1, pharma, defense. Le CapEx de CHF 380K-580K ne se justifie qu'a partir de 1 Mrd tokens/mois ou avec des obligations de confidentialite strictes.
- Plus en 2026 : API OpenAI directe sans DPA UE. Risque d'audit PFPDT et FINMA trop eleve. Migration vers Apertus, Swisscom ou Azure CH sans alternative.
- La diversification de modele est obligatoire : au moins deux familles de modeles independantes (Apertus + Llama ou Apertus + Mistral) contre le lock-in et les risques FINMA.
- ROI en 4 a 7 mois : 14 mandats Sovereign AI mazdek en production, 5.4 mois de payback en moyenne par rapport aux configurations hyperscalers americains.
- Conformite faisable : nLPD, EU AI Act, FINMA et Swissmedic sont proprement couverts avec les garde-fous ARES, l'archive WORM et les seuils de confiance.
Chez mazdek, 19 agents IA specialises orchestrent l'ensemble du cycle de vie Sovereign AI : PROMETHEUS pour la selection de modele et le routage ; HEPHAESTUS pour l'infrastructure Kubernetes et GPU suisse ; ORACLE pour le RAG, pgvector et la provenance des donnees ; HERACLES pour l'integration ERP, bancaire et SwissID via MCP ; ARES pour la conformite, Lakera, Llama Guard et l'archive WORM ; ARGUS pour l'observabilite 24/7 de derive et de cout ; NABU pour les cartes de modele et de donnees et le reporting PFPDT/FINMA ; NINGIZZIDA pour la conformite FHIR/ODim dans le contexte hospitalier. 14 deploiements Sovereign AI en production depuis la sortie d'Apertus en septembre 2025 — conformes LPD, RGPD, EU AI Act, FINMA et Swissmedic des le premier jour.