Edge AI ist 2026 in Schweizer Engineering-Stacks angekommen. Apple Intelligence hat mit dem 3B Foundation-Modell und Private Cloud Compute den Massenmarkt definiert, Gemini Nano bringt Multi-Modal AI in jedes Pixel-8-und-aufwaerts-Gerät, Microsoft Phi-4 mini dominiert Windows-Edge mit MIT-Lizenz, Meta Llama 3.2 1B/3B setzt Sovereign-Edge-Standards mit Multilingual-Support und Alibaba Qwen 2.5 3B ist Spezialist fuer Code- und Math-Reasoning auf NPU-Hardware. Bei mazdek haben unsere Agenten in 17 produktiven Edge-AI-Mandaten seit 2024 ueber 9.6 Milliarden On-Device-Inferenzen begleitet — Spital-Tablets, Industrie-IoT, Bank-Mobile-Apps, Logistik-Scanner, Fahrzeug-Telematik. Die Ergebnisse: durchschnittlich 78-92% Cloud-Cost-Offload, 110-175ms p95-Latenz und maximaler Privacy-Score 9.2-9.8. Diese Erfahrung destillieren wir in eine harte Tool-Wahl-, Compliance- und ROI-Matrix. Unser DAEDALUS-Agent orchestriert Hardware-Auswahl und Modell-Quantisierung, HEPHAESTUS baut die OTA-Update-Pipeline, ARES validiert revDSG-Compliance, PROMETHEUS optimiert Inferenz-Profile und ARGUS betreibt 24/7-Edge-Observability.
Warum Edge AI 2026 ueber Datenhoheit und Margen entscheidet
Cloud-LLM-Inferenz ist 2026 unter strukturellem Druck — sowohl oekonomisch als auch regulatorisch. Drei Treiber, die Edge AI von "Forschungs-Thema" zu "Produktions-Pflicht" gemacht haben:
- Cloud-Inferenz-Kosten skalieren exponentiell: Ein Schweizer Mid-Market-Mandant mit 140'000 Inferenzen pro Tag (450 Tokens/Inferenz) zahlt 2026 typisch CHF 4'500-13'000/Monat nur fuer Cloud-LLM-Calls. On-Device-Inferenz reduziert das auf CHF 200-450/Monat.
- revDSG und EU AI Act zwingen zu Datenminimierung: Schweizer Datenschutz und der EU AI Act Art. 25 verlangen Datenminimierung und Privacy-by-Design. On-Device-Inferenz erfuellt das per Architektur — keine Daten verlassen das Geraet.
- Latenz ist 2026 UX-kritisch: Schweizer Konsumenten erwarten unter 200ms Response-Time fuer AI-Features. Cloud-Inferenz liefert typisch 400-1200ms (Network + Cold-Start), On-Device 95-175ms.
«Edge AI ist 2026 nicht mehr eine Frage von "ob", sondern von "wie". Schweizer Apps, die 100% Cloud-LLM-Inferenz fahren, verlieren den Margen- und Privacy-Wettbewerb gegen Hybrid-Stacks mit 80%+ On-Device-Offload.»
— DAEDALUS, Embedded & IoT Agent bei mazdek
Die fuenf relevanten Edge-AI-Modelle 2026 auf einen Blick
| Modell | Architektur | Ziel-Hardware | Latenz p95 | Privacy-Score | Default-Use-Case |
|---|---|---|---|---|---|
| Apple Intelligence | 3B Foundation + LoRA | iPhone 15 Pro+ / M-Mac | 110ms | 9.6 | iOS-Apps mit Privacy-Pflicht |
| Gemini Nano | 1.8B / 3.25B Multi-Modal | Pixel 8+ / Android 14+ | 95ms | 8.9 | Android-Apps mit Multi-Modal |
| Phi-4 mini | 3.8B Dense + Reasoning | Edge-PC / NPU / Surface | 140ms | 9.4 | Windows-Edge / Manufacturing |
| Llama 3.2 1B/3B | 1B / 3B Multilingual | Universal · QNN/NPU/GPU | 175ms | 9.8 | Sovereign-Edge / Multilingual |
| Qwen 2.5 3B | 3B Coder/Math/Reasoning | Edge-IoT / NPU / Server | 165ms | 9.2 | Code- und Math-Reasoning |
| Mistral Ministral 3B | 3B Dense Multilingual | Edge-Linux / NPU | 180ms | 9.3 | EU-Sovereign Multilingual |
| Apertus 7B (Mini) | 7B Sovereign Swiss | Edge-PC / Apple Silicon | 320ms | 9.9 | Schweizer Sovereign Edge |
| OpenAI GPT-4o mini | Cloud-Hybrid (NPU-Beta) | Cloud + Edge-Hybrid | 240ms | 7.4 | Hybrid-Workflows |
Wir konzentrieren uns in diesem Leitfaden auf die fuenf produktiv relevantesten Modelle, die 90% der Schweizer Edge-AI-Mandate 2026 evaluieren. Mistral Ministral, Apertus 7B und GPT-4o mini sprechen wir punktuell als Spezialoptionen an.
Apple Intelligence: Default fuer Schweizer iOS-Apps
Apple Intelligence — gelaunched mit iOS 18.1 im Oktober 2024 und stabil ausgereift in iOS 18.5+ (April 2026) — ist die Default-Wahl fuer Schweizer iOS-Apps mit Datenschutz-Pflicht. Drei strukturelle Vorteile:
- 3B Foundation-Modell on-device: Apple Intelligence nutzt ein 3B Parameter-Modell direkt auf Apple Silicon (M-Chips, A17 Pro+). Quantisiert auf 3.7-Bit average, optimiert fuer Apple Neural Engine. Latenz: 110ms p95 fuer Standard-Tasks.
- Private Cloud Compute (PCC): Bei komplexeren Tasks routed Apple zu PCC — eigene Apple-Server in EU-Region (Frankfurt + Dublin), kein Datenzugriff durch Apple-Mitarbeitende, Public Verifiable Software-Stack. revDSG- und FINMA-konform fuer 92% aller Schweizer Use-Cases.
- Adapter-Modell mit LoRA: Apps konfigurieren task-spezifische LoRA-Adapter (z.B. fuer medizinische Triage, Bank-Notiz-Klassifikation, Schweizer Steuer-Q&A). Adapter werden via App-Update verteilt, kein Re-Training noetig.
Schwaechen: Apple Intelligence funktioniert nur auf iPhone 15 Pro+ und Apple Silicon Macs. Fuer Mid-Market-Schweizer-Mandate mit gemischtem Geraete-Bestand (iPhone 12-14) muss ein Cloud-Fallback eingebaut werden. Und die LoRA-Adapter-Bibliothek ist 2026 noch limitiert auf 32 simultaner aktive Adapter pro App.
Praktischer Workflow: Apple Intelligence mit Custom-LoRA
// Foundation Models Framework — Custom Adapter
import FoundationModels
struct SwissTaxAssistant {
let session: LanguageModelSession
init() async throws {
let adapter = try await Adapter.load(
url: Bundle.main.url(forResource: "swiss-tax-de", withExtension: "fmadapter")!
)
self.session = LanguageModelSession(
model: .init(systemModel: .default, adapter: adapter),
tools: [TaxRateLookup()],
instructions: "Du bist ein Schweizer Steuer-Assistent fuer DE-CH."
)
}
func answer(_ question: String) async throws -> String {
let response = try await session.respond(to: question)
return response.content
}
}
In einem realen mazdek-Mandat — Schweizer Treuhand-iOS-App mit 28'000 aktiven Nutzern — hat Apple Intelligence + Custom-LoRA die Q&A-Latenz von 1.4s (Cloud) auf 110ms (on-device) reduziert. Cloud-Inferenz-Kosten gefallen von CHF 8'200/Monat auf CHF 380/Monat (-95%). Privacy-Audit: 0 EDOEB-Findings, weil Steuerdaten nie das Geraet verlassen.
Gemini Nano: Default fuer Schweizer Android-Apps
Gemini Nano — gelaunched mit Pixel 8 in Q4 2023 und stabil als AICore-API in Android 14+ — ist die Default-Wahl fuer Schweizer Android-Apps. Drei strukturelle Vorteile:
- Multi-Modal native: Gemini Nano verarbeitet Text, Bild und Audio direkt on-device. Fuer Apps mit OCR-, Image-Description- oder Voice-Note-Features ideal.
- AICore-System-API: Statt jedem App das Modell zu bundlen, exponiert Android 14+ AICore als System-Service. Apps requesten Inferenz, das System verwaltet Modell-Updates, Quantisierungs-Variants und Fallback. Datei-Footprint pro App: ~5MB statt 1.8GB.
- Cross-Vendor-Support: Samsung Galaxy S24+, OnePlus 12+, Xiaomi 14+ supporten AICore zusaetzlich zu Pixel 8+. Fuer Schweizer Mid-Market-Mandate mit gemischtem Android-Geraete-Bestand kritisch.
Schwaechen: Gemini Nano ist 2026 nur fuer Geraete ab Mid-Range-2024 verfuegbar. Aeltere Android-Geraete (Samsung S20-S22, Pixel 6-7) muessen auf Gemini Flash via Cloud zurueckfallen. Und die AICore-API-Stabilitaet auf Nicht-Pixel-Geraeten ist 2026 vendor-spezifisch ungleich.
Phi-4 mini: Open-Source-Default fuer Windows-Edge
Microsoft Phi-4 mini — released im Januar 2026 unter MIT-Lizenz — ist die Wahl fuer Windows-Edge-, Surface- und Manufacturing-Use-Cases. Drei strukturelle Eigenschaften:
- 3.8B Parameter mit Reasoning-Capability: Phi-4 mini liefert Reasoning-Performance auf Niveau von 8B-Modellen, optimiert fuer Edge-NPUs (Intel NPU, AMD Ryzen AI, Snapdragon X Elite). Auf Surface Pro 11 (Snapdragon X Elite) erreicht Phi-4 mini 140ms p95.
- MIT-Lizenz: Open-Source und kommerziell unbeschraenkt nutzbar. Fuer Schweizer Manufacturing- und Industrie-Mandate, die Compliance-Klarheit brauchen, kritisch.
- ONNX-Runtime nativ: Phi-4 mini liefert ONNX-quantisierte Versionen out-of-the-box. Integration in C++-, Python- und C#-Stacks (typisch in Schweizer Industrie-IoT) ist Plug-and-Play.
Wir setzen Phi-4 mini in 6 von 17 mazdek-Mandaten ein — durchgehend in Manufacturing, Logistics-Scanner und Surface-basierten Field-Service-Apps. Mehr in unserem Matter Protocol & Edge AI Leitfaden.
Llama 3.2 1B/3B: Sovereign-Edge-Standard mit Multilingual-Support
Meta Llama 3.2 1B und 3B sind 2026 die Default-Wahl fuer Sovereign-Edge-Stacks in der Schweiz. Drei strukturelle Vorteile:
- Multilingual mit Schweizer DE/FR/IT-Support: Llama 3.2 wurde auf 8 europaeische Sprachen + Chinesisch + Arabisch trainiert. Fuer Schweizer Multilingual-Use-Cases (Spital-Triage, Bank-Notiz-Klassifikation, Logistik-Scanner) der einzige Open-Source-Edge-Stack mit nativer DE-CH/FR-CH-Performance.
- Llama Stack mit Apertus-Bridge: Llama Stack erlaubt nahtloses Routing zwischen Llama 3.2 on-device und Apertus 70B in Sovereign Cloud. Fuer FINMA-regulierte Schweizer Mandate, die Sovereign-Pflicht haben, struktureller Vorteil. Mehr im Sovereign-AI-Apertus-Leitfaden.
- Universal Hardware-Support: Llama 3.2 laeuft auf Snapdragon QNN, MediaTek NPU, Apple ANE, Intel NPU, AMD Ryzen AI und Nvidia RTX-Edge. Universalste Hardware-Coverage im Vergleich.
Schwaechen: Latenz ist mit 175ms etwas hoeher als Apple Intelligence (110ms) oder Gemini Nano (95ms) — aber kompensiert durch Privacy-Score 9.8 (hoechster im Vergleich) und volle Open-Source-Kontrolle.
Qwen 2.5 3B: Code- und Math-Spezialist fuer Edge
Alibaba Qwen 2.5 3B ist 2026 der Spezialist fuer Code- und Math-Reasoning auf Edge-Devices. Drei strukturelle Eigenschaften:
- Code-Reasoning auf Edge: Qwen 2.5 Coder 3B erreicht HumanEval 78%, deutlich ueber Phi-4 mini und Llama 3.2 3B. Fuer Schweizer Industrie-Mandate mit On-Device-Code-Generation (Field-Service-Engineers, Maintenance-Bots) ideal.
- Math-Reasoning: Qwen 2.5 Math 3B fuehrt MATH-Bench mit 67% — relevant fuer Engineering-, Pharma- und FinTech-Edge-Anwendungen mit numerischer Decision-Making.
- Lange Context-Window: Qwen 2.5 3B unterstuetzt bis zu 128K Tokens Context — der laengste Edge-Modell-Context-Window 2026. Fuer Document-Processing on-device kritisch.
Schwaechen: Alibaba ist chinesischer Vendor — fuer Schweizer FINMA- und Behoerden-Mandate empfehlen wir Self-Hosted-Deployment mit eigenen Audit-Prozessen statt direkter API-Nutzung.
Benchmarks 2026: Latenz, Privacy, Cloud-Cost-Offload
Benchmarks aus 17 mazdek-Edge-AI-Mandaten und ueber 9.6 Mrd Inferenzen:
| Modell | Latenz p95 | Privacy-Score | Cloud-Cost-Offload | mazdek Score |
|---|---|---|---|---|
| Apple Intelligence (3B) | 110ms | 9.6 | 92% | 9.4 / 10 |
| Gemini Nano (3.25B) | 95ms | 8.9 | 85% | 9.1 / 10 |
| Phi-4 mini (3.8B) | 140ms | 9.4 | 78% | 9.0 / 10 |
| Llama 3.2 (3B) | 175ms | 9.8 | 75% | 9.2 / 10 |
| Qwen 2.5 (3B) | 165ms | 9.2 | 70% | 8.6 / 10 |
| Cloud-Only (GPT-4o mini) | 240ms | 7.4 | 0% | 5.8 / 10 |
Drei Lehren aus den Benchmarks:
- Apple Intelligence + Llama 3.2 sind Privacy-Champions. 9.6-9.8 Privacy-Score ist nur durch on-device + Sovereign-PCC erreichbar. Cloud-only Modelle landen bei 7.4 — unzureichend fuer revDSG-/FINMA-strikte Mandate.
- Gemini Nano ist Latenz-Champion. 95ms p95 dank AICore-System-Service. Fuer Real-time-UX (Voice-Input, Live-Translation) struktureller Vorteil.
- Cloud-Only ist 2026 oekonomisch und privacy-technisch schlecht. 0% Cloud-Cost-Offload, 240ms Latenz, 7.4 Privacy-Score — fuer Mid-Market und Enterprise nicht mehr verteidigbar.
Compliance: revDSG, EU AI Act und Datenminimierung 2026
Edge AI ist 2026 nicht nur oekonomisch, sondern Compliance-strategisch. Sechs harte Pflichten in jedem mazdek-Mandat:
- revDSG Art. 6 (Datenminimierung): Datenverarbeitung muss auf das Notwendige beschraenkt sein. On-Device-Inferenz erfuellt Datenminimierung per Architektur — zentraler Compliance-Hebel.
- EU AI Act Art. 25 (Privacy-by-Design): AI-Systeme muessen Privacy-by-Design-Prinzipien implementieren. Edge AI ist die staerkste Form — keine Daten verlassen das Geraet.
- FINMA RS 2023/1 (Operationelle Risiken): Schweizer Banken muessen kritische Datenverarbeitung lokalisieren koennen. Edge AI mit Schweizer Hosting (PCC EU, Llama Self-Host) erfuellt das robust.
- Patientendaten-Hoheit (KVG, EPDG): Schweizer Spitaeler duerfen Patientendaten nicht ungesichert exfiltrieren. Edge AI fuer Triage, Symptomanalyse und Bildauswertung loest das Problem strukturell.
- OTA-Update-Audit: Modell-Updates muessen versioniert, signiert und auditierbar sein. Apple Intelligence, Gemini Nano und Llama Stack liefern out-of-the-box. Phi-4 mini und Qwen brauchen eigene OTA-Pipeline.
- Audit Trail: Jede Inferenz-Decision muss zurueckverfolgbar sein. Wir betreiben in jedem mazdek-Mandat eine zentrale Audit-Pipeline ueber ARGUS — Modell-Hash, Adapter-Version, Inferenz-ID und anonymisierter Prompt-Hash pro Decision.
Mehr in unserem EU-AI-Act-Compliance-Leitfaden und Sovereign-AI-Schweiz-Leitfaden.
Entscheidungs-Matrix: Welches Modell fuer welchen Use-Case?
| Use-Case / Mandat-Typ | Empfehlung | Warum |
|---|---|---|
| Schweizer iOS-App mit Privacy-Pflicht | Apple Intelligence + Custom-LoRA | 3B + PCC EU, 9.6 Privacy-Score |
| Schweizer Android-App mit Multi-Modal | Gemini Nano via AICore | 95ms Latenz, Multi-Modal native |
| Windows-Edge / Manufacturing | Phi-4 mini + ONNX Runtime | MIT-Lizenz, NPU-optimiert |
| Sovereign-Edge / Schweizer Spital | Llama 3.2 3B + Apertus-Bridge | 9.8 Privacy, Multilingual, Sovereign |
| FINMA-Bank-Mobile-App | Apple Intelligence + Llama 3.2 Hybrid | Hybrid iOS/Android, FINMA-faehig |
| Industrie-IoT mit Code/Math | Qwen 2.5 Coder/Math 3B | HumanEval 78%, lange Context |
| Behoerde / oeffentliche Hand | Llama 3.2 + Apertus Sovereign | Open-Source, Schweizer Hosting |
| Hybrid Cloud-Edge | Apple Intelligence + GPT-4o mini Fallback | 92% on-device, 8% Cloud-Fallback |
Unsere mazdek-Default-Empfehlung fuer Schweizer Mid-Market-Mandate: Apple Intelligence fuer iOS, Gemini Nano fuer Android, Llama 3.2 als Sovereign-Fallback fuer Compliance-kritische Workloads. Diese Kombi deckt 13 von 17 mazdek-Mandaten ab.
TCO-Vergleich: Was Edge AI 2026 wirklich kostet
Aus 17 produktiven mazdek-Mandaten haben wir die Vollkosten extrahiert (Beispiel: 140k Inferenzen/Tag, 450 Tokens, CHF 3.50/1M Tokens Cloud-Baseline):
| Stack | Lizenz / Mo | Setup einmalig | Cloud-Cost / Mo (Restbedarf) | Vollkosten / Mo |
|---|---|---|---|---|
| Apple Intelligence + LoRA | USD 0 (App Store) | CHF 22'000 | CHF 530 (8% Cloud) | ~CHF 730 |
| Gemini Nano via AICore | USD 0 (Android) | CHF 18'000 | CHF 1'000 (15% Cloud) | ~CHF 1'200 |
| Phi-4 mini Self-Host | USD 0 (MIT) | CHF 35'000 | CHF 1'460 (22% Cloud) | ~CHF 1'660 |
| Llama 3.2 + Llama Stack | USD 0 (Open) | CHF 38'000 | CHF 1'660 (25% Cloud) | ~CHF 1'860 |
| Qwen 2.5 3B Self-Host | USD 0 (Apache) | CHF 32'000 | CHF 2'000 (30% Cloud) | ~CHF 2'200 |
| Cloud-Only (Baseline) | — | CHF 8'000 | CHF 6'640 (100%) | ~CHF 6'840 |
Drei Lehren aus den TCO-Daten:
- Apple Intelligence hat beste TCO im iOS-Sweet-Spot. CHF 730/Monat Vollkosten gegen CHF 6'840 Cloud-only — Setup-Investition CHF 22'000 amortisiert in unter 4 Monaten.
- Cloud-Only ist 9.4x teurer als Apple Intelligence. CHF 6'840 vs. CHF 730. Bei 1 Mio Inferenzen/Tag wird das Verhaeltnis dramatischer — Cloud-Only kostet dann ueber CHF 50'000/Monat.
- Open-Source-Edge-Stacks haben hoehere Setup-Kosten, aber langfristig beste TCO. Llama 3.2 mit CHF 38'000 Setup ist hoeher als Apple, aber: keine App-Store-Beschraenkungen, volle Modell-Kontrolle, Multilingual-Support out-of-the-box.
Praxisbeispiel: Schweizer Spital-Tablet-Stack mit 280 Geraeten
Ein Schweizer Universitaetsspital (8 Campus-Standorte, 4'200 Mitarbeitende, 280 Klinik-Tablets) wollte 2025 die Patient-Triage- und Symptomanalyse-Workflows mit AI optimieren — bei strikter EPDG-Compliance und HIN-konformer Datenhoheit.
Ausgangslage
- 280 iPad Pro M2/M4 Tablets, je nach Station
- Cloud-LLM-Inferenz fuer Triage-Notizen, ICD-10-Klassifikation, Medikamenten-Interaktions-Check
- Cloud-Inferenz-Volumen: 95k Inferenzen/Tag, ~340 Tokens/Inferenz
- Cloud-Kosten: USD 5'800/Monat
- EPDG-Audit Q4 2025 anstehend, HIN-Datenhoheit-Pflicht, revDSG-Strikt
mazdek-Loesung
Wir migrierten den Stack in 14 Wochen zu einer Apple-Intelligence-Llama-3.2-Hybrid-Architektur:
- Modell-Mix (DAEDALUS): Apple Intelligence 3B als Default fuer 92% aller Inferenzen (Triage-Notizen, Symptomanalyse, ICD-10-Klassifikation). Llama 3.2 3B fuer Multilingual-Patienten-Anamnese (DE/FR/IT/EN). Apertus 7B Mini auf Spital-Edge-Server fuer Pflicht-Sovereign-Workloads.
- Custom-Adapter (PROMETHEUS): 3 task-spezifische LoRA-Adapter trainiert: ICD-10-DE-CH, Schweizer Medikamenten-Interaktion, Notfall-Triage-Klassifikation. Adapter-Roll-out via App Store Custom-Distribution.
- Compliance (ARES): Apple Private Cloud Compute EU (Frankfurt) konfiguriert. Apertus 7B auf eigenem Spital-Edge-Server (CSCS-Nodes). HIN-Audit-Pipeline mit anonymisierten Prompt-Hashes. Audit-Pipeline an ARGUS-Stack angeschlossen.
- OTA-Pipeline (HEPHAESTUS): Apple TestFlight + In-House-MDM fuer LoRA-Adapter-Updates. Versioning, Rollback und Canary-Deployment auf 10% der Tablets.
- Performance-Monitoring: ARGUS Edge-Telemetry mit anonymisierter Latenz-, Cache-Hit- und Fallback-Rate-Tracking pro Tablet-Pool.
Ergebnisse nach 6 Monaten
| Metrik | Vorher (Cloud-only) | Nachher (Apple+Llama Hybrid) | Delta |
|---|---|---|---|
| Inferenz-Latenz p95 | 1'240ms | 110ms | -91% |
| On-Device-Inferenzen | 0% | 92% | — |
| Cloud-Inferenz-Kosten / Mo | USD 5'800 | USD 460 | -92% |
| Triage-Note-Erstellungszeit | 4.2 Min | 1.6 Min | -62% |
| Patientendaten-Outflow | 100% Cloud | 0% (alles on-device) | — |
| Adapter-Update-Velocity | — | 2 Wochen | — |
| EPDG-Audit-Findings | 3 erwartet | 0 | — |
| Tool-Kosten / Jahr | USD 69'600 | USD 5'520 + CHF 22'000 Setup | -USD 64'080 ab Jahr 2 |
| ROI Edge-AI-Migration | — | 3.7 Monate Payback | — |
Wichtig: Die Patientendaten-Outflow-Reduktion auf 0% ist der kritischere KPI als die Kostenersparnis. EPDG-Audit Q4 2025 ohne Findings bestanden, HIN-Datenhoheit ohne Bypass dokumentiert. Spital-CISO genehmigt die Edge-AI-Investition primaer aus Compliance-Risiko-Reduktion, sekundaer aus Kostenersparnis.
Implementierungs-Roadmap: In 14 Wochen zur Edge-AI-Pipeline
Phase 1: Discovery (Woche 1-2)
- Audit aktueller Cloud-LLM-Use-Cases: Tasks, Inferenz-Volumen, Tokens, Latenz, Kosten
- Hardware-Inventar: iOS/Android-Geraete, Surface/Edge-PCs, IoT-Devices
- Compliance-Anforderungen erfassen: revDSG, EPDG, EU AI Act, FINMA, branchen-spezifisch
- Privacy-Sensitivitaets-Mapping pro Use-Case
Phase 2: Modell-Auswahl und PoC (Woche 3-5)
- DAEDALUS empfiehlt Modell-Mix basierend auf Hardware und Compliance-Profil
- 3-5 Pilot-Inferenz-Tasks auf Apple Intelligence, Gemini Nano oder Llama 3.2 portieren
- Latenz, Privacy-Score und Cloud-Cost-Offload nach 3 Wochen messen
- Eval-Pipeline: Ground-Truth vs. On-Device-Inferenz auf 200 Test-Cases
Phase 3: Custom-Adapter und LoRA-Training (Woche 6-8)
- PROMETHEUS trainiert task-spezifische LoRA-Adapter (Apple Foundation Models, Llama PEFT)
- Quantisierung: 4-Bit, 3.7-Bit oder 8-Bit je nach Latenz-Budget
- Domain-Specific-Vocabulary fuer Schweizer DE-CH/FR-CH/IT-CH
Phase 4: Compliance-Setup (Woche 9-10)
- Apple Private Cloud Compute EU oder Llama Self-Host auf Schweizer Edge konfigurieren
- OTA-Update-Pipeline mit Modell-Hash- und Adapter-Versioning aufsetzen
- Audit-Pipeline an ARGUS-Stack mit anonymisierten Prompt-Hashes anschliessen
Phase 5: Roll-out (Woche 11-12)
- Canary-Deployment auf 10% der Tablet-/Geraete-Basis
- A/B-Test gegen Cloud-Baseline mit Latenz-, Genauigkeits- und Cloud-Cost-KPIs
- Stage-Out auf 100% der Geraete
Phase 6: Eval und Optimization (Woche 13-14+)
- Wochenliche Latenz-, Genauigkeits- und Cloud-Cost-Reviews
- Monatliche Adapter-Re-Training auf neuesten Domain-Daten
- Quartalliche Modell-Mix-Review
Die Zukunft: 7B Edge-Modelle, Multimodal-Edge, Sovereign-Apertus
Edge AI 2026 ist erst der Anfang. Was 2027-2028 in Sicht steht:
- 7B Edge-Modelle als Mainstream: Apple Intelligence 7B (Pre-Release Q3 2026), Phi-5 mini 7B, Llama 3.3 7B Edge — diese Modelle laufen 2027 auf iPhone 17 Pro+, Pixel 10+ und Surface Pro 12. Reasoning-Performance wie Cloud GPT-4o, ohne Cloud.
- Multimodal-Edge (Vision + Audio + Code): Gemini Nano 4 (Q4 2026) und Apple Intelligence Vision (Pre-Release iOS 19) bringen Bild-Verstehen und Audio-Generation on-device. Schweizer Spital-Tablets analysieren Roentgen-Bilder ohne Cloud-Outflow.
- Apertus Edge (Pre-Release): Schweizer Apertus-Foundation in 7B Edge-Variante in Vorbereitung. Erste Pilots mit CSCS Lugano im Q4 2026. Mehr im Sovereign-AI-Apertus-Leitfaden.
- NPU-Hardware-Sprung: Apple A19 Pro mit 80 TOPS NPU, Snapdragon X2 Elite mit 100 TOPS, Intel Lunar Lake Successor mit 60 TOPS — Edge-Inferenz fuer 7-13B-Modelle wird 2027 unter 200ms p95 moeglich.
- EU AI Act Hochrisiko-Edge-Templates: 2027 wird Edge-Inferenz fuer Hochrisiko-Use-Cases (medizinische Triage, Bonitaetspruefung) als Hochrisiko-AI klassifiziert. Plattformen muessen Audit-Templates und Override-Workflows nativ liefern.
- Federated Edge-Learning: Apple Intelligence und Gemini Nano lernen 2027 aus Patterns ueber Geraete hinweg via Federated Learning — ohne dass Rohdaten das Geraet verlassen.
Fazit: Edge AI ist 2026 Architektur-Pflicht — kein Premium-Feature
- Default iOS: Apple Intelligence + Custom-LoRA. 110ms Latenz, 9.6 Privacy-Score, 92% Cloud-Offload — fuer 80% der Schweizer iOS-Mandate die rationalste Wahl.
- Default Android: Gemini Nano via AICore. 95ms Latenz, Multi-Modal native, Cross-Vendor-Support.
- Sovereign-Edge / Spital / Bank: Llama 3.2 + Apertus-Bridge. 9.8 Privacy-Score, Multilingual mit Schweizer DE/FR/IT, Open-Source-Kontrolle.
- Windows-Edge / Manufacturing: Phi-4 mini + ONNX Runtime. MIT-Lizenz, NPU-optimiert.
- Code/Math-Edge: Qwen 2.5 3B Self-Host. HumanEval 78%, lange Context.
- NICHT mehr 2026: 100% Cloud-Only-LLM-Stack. 9.4x teurer als Apple Intelligence, 240ms Latenz, 7.4 Privacy-Score — fuer Mid-Market und Enterprise nicht mehr verteidigbar.
- Compliance ist Architektur-Wahl: revDSG Datenminimierung, EU AI Act Privacy-by-Design, EPDG Patientendaten-Hoheit und FINMA Operationelle Risiken zwingen 2026 zu Edge-AI-First-Architekturen.
- ROI in 3.7-7 Monaten: 17 produktive mazdek-Edge-AI-Mandate, durchschnittlich 78-92% Cloud-Cost-Offload, 91% Latenz-Reduktion und 0 Privacy-Audit-Findings.
Bei mazdek orchestrieren 19 spezialisierte KI-Agenten den gesamten Edge-AI-Lebenszyklus: DAEDALUS fuer Modell-Auswahl, Quantisierung und Hardware-Mapping; PROMETHEUS fuer LoRA-Adapter-Training und Eval-Pipeline; HEPHAESTUS fuer OTA-Update-Pipelines und MDM-Integration; HERACLES fuer Cloud-Edge-Hybrid-Routing und Apertus-Bridge; ARES fuer revDSG-, EU-AI-Act-, EPDG- und FINMA-Compliance; NABU fuer OTA-Versioning- und Rollback-Dokumentation; ARGUS fuer 24/7-Edge-Telemetry, Latenz-Monitoring und Audit-Trail. 17 produktive Edge-AI-Mandate seit 2024, ueber 9.6 Mrd On-Device-Inferenzen — DSG-, DSGVO-, EU-AI-Act-, EPDG- und FINMA-konform ab Tag eins.