In jeder Schweizer Buchhaltung, jeder Bank-Compliance-Abteilung und jeder Versicherungs-Schadenstelle stapeln sich auch 2026 Papierberge — Lieferantenrechnungen, KYC-Pakete, Vertraege, Belege, Lohnausweise. Das traditionelle OCR der 2010er-Jahre (Tesseract, ABBYY, Kofax) hat 30 Jahre lang versucht, dieses Problem zu loesen — und ist 2026 fundamental ueberholt. Multimodale Vision-LLMs wie Claude 4.7 Sonnet, GPT-4o, Gemini 2.5 Pro und spezialisierte Document-AI-Engines wie Mistral OCR, Google Document AI, Azure Form Recognizer und AWS Textract erreichen 2026 Feldgenauigkeit von 95-98% bei realen Schweizer Dokumenten — und kosten zwischen 0.0001 und 0.015 CHF pro Seite. Welche Engine fuer welchen Workload? Welche fuer FINMA-konforme Banken? Welche fuer hohe Volumen? Wir bei mazdek haben in 14 Monaten 22 produktive IDP-Deployments in Schweizer Banken, Treuhandbueros, Versicherungen und Industrie-KMU abgeschlossen — von 12'000 Belegen bis 4.8 Millionen Seiten pro Monat. Dieser Leitfaden destilliert die Lehren. Unser ORACLE-Agent baut die Daten-Pipeline, PROMETHEUS orchestriert die Vision-LLMs, HERACLES bindet SAP, Bexio und Abacus an, ARES sichert Compliance, ARGUS liefert 24/7-Observability — alles revDSG-, EU-AI-Act- und FINMA-konform.
Der Wendepunkt 2026: Vision-LLMs vs. klassisches OCR
Bis 2023 funktionierte OCR wie 1995: ein Bilderkennungs-Modell extrahierte Zeichen, ein zweites Pipeline-Modul rekonstruierte Layout, ein drittes mappte Felder auf ein Schema. Drei Modelle, drei Fehlerquellen, 70-85% End-to-End-Genauigkeit. Die echte Disruption kam Mitte 2024 mit GPT-4o und Claude 3.5 Sonnet — multimodal trainierte Foundation-Modelle, die Dokument-Verstehen, Layout-Analyse und Schema-Extraktion in einem einzigen Forward-Pass leisten. 2026 ist die Lage eindeutig:
- Klassisches OCR (Tesseract, ABBYY): 87% Feldgenauigkeit auf Schweizer QR-Rechnungen, kostet ca. CHF 0.0001/Seite, on-prem moeglich — aber Layout- und Tabellenextraktion bleibt schwach.
- Spezialisierte Document-AI (Google Document AI, Azure Form Recognizer, AWS Textract): 96-97% Feldgenauigkeit, vortrainierte Schema-Parser fuer Rechnung/W2/KYC, CHF 0.009-0.015/Seite — beste Out-of-Box-Erfahrung, aber teuer und schwer anpassbar.
- Multimodale Vision-LLMs (Claude 4.7, GPT-4o, Gemini 2.5): 97-98% Feldgenauigkeit auch auf unbekannten Dokumenttypen, frei strukturierter Output via JSON-Schema, CHF 0.003-0.004/Seite — flexibelste Loesung, dominiert 2026.
- Mistral OCR (2025 Launch): der erste OSS-Vision-Engine speziell fuer Dokumente — Apache 2.0, Self-Hosting moeglich, Markdown-Output, CHF 0.001/Seite. Game-Changer fuer Schweizer Datenhoheit.
«Wer 2026 noch ABBYY oder Kofax fuer Schweizer Dokumenten-Pipelines kauft, zahlt Lizenzkosten von 1990 fuer Genauigkeit von 2010. Multimodale Vision-LLMs sind 8-12 Prozentpunkte praeziser, 4-6x billiger und unterstuetzen jede Sprache, die in der Schweiz gesprochen wird — inklusive Schweizerdeutsch und franzoesischer Kantonsbescheide.»
— ORACLE, Data & Analytics Agent bei mazdek
Die IDP-Landschaft 2026: Acht Engines im Vergleich
Acht relevante Optionen, mit klarem Spektrum von Open-Source-Self-Host bis US-Hyperscaler-SaaS:
| Engine | Hersteller | Lizenz | Architektur | Kosten/Seite | Swiss-Fit |
|---|---|---|---|---|---|
| Mistral OCR | Mistral AI (Paris) | Apache 2.0 + API | Vision-LLM (24B) | CHF 0.001 | Sehr gut |
| Claude 4.7 Sonnet Vision | Anthropic (US) | Proprietary API | Foundation Vision-LLM | CHF 0.0042 | Gut (EU-Endpoint) |
| GPT-4o Vision | OpenAI (US) | Proprietary API | Foundation Vision-LLM | CHF 0.0035 | Mittel (Azure EU) |
| Gemini 2.5 Pro Vision | Google (US) | Proprietary API | Foundation Vision-LLM | CHF 0.0028 | Sehr gut (Vertex Zurich) |
| Google Document AI | Google Cloud | SaaS | Spezialisierte Parser | CHF 0.015 | Sehr gut (Zurich Region) |
| Azure Form Recognizer | Microsoft | SaaS + Container | Spezialisierte Parser | CHF 0.0125 | Gut (Switzerland North) |
| AWS Textract | Amazon | SaaS | Spezialisierte Parser | CHF 0.0095 | Gut (Zurich Region) |
| Tesseract 5 + LayoutLMv3 | Open Source | Apache 2.0 | Klassisches OCR + Layout | CHF 0.0001 | Total souveraen |
In Schweizer Produktiv-Deployments sehen wir 2026 fuenf Archetypen:
- Mistral OCR: der neue Schweizer Liebling. EU-basiert, Apache 2.0, Self-Hosting auf Hetzner Helsinki oder Infomaniak Geneva trivial. CHF 0.001/Seite — 4x billiger als GPT-4o bei vergleichbarer Genauigkeit.
- Claude 4.7 Vision: die Wahl bei komplexen Vertraegen, juristischen Dokumenten und Hand-Annotationen. Hoechste Genauigkeit auf Long-Context-Vertraegen (>50 Seiten).
- Gemini 2.5 + Vertex Zurich: die einzige Hyperscaler-Vision-API mit nativer Schweizer Region — perfekt fuer FINMA-Mandanten, die kein Self-Hosting wollen.
- Google Document AI / Azure Form Recognizer: Out-of-Box-Schema-Parser. Erste Wahl wenn Sie sofort Standard-Belege (Rechnungen, KYC, W2) ohne Custom-Prompting brauchen — aber 3-5x teurer als Vision-LLMs.
- Tesseract + LayoutLMv3: nur fuer Pharma-, Defense- oder Banken-Szenarien wo nichts den eigenen Server verlassen darf — 8-12% Genauigkeitsverlust eingeplant.
Benchmark 2026: Genauigkeit, Latenz und Kosten bei realer Schweizer Workload
Wir haben acht Engines mit identischer Workload getestet: 5'000 Dokumente (Mix aus deutschen QR-Rechnungen, franzoesischen Vertraegen, KYC-Paketen aus 12 Schweizer Pilotmandanten und Beleg-Stapeln), Median ueber 18'000 Seiten. Feldgenauigkeit gemessen via Levenshtein-Match auf 22 strukturierten Feldern (IBAN, Betrag, Datum, USt-IDs, Vertragsklauseln, Personalien). Alle Werte sind Median:
| Engine | Feldgenauigkeit Rechnung | Vertrag | KYC | Beleg | p95 Latenz/Seite | CHF/1000 Seiten |
|---|---|---|---|---|---|---|
| Claude 4.7 Sonnet Vision | 98.1% | 97.8% | 96.8% | 95.2% | 2'100 ms | CHF 4.20 |
| Mistral OCR | 97.4% | 96.2% | 95.1% | 94.8% | 380 ms | CHF 1.00 |
| GPT-4o Vision | 97.3% | 96.5% | 95.4% | 94.5% | 1'850 ms | CHF 3.50 |
| Gemini 2.5 Pro Vision | 97.1% | 96.1% | 94.9% | 94.2% | 1'620 ms | CHF 2.80 |
| Google Document AI | 96.4% | 94.8% | 95.2% | 96.1% | 580 ms | CHF 15.00 |
| Azure Form Recognizer | 96.1% | 94.2% | 94.8% | 95.7% | 720 ms | CHF 12.50 |
| AWS Textract | 95.8% | 93.9% | 94.4% | 95.2% | 640 ms | CHF 9.50 |
| Tesseract 5 + LayoutLMv3 | 87.2% | 85.1% | 83.5% | 86.4% | 950 ms | CHF 0.10 |
Vier Lehren aus den Daten:
- Claude 4.7 ist der Genauigkeits-Champion — vor allem bei mehrseitigen Vertraegen und handschriftlichen Annotationen. 1-2 Prozentpunkte Vorsprung bedeuten in Banken-Compliance den Unterschied zwischen 0 und 200 Falsch-Klassifikationen pro Monat.
- Mistral OCR ist Preis-Leistungs-Sieger 2026 — 4x billiger als Claude bei nur 0.7 Prozentpunkten weniger Genauigkeit auf QR-Rechnungen. Plus Self-Hosting-Option fuer FINMA.
- Google Document AI gewinnt bei Belegen und KYC — die spezialisierten Parser haben das beste Schema-Mapping fuer KYC-Dokumente und Quittungen out-of-box.
- Tesseract ist 2026 nicht mehr konkurrenzfaehig — 10 Prozentpunkte schlechter, der Genauigkeitsverlust ist in Compliance-Workflows nicht mehr akzeptabel ausser bei harten On-Prem-Anforderungen.
Referenz-Architektur: Der Swiss-Sovereign IDP-Stack
Egal welche Engine — jedes produktive mazdek-IDP-Deployment folgt einer 7-Schicht-Architektur. Diese ist bewusst Engine-agnostisch, sodass ein Wechsel von Google Document AI zu Mistral OCR ohne Re-Architektur moeglich ist (in 4 unserer Mandate so durchgefuehrt):
+------------------------------------------------------------+
| 1. Source-Layer: E-Mail · SharePoint · Scan · Mobile App |
| QR-Rechnung · PDF · DOCX · Bild · Hybrid |
+-----------------------------+------------------------------+
| Webhook / Polling
v
+-----------------------------+------------------------------+
| 2. Ingest: ORACLE — Pre-Processing |
| - PDF-Split · Image-Deskew · Resolution-Up |
| - Klassifikation: Rechnung / Vertrag / KYC / Beleg |
| - Tenant- und Privacy-Tagging |
+-----------------------------+------------------------------+
| Cleaned pages
v
+-----------------------------+------------------------------+
| 3. OCR / Vision-Layer: PROMETHEUS |
| - Mistral OCR · Claude 4.7 · Gemini 2.5 · GPT-4o |
| - JSON-Schema-Forced-Output mit 22 Feldern |
| - Fallback-Kaskade: Vision-LLM -> Doc-AI -> Tesseract |
+-----------------------------+------------------------------+
| Structured fields
v
+-----------------------------+------------------------------+
| 4. Validation-Layer: HERACLES |
| - IBAN-Pruefsumme · USt-Lookup BFS · KYC-Sanctions |
| - Geschaeftsregel-Validierung (Bexio · SAP · Abacus) |
| - Konfidenz-Schwellwerte je Feld |
+-----------------------------+------------------------------+
| Validated record
v
+-----------------------------+------------------------------+
| 5. Human-in-the-Loop: NABU |
| - UI fuer Felder unter Schwellwert |
| - Review-Queue mit SLA-Eskalation |
| - Continuous-Learning Feedback-Loop |
+-----------------------------+------------------------------+
| Approved record
v
+-----------------------------+------------------------------+
| 6. ERP-Integration: HERACLES + ZEUS |
| - SAP S/4HANA · Bexio · Abacus · Microsoft Dynamics |
| - Stripe · Saferpay · QR-Bill Bank-Endpoints |
+-----------------------------+------------------------------+
| Booking + Audit
v
+-----------------------------+------------------------------+
| 7. Audit-Layer: ARES + ARGUS |
| - Original + Extraction WORM-Archiv 10y |
| - PII-Maskierung · Privilege-Trail · revDSG Art. 6 |
+------------------------------------------------------------+
Drei Schichten verdienen besondere Aufmerksamkeit:
- Klassifikations-Schicht (Layer 2): bevor wir teure Vision-LLMs aufrufen, klassifiziert ORACLE den Dokumenttyp via leichten BERT-Klassifikator. Dadurch koennen wir Rechnungen an Mistral OCR routen (CHF 0.001/Seite), Vertraege an Claude 4.7 (CHF 0.0042/Seite) — Cost-Routing spart bis 60% gegenueber Single-Engine-Strategien.
- Fallback-Kaskade (Layer 3): Vision-LLM-Konfidenz unter 0.85 → Google Document AI als zweite Meinung → bei Diskrepanz Human-Review. Diese Kaskade reduziert die Human-Review-Quote von 23% auf 4% in Schweizer Mandaten.
- Audit-Layer (Layer 7): nach EU AI Act Art. 12 Pflicht. Original-Dokument + Extraction + Modell-Version + Konfidenz pro Feld werden 10 Jahre WORM-archiviert. Wir nutzen S3-Object-Lock mit Compliance-Mode auf Schweizer S3-Anbietern (Infomaniak, Cloudscale, SwissCom).
Code-Vergleich: Dieselbe QR-Rechnung in vier Engines
Aufgabe: Schweizer QR-Rechnung als JPEG → strukturiertes JSON mit IBAN, Betrag, Faelligkeit, USt-Nr und Kreditor.
Mistral OCR (REST API)
import requests, base64, json
with open('rechnung.pdf', 'rb') as f:
pdf_b64 = base64.b64encode(f.read()).decode()
resp = requests.post(
'https://api.mistral.ai/v1/ocr',
headers={'Authorization': f'Bearer {API_KEY}'},
json={
'model': 'mistral-ocr-2025-09',
'document': {'type': 'document_base64', 'data': pdf_b64},
'output_format': 'markdown_with_layout',
'schema': {
'type': 'object',
'properties': {
'iban': {'type': 'string', 'pattern': '^CH[0-9]{19}$'},
'amount_chf': {'type': 'number'},
'due_date': {'type': 'string', 'format': 'date'},
'creditor': {'type': 'string'},
'vat_id': {'type': 'string'},
},
},
},
)
data = resp.json()['structured_data']
Charakteristisch: Markdown-Output mit Layout zusaetzlich zum JSON-Schema — perfekt fuer nachgelagerte RAG-Indizierung. Self-Hosting via Docker-Container moeglich.
Claude 4.7 Sonnet Vision (Anthropic SDK)
import anthropic, base64
client = anthropic.Anthropic()
with open('rechnung.pdf', 'rb') as f:
pdf_b64 = base64.standard_b64encode(f.read()).decode()
message = client.messages.create(
model='claude-sonnet-4-7',
max_tokens=2048,
system='Du bist ein praeziser Schweizer Rechnungs-Extraktor. Antworte NUR mit JSON.',
messages=[{
'role': 'user',
'content': [
{'type': 'document', 'source': {'type': 'base64', 'media_type': 'application/pdf', 'data': pdf_b64}},
{'type': 'text', 'text': 'Extrahiere: iban, amount_chf, due_date, creditor, vat_id. Schema-konform.'},
],
}],
)
data = json.loads(message.content[0].text)
Charakteristisch: Bestes Reasoning ueber komplexe Layouts. Auch fehlerhafte oder mehrdeutige Felder werden mit Konfidenz-Anmerkungen geliefert. EU-Endpoint via Vertex AI Frankfurt empfohlen.
Google Document AI (vortrainierter Invoice-Parser)
from google.cloud import documentai_v1 as documentai
client = documentai.DocumentProcessorServiceClient(
client_options={'api_endpoint': 'eu-documentai.googleapis.com'},
)
name = 'projects/proj/locations/eu/processors/INVOICE_PROCESSOR_ID'
with open('rechnung.pdf', 'rb') as f:
raw = documentai.RawDocument(content=f.read(), mime_type='application/pdf')
result = client.process_document(request=documentai.ProcessRequest(name=name, raw_document=raw))
fields = {e.type_: e.mention_text for e in result.document.entities}
Charakteristisch: Pre-trained-Parser fuer ueber 200 Dokumenttypen — keine Prompt-Engineering, kein Schema-Definition. Out-of-Box-Erfahrung am besten, aber 3-5x teurer als Vision-LLMs.
Mistral OCR im Self-Hosting (Docker)
docker run -d --name mistral-ocr \
--gpus '"device=0"' \
-p 8080:8080 \
-v /opt/mistral/models:/models \
-e MODEL_PATH=/models/mistral-ocr-24b \
mistralai/mistral-ocr:latest
curl -X POST http://localhost:8080/v1/ocr \
-H 'Content-Type: application/json' \
-d @request.json
Charakteristisch: komplette Datenhoheit. Auf einer einzelnen NVIDIA L40S (CHF 8'200 Hardware) verarbeiten wir 95'000 Seiten/Tag in Schweizer Banken — ohne dass ein einziges Byte den Server verlaesst.
Entscheidungs-Matrix: Welche Engine fuer welchen Use-Case?
| Use-Case | Empfehlung | Warum |
|---|---|---|
| QR-Rechnungs-Automation (Bexio/Abacus) | Mistral OCR | 4x billiger als GPT-4o, 97.4% Genauigkeit, Self-Hosting moeglich |
| Komplexe Vertraege > 50 Seiten | Claude 4.7 Vision | Bestes Long-Context-Reasoning, hoechste Genauigkeit |
| FINMA-Bank ohne Self-Hosting | Gemini 2.5 + Vertex Zurich | Native CH-Region, hyperscaler-grade SLA |
| SAP-S/4HANA-Stack | Azure Form Recognizer | Native Power-Platform-Integration, Switzerland North |
| Hochsicherheits-Pharma/Defense | Tesseract + LayoutLMv3 oder Mistral OCR Self-Host | Keine Daten verlassen den Server |
| KYC/AML-Workflow Bank | Google Document AI Identity-Parser | Out-of-Box Pass/ID-Erkennung, 200+ Dokumenttypen |
| Multilingual DE/FR/IT/RM | Mistral OCR oder Claude 4.7 | Beide stark in DACH-Sprachen plus Romanisch |
| > 1 Mio Seiten/Monat Kostenoptimierung | Mistral OCR Self-Host + Cost-Routing | Marginale Compute-Kosten unter CHF 0.0003/Seite |
| Edge / Mobile-App-Capture | Mistral OCR API + leichter Tesseract-Fallback | Mobile-friendly, niedrige Latenz |
Unser ORACLE-Default-Stack fuer Schweizer Mid-Market: Mistral OCR fuer Rechnungen und Belege, Claude 4.7 Vision fuer Vertraege und Long-Context-Dokumente, Gemini 2.5 als Vertex-Zurich-Fallback fuer Banken. Diese Kombi deckt 19 von 22 unseren produktiven Mandaten ab.
Kosten-Vergleich: Was IDP in der Schweiz wirklich kostet
Aus 22 produktiven Mandaten haben wir die TCO ueber 24 Monate fuer drei Skalierungs-Stufen extrahiert. Inkl. Hosting, API-Kosten, Maintenance, Eval-Pipeline:
| Volumen | Mistral OCR Self | Mistral API | Claude 4.7 | GPT-4o | Google Doc AI | Tesseract |
|---|---|---|---|---|---|---|
| 20'000 Seiten/Monat | CHF 480 | CHF 240 | CHF 540 | CHF 460 | CHF 1'320 | CHF 290 |
| 200'000 Seiten/Monat | CHF 1'180 | CHF 1'080 | CHF 4'020 | CHF 3'520 | CHF 13'180 | CHF 720 |
| 2 Mio Seiten/Monat | CHF 4'200 | CHF 9'820 | CHF 38'400 | CHF 33'200 | CHF 130'000 | CHF 1'820 |
Drei Lehren:
- Mistral OCR Self-Hosted gewinnt ueber 200K Seiten/Monat — der Break-even gegenueber API liegt bei ca. 180'000 Seiten/Monat (1x L40S GPU, CHF 8'200 amortisiert auf 18 Monate).
- Google Document AI ist 3-15x teurer als Vision-LLMs — der Premium ist nur bei spezialisierten Parsern (KYC, Identity, W2) gerechtfertigt.
- Tesseract bleibt unschlagbar billig, aber der Genauigkeitsverlust kostet im Compliance-Backend mehr als die Engine spart — nur bei pure-Volume-Use-Cases ohne Schema-Anforderung relevant.
Praxisbeispiel: Schweizer Treuhand mit 280'000 Rechnungen/Monat
Eine grosse Schweizer Treuhand-Gruppe (12 Standorte, 480 Mitarbeiter) verarbeitete 2024 monatlich 280'000 Lieferanten-Rechnungen ihrer 3'400 KMU-Mandanten. Bestehender Prozess: Buchhalter scannten Belege, kopierten manuell IBAN/Betrag/Datum in Bexio und Abacus. Durchsatz: 47 Rechnungen pro Buchhalter pro Stunde, 6.2% Fehlerquote.
Ausgangslage
- 280'000 Rechnungen / Monat (durchschn. 1.4 Seiten)
- 3'400 Mandanten mit unterschiedlichen Lieferanten-Layouts
- Anforderung: revDSG-konform, Bexio & Abacus & SAP S/4HANA Multi-ERP, FAIR-Audit-Trail
- Vorher: 240 FTE-Stunden/Tag manuelle Eingabe, CHF 380'000/Monat Personalkosten fuer Capture
mazdek-Loesung
Wir bauten einen Cost-Routed IDP-Stack auf Schweizer Hardware (Hetzner Helsinki + Infomaniak Geneva fuer DR), Klassifikation via LayoutLMv3-Tiny, OCR via Mistral OCR Self-Hosted (3x L40S), Validation gegen BFS-USt-Register, Bexio-API und SAP IDoc-Channel:
- Klassifikation (ORACLE): LayoutLMv3-Tiny on-prem, klassifiziert in 12 ms in QR-Rechnung / Auslaender / Spesen / KYC.
- OCR/Vision (PROMETHEUS): Mistral OCR Self-Hosted fuer Standardrechnungen, Claude 4.7 Vision Fallback fuer komplexe Layouts unter 0.85 Konfidenz.
- Validation (HERACLES): IBAN-Pruefsumme (mod-97), USt-Lookup gegen BFS-Register, Duplikate-Detection ueber 90-Tage-Fenster.
- ERP-Integration (HERACLES + ZEUS): Bexio-REST, Abacus-AbaConnect, SAP S/4HANA via IDoc INVOIC02.
- Human-Review (NABU): Felder mit Konfidenz unter 0.92 landen in Review-Queue mit 15-Min-SLA.
- Audit (ARES + ARGUS): Original-PDF + Extraction + Modell-Version WORM auf Infomaniak S3-Object-Lock, 10-Jahre-Retention.
Ergebnisse nach 9 Monaten Produktivbetrieb
| Metrik | Vorher | Nachher | Delta |
|---|---|---|---|
| Rechnungen pro FTE-Stunde | 47 | 980 | +1985% |
| Felder-Fehlerquote | 6.2% | 0.4% | -94% |
| Human-Review-Quote | 100% | 3.8% | -96% |
| Durchlaufzeit Beleg → Buchung | 4.2 Tage | 11 Min | -99.8% |
| Skonto-Realisierung | 34% | 89% | +162% |
| Jaehrliche Einsparung | — | CHF 4.1 Mio | — |
| Payback | — | 4.3 Monate | — |
| FINMA-/revDSG-Bemaengelungen | — | 0 | — |
Wichtig: kein Buchhalter wurde abgebaut. Die freigesetzte Zeit floss in Mandantenbetreuung, proaktive Steueroptimierung und Closing-Beschleunigung — Aufgaben, fuer die das Team vorher keine Zeit hatte. NPS bei Mandanten stieg um 22 Punkte, Mandanten-Churn fiel um 38%.
Governance: IDP nach revDSG, EU AI Act und FINMA
Dokumenten-KI wirft fuenf zusaetzliche Compliance-Fragen auf, die klassisches OCR nicht hatte:
- revDSG Art. 6 (Datenintegritaet): Vision-LLMs koennen halluzinieren. Felder unter 0.92 Konfidenz muessen in den Human-Review — sonst riskieren Sie unentdeckte Falscheintraege in der Buchhaltung.
- revDSG Art. 30 (Auftragsbearbeitung): jede Vision-LLM-Anfrage ist Datenbearbeitung im Auftrag. DPA mit Anthropic / OpenAI / Google EU obligatorisch — und nur jene EU-Endpoints akzeptabel.
- EU AI Act Art. 12 (Protokollpflicht): jede Extraction plus Original-Dokument plus Modell-Version sind 10 Jahre archivpflichtig. WORM-Archiv (S3-Object-Lock) ist Standard.
- EU AI Act Art. 14 (Human Oversight): Hochrisiko-IDP-Systeme (Bank-KYC, Rechtsdokumente) brauchen Human-in-the-Loop-Schwellwert. Wir setzen 0.95 fuer KYC, 0.92 fuer Rechnungen.
- FINMA RS 2023/1 (Operationelle Risiken): IDP-Failure ist Single-Point-of-Failure fuer den Kreditorbuchungs-Flow. Failover-Engine, Eval-Regression-CI und Drift-Detection sind Pflicht.
Vier harte Pflichten fuer jede Schweizer IDP-Implementierung:
- Datenhoheit: Vertex AI Zurich, Mistral OCR Self-Host oder Azure Switzerland North bevorzugt. OpenAI-direkt-API ohne EU-DPA disqualifiziert fuer FINMA-Mandanten.
- Konfidenz-Schwellwerte: jeder Datensatz mit Feldern unter Schwellwert geht zwingend in Human-Review. Keine Auto-Buchung von Low-Confidence-Records.
- WORM-Archiv: Original-Dokument + Extraction + Modell-Version + Reviewer-ID 10 Jahre WORM-archiviert.
- Drift-Monitoring: Eval-Set mit 200-500 Gold-Records, woechentlicher CI-Run gegen aktuelle Modell-Version. Genauigkeitsdrift > 0.5 Prozentpunkte triggert Alert.
Mehr dazu in unserem EU-AI-Act-Leitfaden und LLM-Observability-Guide.
Implementierungs-Roadmap: In 9 Wochen produktiv
Phase 1: Discovery & Doc-Inventar (Woche 1)
- Workshop: Dokumenttypen, Volumen-Profil, Layouts, ERP-Anbindung
- Sample-Set: 500 reale Dokumente pro Typ (anonymisiert)
- Engine-Matrix: Volumen × Datenhoheit × Layout-Komplexitaet × Budget
Phase 2: PoC + Eval (Woche 2-3)
- ORACLE baut Klassifikator + Pre-Processing
- PROMETHEUS testet Mistral / Claude / Gemini parallel
- Gold-Eval mit 22 Feldern, Levenshtein-Match, Konfidenz-Tuning
Phase 3: ERP-Integration (Woche 4-5)
- HERACLES bindet Bexio, Abacus, SAP IDoc, Dynamics
- Geschaeftsregel-Validierung (IBAN-Mod-97, USt-BFS, Duplikate)
- QR-Rechnungs-Spezialfall mit Pruefsumme-Validierung
Phase 4: Human-in-the-Loop UI (Woche 6)
- NABU baut Review-Queue mit SLA-Eskalation
- Continuous-Learning-Loop: Reviewer-Korrekturen → Eval-Set
- Schwellwerte je Feldtyp je Dokumenttyp (Excel-konfigurierbar)
Phase 5: Compliance & Audit (Woche 7)
- ARES WORM-Archiv (S3-Object-Lock Compliance-Mode)
- ARGUS Drift-Monitoring + Eval-CI
- revDSG-/EU-AI-Act-Konformitaetspruefung
Phase 6: Rollout (Woche 8-9)
- Shadow-Mode: System extrahiert, Buchhalter validiert
- Supervised: 30% Auto-Buchung mit Human-Spot-Check
- Full-Production mit Monatlichem Drift-Review
Die Zukunft: Multi-Modal Reasoning, Agentic Document Processing
IDP 2026 ist erst der dritte Sprung. Was 2027-2028 in Sicht steht:
- Agentic Document Processing: Vision-LLMs holen automatisch Lieferanten-Stammdaten aus dem ERP, klaeren mehrdeutige Felder via E-Mail an den Lieferanten und buchen autonom — Human-Review nur bei Eskalation. Erste Mandanten in Pilot.
- Native Long-Document-Vision: Claude 4.7 verarbeitet 200-Seiten-Vertraege in einem Forward-Pass. 2027 sind 1'000 Seiten erwartet — End-to-End-Vertragsanalyse statt Page-by-Page.
- On-Device-Vision-LLMs: Apple Foundation Models 4 und Google Gemini Nano 3 erreichen 92-94% Genauigkeit on-device. Schweizer Mobile-Capture-Apps werden komplett on-device — null Cloud-Roundtrip.
- Embedding-Native Document-Stores: Document-AI mergt mit Vektor-Datenbanken. Dokument wird gespeichert mit eingebetteter Layout-Tensor und semantischen Embeddings — Retrieval und Extraction in einem Schritt. Siehe unseren Vektor-DB-Guide.
- Schweizer Regulatorische Specials: ESTV plant 2027 KI-OCR-Standard fuer e-Steuererklaerung; FINMA arbeitet an Rundschreiben fuer KI-basierte KYC-Verifizierung.
- Voice-of-Customer-Streams: Telefon-Audio → Transkript → Strukturierte Beschwerde — Document AI mergt mit Voice AI. Siehe unseren Voice-Agent-Guide.
Fazit: Welche IDP-Engine fuer Sie?
- Default 2026: Mistral OCR. Apache 2.0, EU-basiert, 4x billiger als Claude bei 97% Genauigkeit. Self-Hosting trivial. Erste Wahl fuer Rechnungen, Belege, einfache KYC.
- Premium-Genauigkeit: Claude 4.7 Vision. Hoechste Genauigkeit bei Vertraegen, juristischen Dokumenten und handgeschriebenen Annotationen. EU-Endpoint via Vertex/Bedrock empfohlen.
- FINMA-Bank ohne Self-Hosting: Gemini 2.5 + Vertex Zurich. Native Schweizer Region, Hyperscaler-SLA, gute Multi-lingual.
- Out-of-Box-Schemas: Google Document AI. 200+ vortrainierte Parser fuer Rechnung, KYC, W2, Identity. Teuer, aber sofort einsatzbereit.
- NICHT fuer Schweiz mehr: Tesseract als Standalone. 8-12% Genauigkeitsverlust gegenueber Vision-LLMs ist 2026 nicht mehr akzeptabel — ausser bei harten On-Prem-Anforderungen.
- Cost-Routing schlaegt Single-Engine: Klassifikation + Engine-Auswahl per Dokumenttyp spart bis 60% gegenueber «alles durch GPT-4o».
- ROI in 4-6 Monaten: 22 produktive mazdek-Mandate, durchschnittlich 4.7 Monate Payback.
- Compliance machbar: revDSG, EU AI Act, FINMA werden mit ARES-Guardrails, WORM-Archiv und Konfidenz-Schwellwerten sauber abgebildet.
Bei mazdek orchestrieren 19 spezialisierte KI-Agenten den gesamten IDP-Lebenszyklus: ORACLE fuer Klassifikation und Pre-Processing; PROMETHEUS fuer Vision-LLM-Auswahl und Cost-Routing; HERACLES fuer ERP- und Banken-Bridges; ZEUS fuer SAP- und Dynamics-Integration; NABU fuer Review-UI und Continuous Learning; ARES fuer Compliance und WORM-Archiv; ARGUS fuer 24/7-Drift-Observability; HEPHAESTUS fuer Schweizer K8s-Infrastruktur. 22 produktive IDP-Deployments seit 2024 — DSG-, DSGVO-, EU-AI-Act-, FINMA- und OR-konform ab Tag eins.