2026 sala ye ku Small Language Models (SLM) ji siya Frontier-LLM-ên mezin derdikevin. Bi 3,8 mîlyar parametran, Microsoft Phi-4 îro modelên ku di 2023-an de hewcedariya 500-qat mezintir hebû dişkîne. Google Gemma 3, Mistral Small 3 û Qwen 3 kalîteya amade-bo-produksiyon bi perçeyeke lêçûnan radestî dikin — û li ser GPU-yeke yekane rasterast li nav navenda daneyên we ya Swîsreyê dimeşin. Li gor Gartner, 68% ji pargîdaniyên Swîsreyê di 2026-an de jixwe herî kêm SLM-yekê di karê xwe yê sereke de bi kar tînin, û qezencên li gor LLM-ên klasîk ên Cloud di navbera 85–94% de ne. Ev rêbername nîşan dide çima biçûktir nayê wateya kêmtir, kîjan model ji bo kîjan warê bikaranînê li hev tên û hûn çawa SLM-an li ser binyata Swîsreyê li gor DSG dixebitînin.
Small Language Models Çi Ne? Pênasekirineke ji bo 2026-an
Têgîna «Small Language Model» di 2024–2025-an de cî girt û îro nîşan dide modelên zimanî yên bi kêmtirî 15 mîlyar parametran ku ji bo barên xebatê yên produktîf hatine sêwirandin. Ji bo berawirdê: Frontier-LLM-ên wek GPT-5, Claude 4.7 Opus an Gemini 2.5 Ultra texmînî 1–2 trîlyon parametran dihewînin — faktorek 100–500x.
Nûjeniya biryardar: SLM-eke nûjen bi 3,8 B parametran (Phi-4) di 2026-an de li ser benchmarkên herî girîng (MMLU, HumanEval, GSM8K) di navbera 85–92% ji kalîteya GPT-5-ê digihîje — bi perçeyeke çavkaniyan. Ev ji ber sê serketinên teknîkî gengaz dibe:
- Daneyên perwerdehiyê yên sentetîk ên kalîteya bilind: Li şûna ku «tevahiya înternetê» were bikaranîn, SLM li ser daneyên kurator kirî, pirî caran xwe-çêkirî têne perwerde kirin — kalîte quantîteyê dişkîne.
- Mîmariyên Mixture-of-Experts (MoE): Tenê perçeyek ji parametran her daxwazê tê çalakkirin (mînak 2,6 B ji 17 B li Llama 4 Scout).
- Pîpelaynên Post-Training: RLHF, DPO, GRPO û Constitutional AI ji bo modelên biçûk jî alignment-a rast radestî dikin.
«Em di 2026-an de dawiya serdema yek-model-ji-bo-hemûyan dibînin. Her sîstema AI ya ciddî ji yek komeleyê pêk tê: SLM-yek bilez ji bo 90% ji daxwazan, LLM-yek mezin ji bo 10% rewşên herî giran. Ji bo pargîdaniyên Swîsreyê ev tê wateya: serwerîya daneyan, kontrola lêçûnan û leza hevdem.»
— PROMETHEUS, Ajanê AI & Machine Learning li mazdek
Çima SLM di 2026-an de Dibin Standard
Pênc jimareyên hişk diyar dikin çima bazar diguhere. Ji xebata me ya bi zêdetirî 40 bicîhkirinên AI ji bo pargîdaniyên Swîsreyê re û ji benchmarkên giştî (Artificial Analysis, Hugging Face OpenLLM, Epoch AI):
| Pîvan | Frontier LLM (çîna GPT-5) | SLM-eke nûjen (Phi-4, 3,8 B) | Qezenca SLM |
|---|---|---|---|
| Lêçûn ji bo 1 mîlyon Token-ên Output | USD 10,00 | USD 0,35 (self-hosted, amortîze) | -97% |
| Latensî (Time-to-First-Token) | 620–980 ms | 85–180 ms | -80% |
| Throughput her GPU | ~30 Token/çirke | ~280 Token/çirke | +833% |
| Benchmark-a MMLU | 89,2% | 84,8% | -4,4 xal |
| HumanEval (Kodkirin) | 87,1% | 81,4% | -5,7 xal |
| Xerckirina enerjiyê ji bo 1000 daxwazan | ~12 kWh | ~0,6 kWh | -95% |
| Pencereya Kontekstê | 1 mîlyon Token | 128k–1M Token | Wekhev |
| Data Residency | US / YE (dabînker) | Swiss Hosting gengaz | 100% serwerîya daneyan |
Bi gotineke din: hûn herî zêde 5 xalên sedikî ji kalîteyê winda dikin, lê 97% lêçûn, 80% latensî û kontrola tevahî ser daneyên xwe qezenc dikin. Ji bo piraniya sepanên pargîdaniyên Swîsreyê — botên piştgiriyê, lêgerîna zanînê ya navxweyî, pêvajokirina belgeyan, alîkarên kodê — ev xala werdanê ya biryardar e.
Şeş SLM-ên Herî Girîng ên 2026-an di Berawirdê de
Bazar di 2026-an de ji hev cuda bûye. Wek ajanseke taybetmendî ya AI li Swîsreyê, me hemû modelên mezin produktîf bi kar anîne. Li vir rêzbendiya me ya modelên ku ji bo sîstemên produktîf guncav in:
| Model | Dabînker | Parameter | Lîsans | Xala Şîrîn | MMLU |
|---|---|---|---|---|---|
| Phi-4 | Microsoft | 3,8 B / 14 B | MIT | Reasoning, Pirs & Bersiv ji bo Enterprise | 84,8% |
| Gemma 3 | Google DeepMind | 4 B / 12 B / 27 B | Gemma Terms | Pir-moddelî, 140+ ziman | 83,1% |
| Mistral Small 3.1 | Mistral AI (Parîs) | 24 B | Apache 2.0 | Serwerîya YE, Kod | 81,7% |
| Qwen 3 Small | Alibaba | 4 B / 8 B | Apache 2.0 | Bikaranîna amûran a ajantî | 82,9% |
| Llama 4 Scout | Meta | 17 B çalak / 109 B MoE | Lîsansa Llama 4 | Konteksteke dirêj (10M Token) | 85,2% |
| Claude Haiku 4.6 | Anthropic | Girtî, tenê API | Propriyeter | Chat-a produksiyonê, Ewlehî | 86,4% |
Pêşniyar li gor Warê Bikaranînê
- Bankên Swîsreyê yên On-Prem, Tenduristî, Hiqûq: Mistral Small 3.1 (Apache 2.0, pargîdaniyeke YE) an Phi-4 (Lîsansa MIT). Ajanê me yê Ewlehiya Sîber ARES ji bo her du modelan guncahiya lihevhatinê dikolê.
- Xizmeta xerîdaran a pirzimanî (DE/FR/IT/EN): Gemma 3 12B — modela herî xurt ji bo cihêrengiya zimanan a Swîsreyê, tevî Romanş.
- Sîstemên ajantî bi Function Calling: Qwen 3 Small 8B — performansa pêşeng a Tool-Use di mezinahiya SLM de.
- Belgeyên dirêj (Peyman, dosya, rapor): Llama 4 Scout — 10 mîlyon Token kontekst, li ser 2x H100 dimeşîne.
- Bêyî barê binyatê: Claude Haiku 4.6 bi rêya API — propriyeter, lê bi Hosting-a YE û lihevhatina SOC-2 ya Anthropic.
Mîmarî: Stackeke SLM li Swîsreyê Çawa Xuya Dike
Mîmarî biryar dide ka sîstema SLM a we mezin dibe an jî dibe nîgara performansê. Tîma me ya PROMETHEUS di zêdetirî 15 bicîhkirinên SLM de mîmariya referansê ya jêrîn saz kiriye — bi awayê ku sereke li ser Swiss Hosting û lihevhatina DSG ye:
+--------------------------------------------------------+
| Xerîdar (Browser, App, API-Consumer) |
+---------------------+----------------------------------+
|
v
+--------------------------------------------------------+
| API Gateway (Kong / Tyk) — Rate Limit, Auth, PII-Mask |
+---------------------+----------------------------------+
|
v
+--------------------------------------------------------+
| Router / Orchestrator (mazdekClaw) |
| |
| Intent Classifier -> Daxwaza Sivik -> SLM (Phi-4) |
| (50 ms) 90% Trafîk ~180 ms |
| |
| Daxwaza Giran -> Frontier LLM |
| 10% Trafîk (GPT-5 / Claude) |
+---------------------+----------------------------------+
|
v
+--------------------------------------------------------+
| Qata Inference: vLLM / TensorRT-LLM / llama.cpp |
| ----------------------------------------------------- |
| Navenda Daneyên Swîsreyê: 2x H100 SXM / RTX 6000 Ada |
| Quantîzasyon: Q4_K_M / AWQ / GPTQ |
| Batching: Continuous Batching, 128 daxwazên paralel |
+---------------------+----------------------------------+
|
v
+--------------------------------------------------------+
| Vektor-DB (Qdrant / Weaviate) + Postgres + Redis |
| Observability: Langfuse / OpenTelemetry / Grafana |
+--------------------------------------------------------+
Pênc Pêkhateyên Krîtîk
1. Router / Intent-Classifier: Modelek pir biçûk (DistilBERT an SLM-a 0,5-B-ya fine-tûnekirî) di bin 50 ms de biryar dide ka daxwazek diçe ser SLM an ser Frontier-LLM-ê. Encam: 90% ji hemû daxwazan li ser SLM-a erzan dimînin. Ev nêzîkatî ji aliyê PROMETHEUS ve tê orkestrakirin.
2. Servera Inference: vLLM di 2026-an de standarda de-facto ji bo SLM-Serving bi PagedAttention û Continuous Batching e — pîvanên me 4–5 qat throughput-a bilindtir li hember Hugging Face Transformers nîşan didin. Bergindên din: TensorRT-LLM ji NVIDIA (bileztir, lê vendor-locked) an llama.cpp (li ser CPU dimeşîne).
3. Quantîzasyon: Quantîzasyona 4-Bit (Q4_K_M, AWQ, GPTQ) hewcedariya bîranînê %75 kêm dike bi windahiyeke kalîteyê ya herî zêde %2. Phi-4 a quantîzekirî dikeve 8 GB VRAM û ji ber vê yekê heta li ser RTX 4070 jî dimeşe.
4. Swiss Hosting: Em navendên daneyên Swîsreyê yên ISO-27001- û FINMA-sertîfîkekirî pêşniyar dikin: Green IT (Cenevre), Safe Host (Vevey), Infomaniak (Cenevre) an Swisscom (Zürich/Bern). Ajanê me yê DevOps HEPHAESTUS dide piştrast ku binyata SLM a we dubarekirî ye (Terraform, Ansible) û xwe-kokerîn e.
5. Observability: Langfuse (Open Source, Self-hosted) an Helicone her daxwazekê bi lêçûn, latensî, vegera bikarhêner û hîskirinê tomar dikin. Bêyî Observability hûn kor difirin — Ajanê me yê Guardian ARGUS çavdêriya 24/7 tevî agadarkirinan li cem drift an lûleyên lêçûnan li ser xwe digire.
Heşt Warên Bikaranînê ku SLM Frontier-LLM-ê Şikestî Dike
Ne her tişt divê bi GPT-5-ê re biçe. Li vir warên bikaranînê yên ku tîma me SLM-an tê de produktîv bi kar tîne — bi encamên rastîn ji projeyên Swîsreyê:
1. Chatbotên Zanînê yên Taybetmend (RAG)
Bi tevî Pîpelaynek RAG, Phi-4-eke fine-tûnekirî GPT-5-ê li pirsên pispor dişkîne — çimkî SLM li ser daneyên pargîdanî yên berbiçav hatiye perwerde kirin. Rêjeya otomasyonê: heta 94%. Latensî: di bin 400 ms de.
Ajanê mazdek: PROMETHEUS (Fine-Tuning) + ORACLE (Avakirina Zanînê)
2. Alîkarên Kodê ji bo Pêşxistina Navxweyî
Qwen 2.5 Coder 14B-a fine-tûnekirî li ser koda pargîdaniyê koda çêtir ji GitHub Copilot çêdike — çimkî ew pattern, pirtûkxane û peymanên navlêkirinê yên we nas dike. Çavkanî bi tu awayî nav navenda daneyên we naçe. Ji bo bankan, sîgortayan û GovTech-ê pêkanîneke bêkêmasî ye. Bibînin herwiha rêbername ya me ya li ser Vibe Coding.
Ajanê mazdek: ATLAS (Kodkirin) + ARES (Pîpelaynekê Ewle)
3. Derxistina Belgeyan (Fatûr, Peyman, KYC)
Gemma 3 bi şiyana Vision daneyên sereke ji 10'000 fatûran her roj derdixe — ji bo nêzî CHF 0,003 her belgeyê. Frontier-LLM 40 qat bihatir in. Rastîbûna naskirinê: 97,4% li hember 98,1% li cem GPT-5. Showcase-a têkildar: Ajanê Pêvajokirina Fatûran.
Ajanê mazdek: PROMETHEUS + ZEUS (Girêdana ERP)
4. Dabeşkirin û Rêvekirina Xerîdarên Pirzimanî
Gemma 3 e-peyamên, bilêtên an peyamên WhatsApp yên digihîjin di dem-rastê de bi Almanî, Fransî, Îtalî û Îngilîzî dabeş dike — tevî hestyarî û asta lezgîniyê. Rastî: 93,7%. Entegrasyon bi rêya HERACLES.
5. Çêkirina Naverokê ya Domdar (Danasînên Berheman, SEO)
Bazirganekî Shopify bi 180'000 SKU-yan hewcedariya deqên berhemên nûjenkirî yên her sê mehan carekê bi çar zimanan heye. Lêçûna her xebatê bi SLM: nêzî CHF 1'200. Bi GPT-5: CHF 38'000. Windahiya kalîteyê li dû vekolîna mirovî: di bin 3%.
Ajanê mazdek: ENLIL (Naverok) + ATHENA (Entegrasyona Firoşgehê)
6. Kurtekirin û Protokolên Transkrîba Civînê
Llama 4 Scout bi 10 mîlyon Token kontekst tevahiya rojên kombûnê (~200'000 Token) di yek xebatê de pêvajo dike û protokolên rêkûpêk, Action Item û lîsteyên biryaran radestî dike — bêyî ku daneyan ji xizmetên derve re bişîne.
7. Workflowên Ajantî bi Tool-Use
Qwen 3 Small 8B Ajanên Enterprise yên otonom dimeşîne ku bilêtan pêvajo dikin, nakokiyên taqîlê çareser dikin û fermanên malan derdixin — bi 30 qat lêçûnên kêmtir li hember Claude Opus. Ji bo otomasyona volum-bilind bêkêmasî ye.
8. AI-ya On-Device di Sepanên Mobîl de
Apple Intelligence (3 B Parameter) û Gemini Nano di 2026-an de li ser iPhone û telefonên Android-ê lokal dimeşin. Ji bo projeyên Mobîl ên mazdek bi HERMES ev tê wateya: taybetmendiyên AI bêyî Server-Roundtrip, şiyana bêpergalê ya tevahî û sifir lêçûnên API.
Fine-Tuning: Çima di 2026-an de Dîsa Standard Dibe
Di 2022–2024-an de Fine-Tuning «derveyî mode» bû — bi têra kontekstê û prompên baş, Few-Shot Prompting têra xwe dixuya dikir. Di 2026-an de kart zivirîne. Du faktor:
- Teqîna lêçûnan di prompên dirêj de: Dema ku her daxwazek 8'000 Token prompa sîstemê tevî mînakên Few-Shot bi xwe re bir, ew kom dibin. Fine-Tuning prompê kêm dike nav 200 Token — 40 qat erzantir.
- Valahiya kalîteyê li karên taybetmendî: LLM-eke Generalist koda KDV ya Swîsreyê ne bi qasî Phi-4-eke li ser daneyên bacê fine-tûnekirî kûr nas dike.
Sê Rêbazên Fine-Tuning-ê di 2026-an de
| Rêbaz | Bar | Hewcedariya daneyan | Qezenca Kalîteyê | Kengê Bi Kar Bînin |
|---|---|---|---|---|
| LoRA / QLoRA | Nizm | 500–5'000 nimûne | +5–12 xal | Tone, Format, Domain |
| DPO (Direct Preference Opt.) | Navîn | 2'000–20'000 cotên tercîhê | +8–18 xal | Alignment, Ewlehî |
| Full Fine-Tuning | Bilind | 50'000+ nimûne | +12–25 xal | Zimanekî nû, Code-Domain |
Ji bo 80% ji projeyên Swîsreyê, QLoRA têra xwe ye: giranên 4-Bit-quantîzekirî, tenê 0,5–2% ji parametran tên perwerde kirin, li ser RTX 4090 di 4–12 saetan de. Em li mazdek klînîkên bijîjkan, notêran û xerîdarên pîşesazî bi modelên Phi-4 yên bi QLoRA fine-tûnekirî produktîv didin xebitandin. Pîpelayna me (ji aliyê PROMETHEUS û NANNA ve tê rêvebirin) otomatîk Evaluation-Gating dihewîne: guhertoyên nû yên modelan tenê dema ku li ser 200+ testcaseyan bi îspatbûn çêtir xuya dikin, tên rakirin.
DSG, GDPR û Qanûna AI ya YE: SLM wek Qezenca Lihevhatinê
Li vir qezenca herî stratejîk a SLM-an ji bo pargîdaniyên Swîsreyê heye: serwerîya tevahî ya daneyan. Dema ku hûn bi API-yên Frontier daneyên xwe ji dabînkerên DY an YE re dişînin, SLM-eke on-prem an Swiss-hosted hemûyan di nav sînorên welêt de pêvajo dike.
Qanûna Parastina Daneyên Swîsreyê (revDSG)
- Bendê 16 revDSG (Ragihandina Derve): Li gel Swiss-Hosting bi tevahî dadikeve — barê DPIA ji bo derbaskirina daneyan tune ye.
- Bendê 7 revDSG (Ewlehiya Daneyan): Hêsantir e ku were îspat kirin, çimkî hûn tevahiya pîpelaynê kontrol dikin.
- Razdariya Xerîdaran a Bankan (Bendê 47 BankG): Pêvajokirina daneyên xerîdaran di LLM-eke derve-hosted de krîtîk e — SLM-eke on-prem rîskê kêm dike.
Qanûna AI ya YE (ji 2 Tebaxa 2026-an û pê ve di meriyetê de)
Ji bo sîstemên rîsk-bilind (Tenduristî, Perwerde, Deyn, Kadro), Qanûna AI ya YE belgekirineke berfireh daxwaz dike. SLM vê yekê pir hêsan dikin:
- Bendê 12 (Logs): Li cem SLM-eke on-prem hûn log-an bi xwe kontrol dikin — ji bo Audit-Trail biryardar e.
- Bendê 14 (Çavdêriya Mirovî): Ji ber ku hûn modelê bi xwe dimeşînin, hûn dikarin di her kêliyê de testên Bias û rastkirinan pêk bînin.
- Bendê 15 (Bihêzî): Dubarebûn hêsantir e dema ku hûn guhertoya modelê di cih de bigrin û ne hewce ye ku hûn xwe bi nûjenkirinên API re girê bidin.
Razdariya Xerîdaran a Bankan û Razdariyên Pîşeyî
Ji bo parêzeran (Bendê 321 StGB), bijîjkan (Bendê 321 StGB), bankan (Bendê 47 BankG) û bawerkerên malî, bikaranîna LLM-eke Cloud bi daneyên xerîdaran ji hêla hiqûqî ve xeternak e. SLM-eke on-prem li ser hardware-ya Swîsreyê ya taybet pirsgirêkê bi awayekî zîrek çareser dike. Ajanê me yê Ewlehiya Sîber ARES ji bo van warên pîşesaziyê sazkirinên lihevhatinê yên taybetmend bi Air-Gapped-Deployment û şîfrekirina FIPS-140-3 ava dike.
Lêçûn: Sazkirinek SLM ji bo Pargîdaniyên Swîsreyê Bi Rastî Çiqas Dikeve
Şeffafî girîng e. Li vir sê modelên lêçûnan ên rast ji bo volumên cuda — hemû jimare ji projeyên mazdek di 2026-an de:
| Senaryo | Volûm | Hardware | CHF / Meh | Berawirdiya Frontier-LLM |
|---|---|---|---|---|
| KMU-Destpêk | heta 100'000 daxwaz/meh | 1x RTX 6000 Ada (hosted) | CHF 1'200 | CHF 7'800 (−85%) |
| Navîn | heta 2 Mn. daxwaz/meh | 2x H100 SXM + Failover | CHF 4'800 | CHF 52'000 (−91%) |
| Enterprise | heta 50 Mn. daxwaz/meh | 2x Node 8xH100 | CHF 28'000 | CHF 480'000 (−94%) |
Li gel vê lêçûnên sazkirinê yên yek-car ji aliyê mazdek ve tên:
- Hilbijartina modelê û sazkirina benchmarkê: ji CHF 2'900
- Pîpelaynek Fine-Tuning bi QLoRA: ji CHF 4'900
- Stack-a Inference (vLLM, Çavdêrî, Observability): ji CHF 6'500
- Paketa lihevhatinê (DSG/GDPR/Qanûna AI ya YE): ji CHF 5'000
- Hosting-a Birêvebirî ya berdewam bi ARGUS Guardian: ji CHF 490/meh
Break-even ê tîpîk li hember API-yên Frontier: piştî 2–5 mehan. Bi volûmên bilind pirî caran piştî 30 rojan.
Nimûneya Pratîk: Pêşkêşkarekî Sîgorteyê yê Swîsreyê Lêçûnên LLM-ê 92% Kêm Kir
Pêşkêşkarekî navîn ê sîgorteyê yê Swîsreyê (CHF 1,2 Mîlyar volûma prîm, 680 karmend) di 2025-an de botek xizmeta xerîdaran û analîzerek peymanên navxweyî li ser API-ya GPT-4o dimeşand, bi pirsgirêkên jêrîn:
Rewşa Destpêkê
- 3,2 Mn. daxwazên LLM her meh
- Lêçûnên API yên mehane: CHF 82'000
- Latensiya navgîn: 980 ms (xerîdar giliyên xwe dikirin)
- Gumanên lihevhatinê: Audit-a FINMA herikîna daneyan li DY anî ziman
- Kontrola nûjenkirinên modelê tune (guherînên behreyî yên rêkûpêk)
Çareseriya Me: Sazkirineke Hîbrîd bi Phi-4 + Claude Haiku Fallback
Me mîmariyeke du-qonax bi ajanên mazdek ên jêrîn pêk anî:
- PROMETHEUS: Hilbijartina modelê, QLoRA-Fine-Tuning a Phi-4 li ser 18'000 diyalogên sîgorteyê yên anonîm, Bicîhkirina Router-ê
- HEPHAESTUS: Avakirina binyata Inference bi vLLM li ser Green Datacenter Cenevre, bi Terraform-kodkirî
- ARES: Mîmariya ewlehiyê ya li gor FINMA, PII-Masking li beriya hemû log-tomaran, Pen-Test-a pîpelaynê
- ORACLE: Databankek Vektor (Qdrant) bi 240'000 dosyayên sîgorteyê ji bo RAG-Retrieval
- ARGUS: Çavdêriya 24/7 bi Langfuse, Fallback-a otomatîk li ser Claude Haiku li gel nebawerîya SLM > 15%
Encam piştî 4 Mehan
| Pîvan | Beriya (GPT-4o) | Paşê (Phi-4 + Haiku) | Baştirbûn |
|---|---|---|---|
| Lêçûnên mehane yên LLM | CHF 82'000 | CHF 6'400 | -92% |
| Latensî (p50) | 980 ms | 210 ms | -79% |
| Rêjeya daxwazan li ser SLM | 0% | 91% | nû |
| Kalîte (nirxandina mirovî) | 4,3 / 5 | 4,4 / 5 | +0,1 |
| Audit-a FINMA | Guman | Derbaskirî | Lihevhatin hate bi dest xistin |
| Cihê daneyan | DY-Rojava | Cenevre (Swîsre) | 100% Swiss |
| Qezenca salane | — | CHF 907'200 | ROI: 2,1 meh |
Bi taybetî balkêş: kalîte hinekî zêde bû, çimkî SLM li ser diyalogên sîgorteyê yên taybetmend hat fine-tûne kirin û qelsiyên Generalist ên GPT-4o mîras negirt. Rêjeya 9% ji rewşên «giran» bi rêya Claude Haiku 4.6 bi EU-Hosting dimeşe — tam li gor revDSG.
Bicîhkirina SLM: Pêvajoya 6-Qonaxî ya mazdek
Vekirina SLM ne Model-Swap e, lê biryarek mîmarî ye. Pêvajoya me ya îspatkirî:
Qonaxa 1: Analîza Trafîkê û Nexşeya Warê Bikaranînê (1-2 hefte)
- Nirxandina 10'000+ daxwazên rastîn: mijar, kompleksî, ziman, dirêjahî
- Dabeşkirin bo «sivik» (SLM-guncav) û «giran» (Frontier-LLM) bi rêya Clustering
- Tomarkirina lêçûn-ên heyî, latensî-ya heyî û kalîte-ya heyî wek Baseline
- Nirxandina lihevhatinê ji aliyê ARES (DSG, GDPR, pîşesazî-taybet)
Qonaxa 2: Benchmark-a Modelê li ser Daneyên Rastîn (1-2 hefte)
- Testkirina 5-6 kandîdên SLM li ser rêza karên we (Phi-4, Gemma 3, Mistral Small, Qwen 3, Llama 4 Scout)
- Matrîksa nirxandinê: Kalîte (LLM-as-Judge + vekolîna mirovî), Latensî, Lêçûn, Lîsans
- Shortlist li ser 2 modelan
Qonaxa 3: Fine-Tuning û Evaluation-Harness (2-4 hefte)
- QLoRA-Fine-Tuning li ser daneyên we (500–5'000 nimûne)
- Avakirina Set-a Nirxandinê bi 200+ testcaseyan ji aliyê NANNA
- A/B-Test li hember modela baseline li ser daxwazên dîrokî
- Testkirina Adversarial: Jailbreak, testên halusînasyonê, Edge Case
Qonaxa 4: Vekirina Binyatê (2-3 hefte)
- Sazkirina Clustera vLLM li ser GPU-yên Swiss-Hosted (Green, Infomaniak, Swisscom)
- Bicîhkirina Router bi mantiqê Fallback
- Stack-a Observability (Langfuse, Grafana) ji aliyê HEPHAESTUS
- Load-Test: 3x ji volûma bilind a hêvîkirî simulekirin
Qonaxa 5: Vekirina Dereceyî bi Moda Shadow (2-4 hefte)
- Moda Shadow: SLM bersivê paralel dide, bêyî ku bikarhêner bibîne — berawirdkirin li ser daxwazên rastîn
- Canary Release: 5% -> 25% -> 50% -> 100% Trafîk li ser SLM
- Çavdêrî ji aliyê ARGUS ji bo Fallback-a otomatîk li gel drift an bilindbûna rêjeya xeletiyê
Qonaxa 6: Başkirina Berdewam
- Re-Training-a mehane li ser axaftinên nû
- Cost-Monitoring bi agahdariyan li gel volûma neasayî
- Sê-mehane Security-Scan ji aliyê ARES
- Upgrade-a modelê ya nîv-salane (mînak Phi-4 -> Phi-5)
Paşeroj: SLM-ên On-Device û Modelên Agentic-Native
SLM di 2026-an de tenê di destpêka pêşveçûna xwe de ne. Em tiştên ku em di 12-18 mehên pêş de li bendê ne:
- Serdestiya On-Device: Apple Intelligence (3 B), Gemini Nano û Microsoft Phi-Silica di 2027-an de li ser hardware-ya Consumer bi berfirehî dimeşin. Ji bo sepanên Mobîl bi HERMES ev tê wateya: taybetmendiyên AI bêyî lêçûnên API û bi şiyana tevahî ya Offline.
- SLM-ên Agentic-Native: Modelên wek Qwen Agent 3 ji destpêkê ve ji bo Tool-Use û Multi-Step-Planning tên perwerde kirin — ne wek fikreke paşîn.
- Mixture-of-Experts serdest dibe: Llama 4 Scout (17 B çalak / 109 B giştî) rê nîşan dide: parametrên biçûk ên çalak, zanîna giştî ya mezin, latensiya xêzî.
- Pattern-ên Ensemble: Router + SLM + Frontier-LLM dibe mîmariya standard — yek modeleke tenê ji bo hemûyan di 2026-an de Anti-Pattern e.
- Swiss Sovereign AI: Înîsiyatîfa lêkolînê ya Swîsreyê «Swiss AI» (ETHZ, EPFL, CSCS) di 2026-an de «Swiss Llama»-yek pirzimanî perwerde dike — amade-bo-produksiyon di 2027-an de, li Swîsreyê hatiye çêkirin, ji bo Almanî, Fransî, Îtalî û Romanş optimîzekirî.
Encam: Biçûk Mezin-a Nû ye
2026 derbasbûnê ji «Mezintir Çêtir e» ber bi «Bi Rastî Têra Xwe Mezin e» destnîşan dike. Naskirinên biryardar:
- Şoreşa lêçûnan: 85–94% erzantir — ji bo piraniya pargîdaniyên Swîsreyê ajokarê biryardar.
- Qezenca Latensî: Di bin 200 ms de li şûna jêr 800 ms — ji bo sepanên Dem-Rastê biryardar.
- Serwerîya daneyan: On-Prem an Swiss-Hosted — qezenca bingehîn a lihevhatinê ji bo warên rêziknameyî.
- Kalîte têra xwe: Di pratîkê de hûn herî zêde 5 xalan li ser benchmarkan winda dikin — û pirî caran hûn bi fine-tuning-a taybetmend heta kalîteyê qezenc dikin.
- Pattern-a mîmarî: Sazkirinên hîbrîd (SLM + Frontier-Fallback) di 2026-an de standarda Enterprise in.
Pirs êdî ne ev e ku gelo hûn divê SLM-yekê bi kar bînin an na, lê kîjan û çawa. Li mazdek, 19 ajanên me yên taybetmend ên AI — ji PROMETHEUS ji bo hilbijartina modelê û Fine-Tuning, bi rêya HEPHAESTUS ji bo binyatê, heta ARGUS ji bo çavdêriya 24/7 — jixwe zêdetirî 15 bicîhkirinên SLM ji bo pargîdaniyên Swîsreyê bi serkeftinê produktîv kirine. Bi lihevhatina tevahî ya DSG, GDPR û Qanûna AI ya YE, bi perçeyeke ji lêçûnên API-yên LLM ên Cloud ên klasîk.