Språk
Officiella & inofficiella språk som används
Svenskan är huvudspråk, fem nationella minoritetsspråk har särskilt skydd, och runt 200 språk talas i landet. Språk är också AI:ns råvara: modeller tränas på text, och små språk riskerar att hamna i skuggan av engelskan. Frågan om vem som äger svenskan i maskinform har blivit politik.
Hur AI skulle kunna förändra detta
Svenskan har fått en egen modellfamilj. GPT-SW3, utvecklad av AI Sweden med WASP och RISE, var den första stora generativa språkmodellen för svenska och nordiska språk och släpptes öppet i sex storlekar upp till 40 miljarder parametrar. Den nationella AI-strategin går vidare och utlovar en suverän svensk språkmodell tränad på svenska data, ett sätt att inte lämna språket åt amerikanska och kinesiska modeller.
Statens minne blir träningsmaterial. Enligt handlingsplanen för AI-strategin ska Kungliga biblioteket analysera hur dess svenska språkmodeller kan användas bredare i offentlig sektor, och Riksarkivet får medel för att digitalisera arkiv som träningsdata. Samtidigt formas vardagssvenskan av att många AI-tjänster fungerar bäst på engelska; orden vi får föreslagna åt oss är inte neutrala.
För minoritetsspråken är läget skarpare. Samisk språkteknologi, med rättstavning, tangentbord och talsyntes, byggs i dag framför allt av Divvun vid norska UiT, fritt och med öppen källkod. Hur finska, meänkieli, romani chib och jiddisch ska få plats i språkmodellernas värld är fortfarande en öppen fråga, och marknaden lär inte svara på den självmant.
Frågor att diskutera
Vad händer med ett språk när allt fler texter först skrivs av en maskin och sedan putsas av en människa?
Hur säkrar Sverige att svenska modeller speglar hela språket, dialekter och förortssvenska inräknade?
Vilket ansvar har staten för att minoritetsspråken får samma tekniska verktyg som svenskan?
Hur förändras svenskundervisningen när översättning och korrektur alltid finns ett knapptryck bort?
Vems texter ska få träna framtidens svenska språkmodeller, och vad är rimlig ersättning?
Att tänka på
- GPT-SW3 släpptes med öppen licens i sex storlekar; den nationella strategin bygger vidare mot en suverän svensk språkmodell.
- Språkteknik för små språk kräver medvetna satsningar: marknaden löser det inte själv när dataunderlaget är litet.
- Kungliga biblioteket och Riksarkivet har fått roller som dataleverantörer; kulturarvet blir träningsmaterial.