Till vänster syns konturen av en människas sidoprofil som ritats med en enda obruten linje. Till höger finns texten 'Lingsoft talks AI', där 'AI' är skrivet med stora bokstäver och fet stil.

Lingsoft har utnyttjat artificiell intelligens i sin verksamhet i 40 år. Lingsoft talks AI är en artikelserie där våra egna experter ger sin syn på artificiell intelligens och dess användning och möjligheter inom språkbranschen.

I kärnan av språkteknologi pulserar data. Miljontals ord, ljud och fenomen lär den artificiella intelligensen att förstå och producera språk. Men all data är inte likvärdigt: tillförlitlig språkintelligens behöver högklassig och ansvarsfullt behandlad data som stöd.

Så här styr data språkteknologins utveckling vid Lingsoft

Enligt Lingsofts Data Lead Tiina Lindh-Knuutila är språkdata lite som bränsle för artificiell intelligens. Språkteknologins utveckling stöder sig på att artificiell intelligens får tillgång till en enorm mängd språkliga exempel, dvs. text och tal som återspeglar det verkliga språkbruket.

– Taligenkänning behöver både ljud och text som data, medan maskinöversättning behöver texter som är så noggrant riktade som möjligt. All text eller audio är dock inte användbar data, utan språkmaterialet ska vara exakt, enhetligt och modernt, beskriver Lindh-Knuutila.

Lingsoft utnyttjar öppna dataset och vid behov köpt material. Vi utvecklar även modeller i samarbete med kunderna där vi med kundens tillstånd använder deras material. Omfattningen av ett enskilt dataset kan vara miljontals rader och enskilda ord ska förekomma flera gånger för att modellen verkligen ska lära sig.

Språkintelligensen blir mer tillförlitlig med högklassig och säker data

Artificiell intelligens kan inte vara smartare än de data som matats in i den. Felaktigt eller bristfälligt material leder till felaktigt lärande, vilket enligt Lindh-Knuutila genast syns i resultaten.

– Dåliga data är felaktiga: de kan innehålla skrivfel, skiljetecken som saknas eller vara inkonsekvent. Goda data återspeglar i sin tur verkligheten och beskriver fenomen noggrant.

Vid Lingsoft hålls en del av data alltid åtskild för testning och då kan modellens funktionalitet säkerställas i praktiken. Lång erfarenhet och fungerande praxis inom språkteknologi är Lingsofts styrkor. Tillförlitlig datahantering och dess etiska behandling är också en del av vardagen.

Finländsk data är värdefullt

Självförsörjande datahantering i små språkområden är både en konkurrensfördel och ett gemensamt ansvar. Vid Lingsoft hålls finländska data i inhemska händer och det är en betydande skillnad jämfört med globala aktörer.

– För små språk behöver vi gemensamma spelregler. De stöder både användarnas och språkets intressen. Samtidigt säkerställer vi att tekniken utvecklas i rätt riktning. När man arbetar med generativ artificiell intelligens ökar riskerna, så ett ansvarsfullt samarbete och reglering är mycket viktiga, betonar Lindh-Knuutila.

”Man kan inte lita blint ens på god artificiell intelligens. Därför har vi alltid människan med.”

– Tiina Lindh-Knuutila, Data Lead, Lingsoft

Human in the loop – människan övervakar och verifierar

Även om den artificiella intelligensen hanterar enorma mängder information håller människan alltid i styret på Lingsoft. Lindh-Knuutila påminner om att artificiell intelligens kan göra fel även om bakgrundsdatan är perfekt.

– Hos oss används aldrig helt automatiserade lösningar. Människans uppgift är att validera och kurera, och den artificiella intelligensen ska stödja människan, inte ersätta hen. Vi skulle inte ens vilja ge maskinerna alla uppgifter som kräver kreativitet eller tänkande.

Ansvarsfullt utvecklingsarbete med hjälp av syntetiska data

I framtiden kommer mängden data att öka exponentiellt och därmed utvecklas också möjligheterna. Lingsoft undersöker också användningen av syntetiska data, det vill säga data som påminner om äkta data men produceras på konstgjord väg. Med hjälp av syntetiska data kan vi utveckla språkmodeller effektivt utan dataskyddsrisker.

– Människan kan endast behandla en begränsad mängd information, och i detta avseende är utnyttjandet av artificiell intelligens och syntetiska språkdata en enorm möjlighet – så länge ansvarsfullheten står i centrum, funderar Lindh-Knuutila.

Kategorier:

Fler nyheter från Lingsoft