Vasemmalla näkyy yhdellä jatkuvalla viivalla piirretty ihmisen pään sivuprofiilin ääriviiva. Oikealla on teksti 'Lingsoft talks AI', jossa 'AI' on suurilla kirjaimilla ja lihavoituna.

Lingsoft on hyödyntänyt tekoälyä toiminnassaan jo 40 vuoden ajan. Lingsoft talks AI on artikkelisarja, jossa omat asiantuntijamme antavat näkemyksensä tekoälystä sekä sen käytöstä ja mahdollisuuksista kielialalla.

Kieliteknologian ytimessä sykkii data. Miljoonat sanat, äänet ja ilmiöt opettavat tekoälyä ymmärtämään ja tuottamaan kieltä. Mutta kaikki data ei ole samanarvoista: luotettava kieliäly vaatii tuekseen laadukasta, vastuullisesti käsiteltyä dataa.

Näin data ohjaa kieliteknologian kehitystä Lingsoftilla

Lingsoftin Data Leadin Tiina Lindh-Knuutilan mukaan kielidata on ikään kuin tekoälyn polttoainetta. Kieliteknologian kehitys nojaa siihen, että tekoäly saa käyttöönsä valtavan määrän kielellisiä esimerkkejä, eli tekstiä ja puhetta, jotka heijastavat todellista kielenkäyttöä.

– Puheentunnistus tarvitsee datakseen sekä ääntä että tekstiä, konekäännös puolestaan mahdollisimman tarkasti kohdennettuja tekstejä. Kaikki teksti tai audio ei kuitenkaan ole käyttökelpoista dataa, vaan kielimateriaalin tulee olla tarkkaa, yhdenmukaista ja nykyaikaista, Lindh-Knuutila kuvaa.

Lingsoft hyödyntää avoimia datasettejä sekä tarvittaessa ostettuja aineistoja. Yhteistyössä asiakkaiden kanssa kehitetään myös malleja, joissa käytetään asiakkaan luvalla heidän aineistojaan. Yksittäisen datasetin laajuus voi olla miljoonia rivejä, ja yksittäisten sanojen tulee esiintyä useita kertoja, jotta malli todella oppii.

Laadukas ja turvallinen data tekee kieliälystä luotettavamman

Tekoäly ei voi olla älykkäämpi kuin sille syötetty data. Virheellinen tai puutteellinen aineisto johtaa väärään oppimiseen, mikä Lindh-Knuutilan mukaan näkyy tuloksissa heti.

– Huono data on virheellistä: siinä voi olla kirjoitusvirheitä, puuttuvia välimerkkejä tai epäjohdonmukaisuutta. Hyvä data puolestaan heijastaa todellisuutta ja kuvaa ilmiöitä tarkasti.

Lingsoftilla pidetään aina osa datasta erillään testausta varten, jolloin mallin toimivuus voidaan varmistaa käytännössä. Pitkä kokemus ja toimivat käytännöt kieliteknologiasta ovat Lingsoftin vahvuuksia. Myös datan luotettava hallinta ja eettinen käsittely ovat osa arkea.

Suomalainen data on arvokasta

Pienten kielialueiden omavarainen datan hallinta on sekä kilpailuetu että yhteinen vastuu. Lingsoftilla suomalainen data pysyy kotimaisissa käsissä, ja se on merkittävä ero verrattuna globaaleihin toimijoihin.

– Pienten kielten osalta tarvitaan yhteisiä pelisääntöjä. Ne tukevat niin käyttäjien kuin kielenkin etua. Samalla varmistetaan, että teknologia kehittyy oikeaan suuntaan. Kun toimitaan generatiivisen tekoälyn parissa, riskit kasvavat, joten vastuullinen yhteistyö ja sääntely ovat todella tärkeitä, Lindh-Knuutila painottaa.

“Hyväänkään tekoälyyn ei voi luottaa sokeasti. Siksi meillä on aina ihminen mukana.”

– Tiina Lindh-Knuutila, Data Lead, Lingsoft

Human in the loop – ihminen valvoo ja varmistaa

Vaikka tekoäly käsittelee valtavia tietomääriä, Lingsoftilla ihminen pysyy aina ohjaimissa. Lindh-Knuutila muistuttaa, että tekoäly voi tehdä virheitä, vaikka taustadata olisikin täydellistä.

– Meillä ei koskaan käytetä täysin automatisoituja ratkaisuja. Ihmisen tehtävä on validoida ja kuratoida, ja tekoälyn pitää tukea ihmistä, ei korvata häntä. Emmekä edes haluaisi antaa koneille kaikkia luovia tai ajattelua vaativia tehtäviä.

Vastuullista kehitystyötä synteettisen datan avulla

Tulevaisuudessa datan määrä kasvaa eksponentiaalisesti, ja sen myötä myös mahdollisuudet kehittyvät. Lingsoft tutkii myös synteettisen datan, eli oikeaa dataa muistuttavan, mutta keinotekoisesti tuotetun datan käyttöä. Synteettisen datan avulla voidaan kehittää kielimalleja tehokkaasti ilman tietosuojariskejä.

– Ihminen pystyy käsittelemään vain rajallisen määrän tietoa, ja tässä mielessä tekoälyn ja synteettisen kielidatan hyödyntäminen on valtava mahdollisuus – kunhan vastuullisuus pysyy keskiössä, Lindh-Knuutila pohtii.

Kategoriat:

Lisää uutisia Lingsoftilta