Computer
Samfund

Kan du huske hestenettet? Nu bliver det brugt til at udvikle kunstig intelligens

28. september 2023
Kristina Forná
Foto: Unsplash
Ja, du læste rigtigt. Heste-nettet har været med til at opbygge et datasæt, der kan træne for eksempel chatrobotter i at kommunikere på dansk.

Var du en af dem, der lavede artopistolen på Arto og chattede med dine venner på Myspace, så kender du helt sikkert også til Heste-nettet.

Onlineforummet hvor du i høj grad, i modsætning til hvad navnet ellers antyder, kan spørge og finde svar på alt, hvad hjertet begærer. Lige fra hvilke instantnudler, du skal købe til hvilken barnedåbsgave, du skal give.

Og hvis du ikke troede, at Heste-nettet kunne slå sig selv og blive endnu vildere, så skal du læse med her.

En gruppe af primært danske forskere har nemlig brugt hjemmesiden til at udforme et datasæt, der kan bruges til at udvikle kunstig intelligens, som vi kender fra for eksempel chatrobotten ChatGBT.

Helt konkret kan datasættet bruges til at udvikle en såkaldt sprogmodel, der kan lære kunstig intelligens at skrive og kommunikere på dansk.

Det skriver DR.

Forskningen stammer fra 2021, så det er som sådan ikke ny forskning, men det er først i denne uge, at det amerikanske medie Bloomberg, ironisk nok, opdagede nyheden om Heste-nettet.

Over en femtedel stammer fra Heste-nettet

Datasættet kaldes for Danish Gigaword, og hele 22 procent af det stammer fra Heste-nettet.

Det er langt den største andel fra én enkelt kilde i datasættet, viser forskningsartiklen.

Og hvorfor lige Heste-nettet, tænker du måske?

Det skyldes, at sprogmodeller skal bruge store mængder af data for at blive succesfulde, men det kan være svært at finde nok dansk data på nettet, hvor meget af det, der ligger tilgængeligt, desuden er bundet af stramme ophavsregler.

Men her kommer Heste-nettet til undsætning.

Heste-nettet er desuden ekstra nyttigt, fordi det illustrerer almindeligt dansk talesprog i modsætning til de danske lovtekster, som forskningsgruppen ellers havde adgang til.

- Der er mange meninger og mange forskellige folk, der skriver om alt muligt i en spontan stil. Og det gør det meget værdifuldt set fra et lingvistisk (sprogvidenskabeligt, red.). synspunkt, siger Leon Derczynski til DR.

Han er professor på IT-Universitetet i København og er en af de forskere, der står bag Danish Gigaword.

Måske, måske ikke?

Om dataen genereret på Heste-nettet allerede er i aktion og anvendes til kunstig intelligens, er der usikkerhed omkring.

Bloomberg skriver, at der allerede på nuværende tidspunkt er sprogmodeller, der bliver trænet på Danish Gigaword, og på Heste-nettets hjemmeside skriver de, at Heste-nettet er blevet brugt til en stor del af den dansksprogede del af ChatGPT.

Men det er Leon Derczynski ikke sikker på.

- Det kan vi ikke vide. For de fortæller ikke, hvad de bruger og ikke bruger. Og det er også problematisk, siger han til DR.

Vil du lytte til femina update? Så lyt til vores podcast, hvor vi en gang om ugen dykker ned i en af de største historier fra vores verden og folder den ud for dig. Du kan lytte til podcasten i appen Ally, i Apples podcast-app eller på Spotify:

Læs også