Recensie Taaltechnologie ontrafeld – Your logic just dereferenced a null pointer

Hoe taal en technologie hand in hand gaan

Cynthia Van Hee, Veronique Hoste

Omdat ik in een ver verleden me met Kunstmatige Intelligentie bezighield, probeerde het te studeren aan de Universiteit van Utrecht denk ik de grondbeginselen wel te snappen. Nog steeds heeft het mijn interesse en sinds november 2022 de wereld kennismaakte met ChatGPT ben ik alleen maar nieuwsgieriger geworden.

Omdat ik nogal snel een mening heb en die te pas en te onpas verkondig leek het me goed om dit boek te gaan lezen, Taaltechnologie ontrafeld. Ik kwam het tegen op de website van Neerlandistiek. Net nadat ik journalist Tom Van de Weghe een e-mail had gestuurd over zijn podcast over China en AI.

Waarschuwing: dit is een rant, een uitbarsting van woede, het is zeker niet goed geschreven, zinnen die niet lopen en ander ongemak. Het lezen van een populair wetenschappelijk boek daar had ik niet zien aankomen dat ik me zo vaak zou ergeren aan de inhoud. Helaas is dat wel gebeurt en deze recensie is om mijn verbazing van me af te schrijven.

Ik dacht, weet ik wel hoe de techniek van AI in 2024 werkt, wat klopt er nog mijn kennis uit 1992?

De kaft doet al meteen pijn, als lid van SOS – Signalering Onnodig Spatiegebruik – valt meteen op dat Taaltechnologie verkeerd geschreven is. Maar de schrijvers hebben iemand de kaft laten maken (Armée de Verre) en op zijn website zien we dat Armée een veelpleger is. Maar daar gaat het boek verder niet over. Laten we het over de inhoud hebben.

Het boek bestaat uit drie delen:

Wat is taaltechnologie
Taaltechnologische toepassingen
Maatschappelijke implicaties en ethiek

Dat is duidelijk. Voor mij is vooral Deel 1 belangrijk want ik wilde wel eens weten of ik de techniek wel juist had.

Deel 1 Wat is taaltechnologie

In drie hoofdstukken wordt alles helder uitgelegd, er komen heel veel termen aanbod maar ook voor mensen zonder voorkennis is het volgens mij goed te snappen. Het helpt wel als je ook Engels kent want er komen – natuurlijk – veel Engelse termen voorbij, die meestal vertaald en uitgelegd worden.

Hoofdstuk 2 heet Waarom is taal zo moeilijk? en daar komen al mijn favoriete onderdelen ter sprake. Disclaimer: ik heb mijn propedeuse na twee jaar niet gehaald en moest dus iets anders gaan doen. Maar laat ik nou net in die twee jaar wel de taalvakken gehaald hebben, Morfologie en Syntaxis, en mijn idee was dat ik de afstudeerrichting Vertaalcomputers zou nemen. Het liep anders.

Alles wat daar wordt behandeld denk ik wel onder de knie te hebben. Natuurlijk, wat we in 1990 konden doen achter onze Unix-terminals en Macs met Pascal en Lisp is niet te vergelijken met wat er nu mogelijk is. Wat ChatGPT kan, daar konden wij alleen maar van dromen.

In Deel 1 zijn de eerste twee hoofdstukken heel fijn geschreven en leggen alles uit over Taaltechnologie en toepassingen daarmee. In Hoofdstuk 3 begint het bij mij te kriebelen.

In het boek staan kadertjes die steeds beginnen met Wist je dat… Op pagina 49 lezen we dit:

WIST JE DAT….

… artificiële neurale netwerken geïnspireerd zijn op het menselijke brein? Ze zijn opgebouwd uit artificiële eenheden, neuronen genoemd, die de werking van biologische zenuwcellen nabootsen. Ze kunnen met andere woorden signalen ontvangen van en doorgeven aan andere neuronen. Zoals onze hersenen beter worden naarmate er meer en sterkere verbindingen worden gemaakt, zo wordt ook een neuraal netwerk beter als de signalen tussen neuronen sterker worden.

Dat is wel een erg versimpeling van de werkelijkheid. En wat is beter? Ik zou het houden bij dat er sterkere verbindingen worden gemaakt, daardoor wordt die verbinding belangrijker geacht, zeker in een neuraal netwerk.

Goed miereneuken is dit, we lezen gewoon verder.

Als we de bladzijde omslaan zien we op pagina 51 weer zo’n Wist je dat.

WIST JE DAT …

… de grote doorbraak van neurale aanpakken niet toevallig heeft plaatsgevonden? Een samenloop van omstandigheden heeft daartoe geleid. Ten eerste is de rekenkracht van computers sterk toegenomen dankzij de intrede van GPU’s (graphics processing units) die vooral bekend zijn uit de game-industrie. Daardoor is het mogelijk geworden om efficiënter te trainen met erg grote datasets. Ten tweede zijn er enorme hoeveelheden trainingsdata beschikbaar op het internet, in verschillende vormen en stijlen. Die data zijn cruciaal om lerende systemen te trainen en te verbeteren. Ten slotte werden de voorbije jaren geavanceerde architecturen en algoritmes ontwikkeld die een belangrijke rol spelen in machinelearning.

Maar geen woord wordt over alle negatieve zaken die hier ook bij horen: van energieverbruik tot het stelen van al die trainingsdata. En die GPU’s waren ook in trek bij de crypto-jongentjes (bitcoins bedoel ik dan, niet de beveiligingssector) en daardoor schaars en reteduur, kassa voor NVIDIA.

Frank waar maak je je druk over, er is nog een Deel 3 en daar zal dat uitgebreid besproken worden, toch?

Dat is ook precies de strekking van de laatste zin van Deel 1.

Deel 2 Taaltechnologische toepassingen

Dit is het uitgebreidste deel en er komt van alles langs.

In Hoofdstuk 1.5 Van spraak naar spraak is er voor mij iets onduidelijk. Het gaat om end-to-endsystemen. Daar wordt alleen maar gezegd dat er spraak ingaat en spraak eruit. Maar hoe dat kan en werkt blijft voor mij een raadsel.

End-to-endsystemen werken anders dan het watervalmodel. Ze zetten het akoestische signaal van de brontaal meteen om naar een akoestisch signaal in de doeltaal, zonder eerst een transcriptie te maken van de spraak. Net als de verschillende componenten in het watervalsysteem worden ze getraind met behulp van neurale netwerken. Ze worden echter in één keer geconfronteerd met alle uitdagingen die eigen zijn aan de drie onderliggende taken: spraakherkenning, automatische vertaling en spraakgeneratie.

Hoewel het geen sinecure is om zulke end-to-endsystemen te ontwikkelen die spraak rechtstreeks naar spraak vertalen, bestaan er al een aantal bruikbare systemen. SayHi Translate is een voorbeeld van een app om een gesproken brontaal rechtstreeks te vertalen naar een gesproken doeltaal.

Dit is jammer.

En dan begint Hoofdstuk 2 Chatbots. Hier is de schrijfster wel erg kritiekloos en alles is leuk en vrolijk. Siri, Alexa en Google Assistant worden gepresenteerd alsof je die gewoon kunt gebruiken bij al je dagelijks handelingen, nergens een waarschuwing of een kritische noot, niks. En dit boek is geschreven door – volgens mij dan toch – universitaire mensen, Prof. Dr. Hoste, Prof. Dr. Lefever, daar verwacht je toch iets meer van.

In dit hoofdstuk is ook aandacht voor de geschiedenis en dus komt Eliza voorbij, de eerste chatbot uit 1966. Wat ik daar mis is dat de schrijvers antropomorfisme vergeten uit te leggen. Want van Eliza tot ChatGPT is dat wat er meteen gebeurd. Mensen geven maar wat graag menselijke eigenschappen aan van alles en nog wat, aan hun huisdier, aan voorwerpen en ook aan computers die iets zeggen of tekst genereren. Dat is niet de verdienste van de chatbot dat is een handicap van mensen, sommige verbindingen in onze hersenen zijn te goed.

Kijk eens naar dit voorbeeld uit het boek (pagina 75)

Het voorbeeld gaat over een vlucht met een vliegtuig naar Singapore. Toen ik het las dacht ik alleen maar: “die mevrouw heeft geld zat”.

Nu ben ik eens gaan zoeken, op vliegwinkel.nl als ik vandaag (26 juni) een ticket boek voor 24 oktober dan kost me dat zo’n €570. Maar een directe vlucht is €1.158,-

Zoals ik al dacht die mevrouw heeft geld zat.

Dit werkt natuurlijk nooit zo en is weer een voorbeeld van het blije vrolijke kritiekloze schrijven over AI.

In hoofdstuk 3 komen we dan bij ChatGPT. En de schrijvers laten voltrots een stukje tekst zien die openAI gefabriceerd heeft:

Prompt:

Vul aan: ‘De eenhoorns organiseerden een theekransje in de zee met de’

Antwoord ChatGPT:

zeemeerminnen. Samen genoten ze van dampende kopjes zeewierthee en kleurrijke zandkoekjes terwijl de golven zachtjes tegen hen aan kabbelden. De zeemeerminnen zongen betoverende liederen en de eenhoorns deelden verhalen over hun magische avonturen op het land. Het was een bijzondere ontmoeting tussen twee legendarische wezens, een moment van vreugde en samenhorigheid in de diepten van de oceaan.

Eerst nog maar weer eens zeggen, wat ChatGPT kan is heel bijzonder, dat er lopende zinnen uitkomen is verbluffend. Het is ook geen complete onzin wat het uitkraamt, petje af.

Maar…. Lees zelf nog een keer het stukje en kijk of je ook ziet wat er misgaat. Want ChatGPT heeft geen kennis van de wereld, het weet niet wat het opschrijft. Het zoekt alleen heel knap het meest waarschijnlijke volgende woord. Heb je het al gevonden?

Waar zijn ze, de zeemeerminnen en de eenhoorns? Nee wacht, lees eerst nog dit: terwijl de golven zachtjes tegen hen aan kabbelden en dan nu: waar zijn ze? In de diepte van de oceaan. Kunnen daar golven zachtjes tegen hun aan kabbelen?

De schrijfster gaat verder met alleen maar jubelwoorden, alsof alleen maar dankzij de woordvectoren en de neurale verbindingen in het taalmodel je op het woord zeemeerminnen kan komen.

In dit hoofdstuk wordt ook gesteld dat ChatGPT semantisch is, “kan het vaststellen dat ‘eenhoorns’ semantisch verwant is aan andere dieren.” Nu moet ik meteen bekennen dat ik geen taalonderzoeker ben dus het kan zijn dat semantisch hier iets anders betekent dan mijn leken versie van semantisch. Tijdens het lezen had ik een aantekening gemaakt, dat ik niet geloof dat er sprake is van semantiek. En nu ik dit schrijf ben ik maar op zoek gegaan: does chatgpt has a semantic understanding, je mag zelf ook opzoek gaan. Ik vond dit:

and, most recently, ChatGPT. Increasingly, there have been suggestions that such systems have semantic understanding, or at least a proto-version of it. This paper argues against such claims. I argue that a necessary condition for a system to possess semantic understanding is that it function in ways that are causally explainable by appeal to its semantic properties.

En dit

The findings show that ChatGPT still fails to understand linguistically complex sentences, specifically those common in everyday discourse or not part of any standard textbook. More specifically, semantically ambiguous sentences and language games remain an uphill task for ChatGPT to understand. This has implications for further improving the output of ChatGPT.

Want in mijn wereldbeeld, en dat is die van een leek, niet van een taalwetenschapper, kun je alleen maar een semantisch begrip hebben als je ook deelneemt aan de wereld, En dat, jongens en meisjes, doet geen een chatbot op dit moment (en ik denk ook niet in de komende jaren).

Ik ben dan ook benieuwd wat de twee Prof. Dr.’s bedoelen met ChatGPT kan vaststellen dat een eenhoorn een dier is. Er zou een woordvector kunnen zijn die het label “dier” draagt en dat zowel eenhoorn als puppy dat label hebben. Als je die labels dan weer semantische labels gaat noemen, dan snap ik dat er een verwantschap is, want namelijk dezelfde vector met het label dier.

Voor mij is dat geen semantiek, want dan had ie de eenhoorns niet op de bodem van de oceaan gezet en daar dan nog kabbelende golfjes laten verschijnen. Want hier is duidelijk iets misgegaan met de semantische labels.

Op pagina 88 lezen we:

Zo worden nu al applicaties die gebouwd zijn op het GPT-model, ingezet voor journalistiek werk (redigeren van teksten, verzinnen van wervenede titels, genereren van socialemediaberichten), codeerwerk (computercodes schrijven) of documentanalyse (lezen en analyseren van pdf-documenten) Een dialoogsysteem zoals ChatGPT is dus nog maar het topje van de ijsberg.

Ik word hier heel droevig van, zoveel complimenten aan een bullshit-machine. Wervende titels, dat zijn dus clickbaits, codeerwerk is alles wat op stackoverflow staat met de kans dat je iets voorgeschoteld krijgt dat 5 jaar oud is en mocht je zelf op stackoverflow gaan kijken zul je zien dat bij het antwoord dat ChatGPT gekopieerd heeft er een opmerking staat als “onveilig” of “het is beter om…”.

Op het eind van hoofdstuk 3 is er 3.4 Beperkingen en uitdagingen. Ja serieus zo wordt het genoemd, uitdagingen! Een van die uitdagingen is natuurlijk hallucineren of genereren van onbetrouwbare tekst, zoals ze het zelf opschrijven. Het is al kwalijk dat taalwetenschappers meegaan met de buzzwoorden van de commerciële bedrijven en hallucinatie gebruiken om – nogmaals zoals ze het zelf omschrijven – onbetrouwbare tekst aan te duiden. In de woordenlijst worden ook hele lieve woordjes gebruikt om dit fenomeen aan te duiden, onverwacht en creatieve output, niet altijd wenselijk en dan om af te sluiten met “Het beheersen van hallucinaties is een belangrijk aandachtspunt”.

Serieus Universiteit Gent, deze taalgroep is een gevaar voor de samenleving. Alleen als je gelooft dat ChatGPT semantiek in zich heeft dan zou het kunnen dat je hallucinaties eruit gaat krijgen. Maar ChatGPT is een bullshitmachine, het gooit alleen het statistisch meest waarschijnlijk woord eruit, achter een ander meest statistisch waarschijnlijk woord.

En die uitdagingen, maatschappelijke uitdagingen, vooringenomenheid, of de reproductie van vooroordelen, haatspraak, discriminatie, fake news met hyperrealistische beelden en video’s. Dat zijn geen uitdagingen dat zijn gevaren die nu al spelen en uitgebuit worden.

O, wat haat ik al dat eufemistisch gedrag van deze hele schrijversgroep.

Oké, ze gebruiken niet alleen dat walgelijke uitdagingen, aan het slot zijn er ook nog bekommernissen. Bekommernissen zoals auteursrecht en sociaaleconomische impact.

Op pagina 94 staat iets waar ik heel blij van word. Ze leggen kort uit dat al die websites niet gelijkstaan aan het internet, maar een onderdeel ervan zijn. Vind ik altijd fijn als dat onderscheidt wordt gemaakt. En ik leer ook iets, er is een Surface Web, alle webpagina’s die iedereen kan bezoeken, Pagina’s die je alleen kunt zien omdat je de inlogcode hebt, van een privé-weblog tot medische en financiële websites heten het Deep Web Daaronder zit dan het Dark Web. Alleen de term Dark Web was mij bekend.

Hoofdstuk 5 behandelt Sentiment- en emotieanalyse, erg interessant. De openingsalinea voelt zeer vertrouwd aan. Lees even mee:

Wanneer je scrolt door je socialemedia-feed merk je misschien interessante reclameboodschappen op. Of misschien krijg je via Netflix en Spotify titels aangeboden die overeenstemmen met je smaak en voorkeur.

Nee, Cynthia Van Hee, Véronique Hoste en Orphée De Clerq, dat overkomt mij zelden. Ten eerste omdat ik niet op een commerciële sociale media zit (lees Facebook, Insta of Twitter), en ten tweede, ik thuis pi-hole heb en mijn browser Privacy Badger heeft ingeschakeld. Maar het is doorheen het boek zo frappant dat deze universitaire medewerkers zich zo makkelijk door het kapitalistisch gedachtengoed hebben laten inpakken. Gerichte reclame wordt als iets positiefs gezien, terwijl we allemaal allang weten dat het niet werkt, je krijgt een week lang die schoenen te zien die net gekocht hebt, je hebt een film gekeken omdat er een bepaalde acteur in meedeed, niet omdat je vanaf nu alleen maar romcoms of thrillers wilt zien. De NOS heeft een proef gedaan, lees maar.

Intermezzo: het is altijd jammer als mensen op een hoop gegooid worden:

Zelfs binnen eenzelfde taalgebied kan dat het geval zijn. Denk bijvoorbeeld aan het woord ‘patat’ dat in Nederland wordt gebruikt om te verwijzen naar frieten, terwijl het in Vlaanderen ‘aardappel’ betekent.

Hallo, #TeamFriet hier.

Einde intermezzo

Hoofdstuk 5.4 In de praktijk, daar lezen we:

Sentiment- en emotieanalyse worden dagelijks ingezet voor automatische analyse van user-generated content en zijn ook al succesvol toegepast om de uitkomsten van politieke verkiezingen te voorspellen, om het gebruik van emotiewoorden in verschillende literaire genres te vergelijken of om het kassucces van films te voorspellen op basis van recensies

Dat er emotiewoorden zijn vergeleken wil ik wel geloven de andere twee toepassingen zijn misschien gedaan en ooit succesvol gebleken maar het zijn juist twee zaken, verkiezingen en recensies, die wel meer toelichting verdienen. Bij die verkiezingen zal het gaan om twee-partijen-systemen, zodat je altijd al 50% kans hebt. En die filmrecensie zal ook vast wel kloppen, want soms komt de smaak van de recensenten overeen met het grote publiek. Het lijken mij vooral toepassingen die een grote kans van slagen hebben. Laat ze maar eens met emotiewoorden een verkiezing in België of Nederland voorspellen, dat is een stuk lastiger dan een Amerikaanse of Britse verkiezing.

Alles in dit boek ademt een positief gevoel voor de markteconomie, kijk maar naar deze zin:

Een systeem dat automatisch positieve en negatieve gebeurtenissen kan opsporen in financieel nieuws kan een waardevolle bron van informatie zijn voor beleggers.

Van alle voorbeelden die ze kunnen gebruiken komen ze met deze, een beroepsgroep die aan de grootste casino’s van de wereld hun best doen om van geld meer geld te maken. Beleggers brengen de mensheid helemaal niks goeds, echt helemaal niks, ze creëren niks ze maken alleen maar zaken kapot en zorgen dat zij die al (te)veel geld hebben nog meer geld krijgen, met helemaal niks doen. Maar you do you, en prijs het allemaal maar aan.

Dit hele hoofdstuk is zwak. Een ander voorbeeld gaat om nieuwsvoorziening en dat je dat positiever kunt uitdragen. Ze geven een voorbeeldzin:

De kruidenierszaak maakt nu plaats voor een vesting van de winkelketen.

Met hun sentiment- en emotieanalyse zouden er aanbevelingssystemen kunnen worden gemaakt zodat het geoptimaliseerd kan worden. Onduidelijk blijft voor wie het geoptimaliseerd wordt, ik vrees voor meer clicks, niet voor betere inhoud. Maar in hetzelfde hoofdstuk wordt uitgelegd dat die voorbeeldzin verschillende emoties kan oproepen, bij zij die kleine buurtwinkeltjes willen behouden en zij die wel van een grootgrutter houden. Dus hoe kun je dit nieuwsfeit optimaliseren? Spoiler: dat gaat niet. Tenzij, en ik mag hopen dat ze dat niet bedoelen, het bericht wordt aangepast met kennis over de lezer, de ene krijgt een tirade dat het grote geld alles overneemt, de andere een fijn verhaal over hoe alles beter wordt dankzij de nieuwe eigenaar. Dat kan alleen als van allebei de bezoekers van de nieuwswebsite zo’n beetje alles bekend is. Iets wat deze groep wetenschappers niet als een probleem beschouwt.

Hoofdstuk 6 Auteursherkenning en profilering

Het nadeel als je ouder wordt is dat je al heel veel informatie tot je hebt gekregen soms zelfs maakte je het mee, maar wat voor een jongere generatie al als geschiedenis wordt beschouwd, het winnende doelpunt van Marco van Basten in 1988, de dood van prinses Diana.

Zo komt er een voorbeeld waarin auteursherkenning gebruikt zou zijn in een opmerkelijke zaak, de Unabomber. Zoek maar even op als het je niks zegt.

In het boek wordt een grote eer gegeven aan de FBI en hun tekstanalyse, oké denk je als argeloze lezer, wat mooi dat met alleen maar de tekst te analyseren een man kon worden opgepakt voor vele bomaanslagen.

Ik zal jou en de hele vakgroep van de UGent uit de droom helpen.

Het was dankzij de schoonzus van de Unabomber dat hij kon worden opgepakt. Linda Patrik had nog nooit de broer van haar man ontmoet, die was al bijna 20 jaar weg en woonde alleen ergens in de bossen. Zij was het die tegen haar man zei dat ze dacht dat zijn broer de unabomber was. Toen het Manifesto openbaar werd gemaakt, gepubliceerd in The Washington Post, las David het en zag in dat het heel goed zijn broer kon zijn. Daarna zijn er tekstanalyses gemaakt met brieven van Ted. Die bevestigde wat Linda Patrik al helemaal zelf had uitgevogeld.

Iets meer credits voor Linda Patrik en wat minder voor de FBI en tekstanalyse.

Hoofdstuk 6.2 Profilering: Wie ben ik?

Het zal wel aan mij liggen maar bij profilering lopen de rilling over mijn rug. Maar niet bij deze onderzoeksgroep. Met veel bravoure verkondigen ze dat je met tekstanalyse achter heel veel feiten kunt komen, van sekse tot leeftijd, introvert of extrovert en ook neurotische gedragingen (ik denk dat ze heel blij zijn met mijn tekst hier, leef je maar uit!). Helaas is ook dit een statistiek dingetje is, net als het woorden raden van ChatGPT. De kans dat het een vrouw of man is bij gebruik van bepaalde woorden groot of klein. Maar dat je met 100% zekerheid kunt zeggen hoe oud iemand is, waar hij of zij vandaan komt en welke neurotische aandoeningen ik heb kun je niet uit de tekst halen. Waarschijnlijkheden, beste onderzoekers. En ja ze noemen het her en der, maar het is vooral alsof alles zekerheidjes zijn.

En wie laten ze al die profileringen gebruiken? Natuurlijk de vrije markt:

Op die manier kunnen bedrijven en marketeers klantenprofielen maken om gerichte advertenties te ontwikkelen die afgestemd zijn op de kenmerken en de behoefte van de doelgroepen.

Ik hoop dat je nu begrijpt waarom ik me zo ongelofelijk kwaad maak over dit boek, misschien leg ik op te veel slakken zout maar het is echt onbegrijpelijk voor mij waarom deze wetenschappers, waar je van mag verwachten een kritische blik te hebben, zo meegaand zijn met de commercie, met Facebook en marketeers for god sake. Ze schrijven het echt hè: gerichte advertenties te ontwikkelen die afgestemd zijn op de kenmerken en de behoefte van de doelgroepen. Laat ze alsjeblieft een dagje met een technoloog praten dan leren ze misschien de term surveillance capitalism (en omdat het gevaar op de loer ligt dat ze denken dat het iets is om na te streven, nee beste taalwetenschappers, surveillance capitalism is slecht, heel slecht)

En dat dit stukje proza op pagina 121

Het staat buiten kijf dat het misbruiken van persoonlijke informatie zonder medeweten of toestemming van gebruikers belangrijke vragen oproept over dataprivacy. Hoe komt het dan dat we daar niet meteen van wakker lijken te liggen? Ook voor ons als individu is profilering interessant: het zorgt ervoor dat we niet overspoeld worden met advertenties van producten of diensten die ons niet interesseren, of dat we net die films en muziek aangeboden krijgen die ons wel interesseren. Dat we voor die betere gebruikerservaring een deel van onze privacy in de weegschaal leggen, nemen we er gewoon bij. Het is onbegonnen werk om bij elke nieuwe website die we bezoeken of bij elke nieuwe app die we uittesten de cookievoorwaarden te lezen, wat ertoe leidt dat we die voorwaarden soms zonder meer aanvaarden. Bijgevolg leveren wij, de gebruikers, bedrijven als Google en Meta dagelijks ons klik- en likegedrag en onze online teksten aan. Daardoor zijn die bedrijven uitgegroeid tot wereldwijde datagiganten die onze data doorverkopen voor marketingdoeleinden. Dat is niet alleen een doorn in het oog van nationale overheden, maar ook van de vader van het WWW, Tim Berners-Lee.

Hier gaat zoveel mis. Ook voor ons is profilering interessant? WTF! Ooo, want dan worden we niet overspoelt met oninteressante advertenties. Noem mij één interessante advertentie! Nogmaals, als je het internet op gaat bescherm je jezelf, je hebt minimaal een adblocker in je browser. Maar dan nog, als ik een advertentie voorgeschoteld krijg dan is die zeker weten oninteressant en zo heb ik ze het liefst, hoef ik er maar een milliseconde aandacht aan te geven en kan ik die webpagina gaan lezen, de reden van mijn bezoek aan die website.

Ook het alles op een hoop gooien van cookies en data. Nee beste Taalwetenschappers, bij een app gaat het voornamelijk niet om cookies, maar om trackers en data die van je telefoon wordt gezogen en doorverkocht. Het is begrijpelijk, dit zijn taalwetenschappers en waarschijnlijk volledige alfa’s (daar is niks mis mee!), tijdens hun studie komt dit op hun pad maar ze worden niet onderricht in alle technische kanten. En dus schrijven ze maar op dat je toestemming geeft voor een cookie in plaats van dat je adressenboek wordt gekopieerd, misbruikt en verkocht, dat je gps-gegevens worden bijgehouden, en nog veel meer.

Het ongegeneerd aanprijzen van gerichte reclame is natuurlijk ook heel erg, Welke kritische houding leren mensen nog, is de UGent gewoon een dependance van Google of Meta?

En dan over die cookies en dat we overal maar ja op klikken, hoe verhoudt zich dat tot zelfstandig denkend mensen? Die cookiesbanners zijn allemaal illegaal, allemaal. Vraag het maar aan https://noyb.eu/nl zij willen jullie vast en zeker helpen om dit boek beter te maken voor de volgende druk.

Deze taalwetenschappers schrijven doodleuk de pr over van Google en hun planen over het afbouwen van third-party cookies. Het zit net even anders, lees dit maar.

En ik snap heel goed dat taalwetenschappers geen experts zijn op het gebied van privacy, van webtechnieken, en andere technische zaken. Maar had je alsjeblieft laten informeren, had één iemand van een ander faculteit gevraagd om mee te lezen. Dan waren al deze fouten eruit gebleven en had ik een recensie kunnen schrijven die lekker kort en positief was.

Hoofdstuk 7 Zelf aan de slag

Het begint al meteen goed:

En zelfs de meest geavanceerde, nieuwe technologieën zijn gratis beschikbaar via een online interface.

Als het gratis is ben jij het product.

Dan komen er heel veel oproepen om maar vooral van alles te gaan proberen. Meerdere chatbots dezelfde vragen stellen en kijken wat ze allemaal als antwoord geven. Maar je kunt het ook klassikaal gaan doen, lekker met zijn alle chatbots bevragen, plaatjes maken. Nee, lieve mensen, al die leuke chatbots zijn milieuvernietigers.

En je wordt gevraagd om je favoriete socialemedia-app te open en uit te zoeken waarom je welke advertenties te zien krijgt. Heb ik gedaan natuurlijk. En wat blijkt, ik krijg helemaal geen advertenties! Want ik zit op Mastodon. Dit boek is zo vreemd. Ja maar Frank, heel veel mensen hebben wel FB, Insta, TikTok, X en al die andere levensgevaarlijke kanalen. Ja dat klopt maar moet je als wetenschapper dit allemaal maar voor lief nemen in plaats van duidelijk maken dat er hele slechte bedrijven op deze wereld zijn en dat je daar helemaal niks te zoeken hebt, never nooit niet.

Zou het niet verstandiger zijn als we de wereld beter maken, in plaats van genocidefacilitators helpen, in plaats van een Zuid-Afrikaanse racist te steunen, in plaats van een bedrijf dat ooit het motto had “do no evil”, en nu zelf het ultieme evil is geworden, van clicks en geld te voorzien. Zou het toch niet mooi zijn als op zijn minst mensen die gestudeerd hebben een kritischere houding hebben tegenover de status quo. Dit boek geeft mij zo’n slecht gevoel, het braaf meelopen met de commercie, met het grote geld. En af en toe een kanttekeningetje.

Daarmee gaan we het niet redden.

Deel 3 Maatschappelijke implicaties en ethiek

Kijk toch eens Frank, al jouw drukte om niks. Hier een heel deel over al die zaken die je hierboven benoemd hebt. Krijg je toch je zin en was die hele rant van jou niet nodig geweest, ook beter voor je hart trouwens.

Ja, dat dacht ik ook, maar helaas. Al begint het goed en hoopvol. Er worden verschillende zaken benoemd, allemaal zaken die in de bladzijdes daarvoor heel licht zijn aangestipt maar vooral genegeerd.

Ze verwoorden het zelfs heel moedig:

Aan taaltechnologische systemen en machinelearning zijn ook enkele gevaren verbonden.

Vooringenomenheid, in-group bias, out-group homogeniteitsbias, raporteerbias, selectiebias, genderbias, statistische discriminatie, technochauvinisme, deepfakes, machtsongelijkheid. Dit wordt allemaal genoemd en uitgelegd, prima. Maar daarna is er tijd voor…

Slim leren, slim werken: kansen met taaltechnologie en AI.

Om dit in goede banen te leiden moeten ze wel van dezelfde buzzwoorden gebruik maken als de verkopers van AI, dus worden bedrijfsprocessen geoptimaliseerd, innovatieve leermiddelen (bijvoorbeeld apps) bedacht, gepersonaliseerde gezondheidsadviezen komen er aan en triage met behulp van chatbots is geen enkel probleem.

De lijst is nog veel langer en groeit aan met elke nieuwe succesvolle ontwikkeling.

Natuurlijk UGent, natuurlijk. Wel grappig dat ze hiervoor net technochauvinisme hebben uitgelegd, ik schrijf het hier ook maar even op, zodat de vakgroep Taaltechnologie ook ziet hoe grappig hun boek is.

Idee dat technologie een antwoord biedt op alle maatschappelijke problemen, met als risico dat men te optimistisch wordt en daardoor blind voor de gevaren.

Dit is jullie boek! Jullie geloven daadwerkelijk dat er van alles kan met taaltechnologie en vergeten om eerst na te denken over de mogelijke gevolgen en of je het wel wilt.

Dit is waarom ik zo boos werd tijdens het lezen van het boek. Want alle gevaren worden heel summier benoemd en vallen weg in alle halleluja-verhalen. Ook in dit deel is maar een deel besteed aan de gevaren om dan snel te schakelen naar jullie techno-utopie.

Het deel over recht op privacy en gegevensbescherming lees ik alsof alles een voldongen feit is, tja al het materiaal is al gekopieerd en op de harde schijven van openai en soortgenoten terecht gekomen. Er had misschien eerst toestemming moeten worden gevraagd. En dan de dubieuze slotzin:

Er wordt volop onderzocht hoe wetgeving inzake auteursrecht aangepast moet worden om een antwoord te bieden op die nieuwe uitdagingen (zie onder andere Lucchi, 2023).

Vanuit wie is dit geschreven? Ik heb naar Lucchi gekeken en van de Conclusion uit zijn paper werd ik niet blij. Dit is een verkenning, lekker makkelijk, en hij komt niet verder dan dat in de toekomst we hier echt heel goed naar moeten kijken. Ik wou dat ik ook rechten had gestudeerd en dit soort papers kon schrijven.

Mijn paper zou veel korter zijn, trouwens. Het illegaal kopiëren van werk van anderen, teksten, beelden, muziek, video en wat er nog meer is, moet net zo hard gestraft worden als hoe we rond de eeuwwisseling achter pubers aangingen die muziek downloadde. Toen zijn er tieners aangeklaagd voor miljoenen dollars en vele veroordeeld voor duizenden tot honderdduizenden dollars, en dat was alleen voor wat muziek die ze zelf leuk vonden. Deze AI-bedrijven hebben ongeveer het hele internet geroofd. Dus ik zie met vertrouwen de geldboetes en gevangenisstraffen tegemoet voor de Sam Altmans van deze wereld.

En de schrijvers noemen ook de klimaatbelasting van dit speelgoed, om er meteen achteraan te schrijven dat AI al die datacentra efficiënter gaat maken (technochauvinism, anyone?).

Dit is de afsluitende alinea, die ik graag kopieer:

De ontwikkeling en het gebruik van artificiële intelligentie gaan ons alle aan. Het is dan ook van cruciaal belang dat er een sterk en breed bewustzijn is van wat de voordelen en de gevaren zijn van AI-gedreven technologieën, alsook van de nood om technologie te ontwikkelen met respect voor mensenrechten, democratie en het klimaat.

Mijn advies aan de taalgroep van UGent is om deze wijsheid tot jullie te nemen en het boek daarna helemaal te gaan herschrijven.

Succes.

Nog wat taaldingetjes

Vlaams

Gecontesteerd: … het idee van universele basisemoties sterk gecontesteerd is? (pagina 103)

Performantere: … een vaak nog performantere datagebaseerde aanpak. (pagina 118)

Immobedrijven: Volg je profielen van immobedrijven, modehuizen of avontuurlijke reisagentschappen? (pagina 118)

Overige

De opleiding notenleer is een metafoor voor het taalmodel, het instrument leren te bespelen is de spreekwoordelijke finetuning. (pagina 87)

Volgens mij wordt hier op een onjuiste manier beeldspraak toegepast.

, als zal zo’n lexicon in werkelijkheid natuurlijk veel uitgebreider zijn.

Dit is denk ik een tikfoutje: al zal zo’n lexicon….

En nog iets anders

Op pagina 111 staat weer een handige QR-code maar deze brengt de lezer naar YouTube. Waarom willen deze universitaire medewerkers ons naar grote commerciële platformen sturen? Waarom niet op de website van de Universiteit van Gent het filmpje geplaats, het is niet zo dat dit boek nu de servers plat zal krijgen door de grote aantallen bezoekers. Stop met uw kennis op platforms te zetten die het slechtste met de mensheid voorhebben, of dat nu Google, Meta of X is.