July 14, 2021

Hallo, ik ben Tracey. Hoe voel je je vandaag?

Herken je jezelf in de eerste afbeelding? Je probleem proberen uit te leggen aan een chatbot kan een vervelende ervaring zijn. Een gesprek vergelijkbaar met de tweede illustratie heeft misschien de voorkeur. Een waar uw problemen worden begrepen en de chatbot waarmee u communiceert, uw behoeften kan begrijpen. Recente ontwikkelingen op het gebied van kunstmatige intelligentie maken dit mogelijk, omdat chatbots steeds vaker worden uitgerust met empathie. Hiertoe worden emotieherkenningsalgoritmen gebruikt om emoties te detecteren uit tekst, spraak of gezichtsuitdrukking. Deze modellen worden al gebruikt in onder meer social media platforms, de nationale veiligheid en de geestelijke gezondheidszorg (bron). Geavanceerde AI-algoritmen in chatbots kunnen worden getraind om op de juiste manier op klantproblemen te reageren om klantbehoud en -tevredenheid te verbeteren. Emotie is inherent aan de mens. Daarom bent u het hopelijk met mij eens dat ethische overwegingen belangrijk zijn bij de ontwikkeling van deze toepassingen.

Hallo Tracey

Bij Tracey ontwikkelen we conversatie-AI voor onze chatbot. We verkennen het veld van empathische AI ​​in onze gespreksmodellen. Ik kreeg de kans om de mogelijkheden te onderzoeken om onze chatbot te voorzien van emotieherkenningsmogelijkheden. Omdat onze klanten zich voornamelijk in Nederland bevinden, zal de chatbot in het Nederlands moeten communiceren. Algoritmen voor kunstmatige intelligentie (AI) hebben trainingsgegevens nodig om te leren hoe ze hun taak moeten uitvoeren. Ik zou de gespreksalgoritmen alleen kunnen voorzien van emotieherkenning als er een voldoende grote dataset met voorbeelden (tekst en de in de tekst overgebrachte emotie) beschikbaar was. Voor de Nederlandse taal zijn dergelijke gegevens niet openbaar beschikbaar; daarom heb ik besloten om het te maken. De totstandkoming van dit corpus is een uitdaging van zo'n complexiteit dat het de volledige loop van mijn afstudeerproject in beslag nam. Door het creëren van dit corpus zal mijn onderzoek bijdragen aan het einddoel van de ontwikkeling van Nederlandse emotionele-conversationele AI voor chatbots.

Emotie?

“Iedereen weet wat een emotie is, totdat hem gevraagd wordt een definitie te geven. Dan lijkt het alsof niemand het weet” (bron). Er zijn veel verschillende theorieën over emotie (dit artikel geeft een diepgaand overzicht van de zes belangrijkste). In de afgelopen eeuw zijn er meer dan 100 kaders ontwikkeld om te beschrijven welke emoties er zijn. De huidige situatie in de psychologie is dat er geen consensus is bereikt onder theoretici over welk kader het beste de verscheidenheid aan emoties die men kan ervaren verklaart. Sommigen beweren dat er meer dan 20 basisemoties bestaan, anderen geloven dat het er maar zes zijn. De theorieën die geloven dat er n basisemoties bestaan ​​en dat complexere emoties mengsels zijn van deze basisemoties, worden in de literatuur basisemotiestheorieën genoemd. Daarentegen geloven dimensionale theoretici dat in plaats van discreet te zijn en duidelijke grenzen te hebben, emoties worden gevormd uit een combinatie van (n) dimensies en dus continu van aard zijn. Dimensionale theorieën gaan uit van relaties tussen emotiecategorieën. Ten slotte zijn er hybride vormen, zoals het model van Plutchik, dat een reeks basis (primaire) emoties formuleert die zijn afgeleid van evolutionair gunstig gedrag, maar ook relaties tussen basisemoties veronderstelt. Het model van Plutchik bevat dus elementen uit de basisemotietheorie en dimensionale theorieën.

Ontwikkeling van het corpus

Natuurlijke tekst is verkregen door de internetplatforms Reddit en Trustpilot te schrappen. Na het verzamelen werden de stukjes tekst (uitingen) onderworpen aan een kleine hoeveelheid gegevensopschoning. Via de annotatietool doccano hielp een team van 16 vrijwillige annotators bij het labelen van de gegevens. De annotators kregen een lijst met emotielabels, met de respectievelijke definitie. Ze werden gevraagd om zichzelf in de positie van de auteur van de uiting te plaatsen en alle emoties te labelen die ze zeker wisten te herkennen. In totaal werden 2200 uitingen geannoteerd door het vrijwilligersteam.

Maar… GIGO?

Datawetenschappers kennen de term ‘Garbage in Garbage out’ wel. Het betekent in feite dat als uw trainingsgegevens van onvoldoende kwaliteit zijn, u geen bevredigende prestaties kunt verwachten van een model dat op deze gegevens is getraind. Dit impliceert dat als men een ‘taalproducerend algoritme’ zou trainen met een corpus dat uitsluitend aanstootgevende taal bevat, dit model uitsluitend aanstootgevende taal zou produceren. In correspondentie moest het corpus dat ik aan het maken was van voldoende kwaliteit zijn om een ​​goed model op te leiden. Op het moment van schrijven is er geen duidelijke metriek (of reeks metrieken) die geschikt is om de corpuskwaliteit te meten. De meeste corpus-makers publiceren de geldigheid van hun annotaties echter met behulp van Inter-Annotator Agreement.

Het betekent in feite dat de makers van het corpus uitgaan van gegevenskwaliteit door te kijken in hoeverre annotators het met elkaar eens zijn terwijl ze dezelfde uiting labelen. Het idee van een overeenkomst tussen de annotatoren werd in dit werk toegepast door alle annotators een set van 70 identieke uitingen te laten labelen. Een naïeve benadering zou zijn om te kijken naar hoe vaak de annotators hetzelfde label kiezen voor elke uiting. Aangezien annotators echter per ongeluk hetzelfde label kunnen kiezen, is deze benadering ongeldig. De manier waarop de waarschijnlijkheid dat annotators hetzelfde label kiezen, wordt gemodelleerd, verschilt tussen de metrische gegevens over overeenkomst tussen annotatoren. Voor dit werk werden annotaties gevalideerd met behulp van Krippendorff's alpha.

Hoe zit het met Bias?

Als een groep annotators een vergelijkbare vooringenomenheid heeft, kan deze groep een hoge mate van overeenstemming bereiken in een annotatietaak. Het resulterende corpus bevat niettemin deze bias, en men kan zich afvragen of de kwaliteit van een dergelijk corpus voldoende is. Daarom zijn er aanvullende analyses uitgevoerd om mogelijke vooroordelen in het corpus te ontdekken. Verschillende annotators zijn uit het team van annotators verwijderd omdat ze een voorkeur hadden voor een of twee emotielabels (een annotator koos bijvoorbeeld het label Joy significant vaker dan in het algemeen). Transparantie en verantwoording van mogelijke bias in de dataset is gegarandeerd door twee ethische kaders toe te passen. De datasheets voor datasets en data-statements.

Wat hebben we geleerd?

Ik heb met succes een Nederlands emotiecorpus ontwikkeld. De scores voor overeenstemming tussen de annotatoren zijn superieur aan die in de literatuur, wat wijst op een state-of-the-art prestatie. Bevindingen van het annotatieproces zijn onder meer dat een grondige voorbewerking van uitingen het annotatieproces zou kunnen verbeteren. Sommige uitingen waren bijvoorbeeld geannoteerd met antonieme emoties (bijvoorbeeld Vreugde en Woede). Bovendien werd bijna 25% van alle uitingen door de annotatoren als onbruikbaar beschouwd en dus uit het uiteindelijke corpus verwijderd. Dit kan worden gezien als tijdverspilling van de annotators. Er werd gevonden dat de overgrote meerderheid van de uitspraken in een vreugdevolle emotie waren geschreven. Angst werd bijna nooit gevonden in uitingen (< 1%). Dit geeft aan dat als iemand dit corpus zou gebruiken om een emotieclassificatie-algoritme te maken, hij of zij rekening moet houden met deze klassenonbalans. Door dit corpus te creëren, kwamen we een stap dichter bij de ontwikkeling van emotie-herkennende gespreks-AI.