Skip to ContentSkip to Navigation
Maatschappij/bedrijven Samenwerken met de Rijksuniversiteit Groningen Industry Relations
Header image Industry Relations

Analyse van Twitterberichten via machine learning

Datum:19 november 2019
Auteur:Team Industry Relations
© photo: Pixabay
© photo: Pixabay

Analyse van Twitterberichten door machine learning 

Politici en journalisten plaatsen steeds vaker berichten op Twitter. De inhoud is interessant voor wetenschappelijk onderzoek, bijvoorbeeld naar hoe zij zich online gedragen. Om de berichten te analyseren moet je ze echter eerst coderen. Tot nu toe gebeurde dit handmatig, maar dit is een tijdrovend proces. Geautomatiseerde analyse zou dit probleem oplossen. Marcel Broersma, hoogleraar Journalistieke Cultuur en Media aan de Faculteit der Letteren en directeur van het Centre for Media and Journalism Studies, doet hier namens de Rijksuniversiteit Groningen (RUG) onderzoek naar.

De opkomst van sociale media heeft er voor gezorgd dat communicatie tussen politici en burgers niet altijd meer via een journalist verloopt. Via Twitterberichten brengen politici hun boodschap steeds vaker direct over aan burgers. ’Een Twitterbericht van maximaal   tekens vertelt ons meer dan je in eerste instantie misschien zou verwachten’, vertelt Broersma. Naast de algemene informatie, zoals de datum en tijd van plaatsen of de persoon die het plaatst, kun je elk bericht ook zien als een bepaalde vorm van gedrag. Politici vertellen bijvoorbeeld waar ze naartoe gaan, ze geven een update over hun campagne of gaan in debat met burgers over inhoudelijke onderwerpen.

Met name dit gedrag op Twitter is interessant voor vergelijkend wetenschappelijk onderzoek. Voor het uitvoeren van dit soort onderzoek is het belangrijk dat de Twitterberichten eerst worden gecodeerd voor verschillende categorieën. Tot nu toe is dat handmatig gedaan door student-assistenten die participeren in het onderzoeksproject. Maar dit kost veel tijd en brengt een beperking met zich mee in het aantal tweets dat kan worden gecodeerd. ‘Daarom gaan we kijken of dit proces geautomatiseerd kan worden. De uitdaging hierbij ligt in het automatisch coderen van gedrag. Dit is een hele moeilijke opdracht, niet alleen voor de computer maar zelfs voor mensen, omdat hierbij interpretatie heel belangrijk is.’

Van bericht naar gecodeerde dataset

Op welke manier wordt het proces dan geautomatiseerd? ‘Samen met het Centrum voor Informatie Technologie (CIT) van de RUG is een zogeheten Twittercrawler ontworpen’, legt Broersma uit. Deze applicatie zorgt ervoor dat een specifieke selectie van Twitterberichten kan worden binnengehaald, gecodeerd en geanalyseerd. Daarnaast gebruiken we machine learning algoritmes: als er voldoende met de hand gecodeerde berichten worden ingelezen, leert het algoritme daarvan en kan het nieuwe berichten vervolgens automatisch coderen. ‘We werken hierbij samen met twee onderzoekers uit de computerwetenschappen: één van het CIT en één van het eScience Centre in Amsterdam.’ De expertise van de onderzoeker op het gebied van politieke communicatie en journalistiek wordt zo gecombineerd met de expertise van de computerwetenschappers op het gebied van automatiseren en machine learning.

Interessant voor bedrijven

Het algoritme om de Twitterberichten automatisch te coderen, zou na enkele aanpassingen ook toepasbaar kunnen zijn op datasets uit een andere context. Ook is er in de toekomst geen beperking meer in het aantal berichten dat kan worden gecodeerd. ‘Dan gaat het echt over big data', geeft Broersma aan. Dit maakt dat het algoritme interessant is voor bedrijven en andere organisaties. Een voorbeeld dat nu al wordt toegepast is het filteren en verzamelen van nieuwsberichten, waardoor relevante informatie direct op een nieuwswebsite wordt geplaatst.

Resultaten tot nu toe

De Twitterberichten die nu worden gebruikt om de computer te trainen zijn afkomstig van eerder onderzoek van Broersma naar online gedrag van Britse, Nederlandse, Italiaanse en Zweedse politici. Een belangrijke vraag hierbij was onder andere in hoeverre politici met burgers in debat gaan. Vaak wordt gesteld dat sociale media dat mogelijk maken. Maar gebeurt het ook echt? 'Wat we bijvoorbeeld zien is dat Nederlandse politici veel meer direct contact hebben met burgers dan Britse politici. En dan gaat het over wezenlijke zaken', zegt Broersma. In een ander onderzoek naar online gedrag zijn de Twitterberichten van Nederlandse en Vlaamse journalisten uitvoerig geanalyseerd. 'We zien steeds minder journalisten die in vaste dienst zijn en juist steeds meer freelancers. Beide groepen maken op een andere manier gebruik van Twitter. Freelancers zijn meer bezig met het onderhouden van contacten, met zichzelf als ‘merk’ te verkopen op twitter, terwijl journalisten in vaste dienst hun eigen stukken juist vaker promoten.’

Tags: Big Data