Instagram, algoritmes en complotten

Aanleiding van dit stuk: Verzeild in de fabeltjesfuik?

‘…Maar als ik zie dat Facebook en Google voor sommige mensen artikelen verwijderen, omdat zij een ander beeld willen creëren. Ik vertrouw het dan niet meer.’ Mijn moeder, een quasi-complotdenker in de goede zin van het woord vind ik, wordt achterdochtig als content wordt gevlagd of verwijderd van social media. Het feit dat de verantwoordelijkheid en het vertrouwen uit haar handen worden getrokken om zelf te bepalen of iets waar of niet waar is, laat haar de betrouwbaarheid van de betrouwbare bron in twijfel trekken. Dit beleid werkt averechts bij mijn moeder. De vragen die bij mij opborrelen zijn: hoe steekt het beleid omtrent nep nieuws en complottheorieën eigenlijk in elkaar en wat is het proces achter de vlaggetjes en labeltjes?

Beleid

Veel is er niet bekend over het beleid van Facebook en Instagram op het gebied van complottheorieën. ‘Ik ben niet op de hoogte van specifiek beleid van Instagram om het bereik van complottheorieën te verkleinen of vergroten’, zegt Nicolas Kayser-Bril, journalist van AlgorithmWatch die de algoritmes van Instagram heeft onderzocht omtrent naaktheid in posts. Over fake news schrijft Facebook: ‘Alhoewel nep nieuws niet direct de Community Standards overtreedt, gebeurt dit vaak toch wel door in andere categorieën in overtreding te zijn, zoals spam, haatdragende teksten of neppe accounts. Deze worden dan verwijderd…Ook gebruiken we machine learning om ons team te helpen bij het detecteren van fraude en het handhaven van ons beleid tegen spam.’

Facebook en Instagram maken gebruik van externe feitencheckers. Voordat zij in het spel betrokken worden, moet eerst ‘potentiële misinformatie geïdentificeerd worden door ontvangen signalen. Dit kan bijvoorbeeld door feedback van mensen op Facebook’. Bij uitzondering kunnen zij zelf actief op zoek gaan naar valse content.

Feitencheckers

Nu kunnen de feiten gecheckt worden. Dit gebeurt onafhankelijk van Facebook. Als het nodig blijkt, volgt er een label op de (mis)informatie met toegevoegde context en gebruikers die de content willen delen, krijgen een notificatie dat het misinformatie betreft. De gelabelde content wordt gefilterd uit ‘Verkennen’ van Instagram en verschijnt ook minder snel in de ‘Feed’ of ‘Verhalen’. Als laatst kunnen er maatregelen getroffen worden tegen herhalende overtreders.

Echter, Facebook laat in een bijzin nog weten niet alleen afhankelijk te zijn van de onafhankelijke feitencheckers: ‘Dit beleid is niet afhankelijk van beoordelingen van feitencheckers en politici zijn niet vrijgesteld van onze richtlijnen voor de community.’ Wie nog meer invloed heeft op de beoordelingen wordt verder niet duidelijk.

Feitencheckers hebben verschillende beoordelingsopties, zijnde: juist, satire, ontbrekende context, gedeeltelijk onjuist, bewerkt en onjuist. Onder ‘onjuist’ valt deze definitie van complottheorieën te lezen: ‘Complottheorieën die gebeurtenissen uitleggen als het geheime werk van personen of groepen, die juiste of niet-verifieerbare informatie kunnen bevatten, maar een onaannemelijke conclusie presenteren. Bijvoorbeeld: een bewering dat mensen binnen de overheid direct verantwoordelijk zijn voor een terroristische aanslag om die aanslag als reden voor het starten van een oorlog te gebruiken.’

Transparantie

Hoe transparant dit beleid ook lijkt te zijn, weten wij alsnog erg weinig. Facebook en Instagram geven namelijk geen inkijk in hun systemen en algoritmes. We lezen ‘wat’ de intenties zijn, maar kunnen de ‘hoe’ niet controleren. Daarvoor zouden de algoritmes opengesteld moeten worden. Vooral in de signaleringsfase van fake news zijn algoritmes essentieel om desbetreffende posts te coderen en labelen.

Wat is een algoritme? Ik weet het ook niet zo goed, iets met wiskundige modellen en automatische processen. Simpeler: een algoritme is een methodische reeks stappen die bijvoorbeeld wordt gebruikt om berekeningen te maken en problemen op te lossen. Lees hier meer over.

Nicolas vertelt hoe terughoudend Instagram was om mee te werken aan het onderzoek van AlgorithmWatch: ‘Zij hebben geen antwoorden gegeven op de vragen die wij hadden opgestuurd en kleineerden onze research set-up. Een paar dagen later publiceerde Instagram een statement waarin zij ons werk verkeerd representeerden door te claimen dat wij 26 posts hadden geanalyseerd terwijl dit tegen de 2.000 posts zat. Het statement hebben zij overigens snel weer verwijderd.’

Non-argument

Social mediabedrijven hangen veel waarde aan geheimhouding over hun systemen en algoritmes. Zij beweren anders geen eerlijke concurrentie te kunnen voeren met andere bedrijven. Facebookmedewerkers worden bijvoorbeeld verboden om te praten met journalisten. Nicolas betwijfelt de nood voor deze geheimhouding: ‘Transparantie is belangrijk voor de maatschappij, omdat het journalisten, onderzoekers en consumentenbonden de mogelijkheid geven om de systemen beter te begrijpen. En als alles en iedereen transparant moet zijn, voelen alle bedrijven dezelfde impact. Er is geen goed argument tegen transparantie.’

Als kanttekening geeft Nicolas aan dat toegang tot de code van algoritmes weinig toevoegt, omdat het systemen zijn die zichzelf modificeren aan de hand van de data die zij binnenkrijgen. Deze data kunnen natuurlijk niet vrijgegeven worden vanwege de nodige privacy rechten van gebruikers. Hij suggereert daarom om interfaces te creëren, waarin journalisten en onderzoekers de Instagram algoritmes kunnen testen met een eigen dataset. Hij wil wel de garanties dat het systeem niet wordt gegamed door de programmeurs van Facebook, zoals in de autobranche gebeurde met ‘dieselgate’.

Hoe zijn algoritmes?

De ‘hoe’ zijn de machine learning algoritmes, deze worden getraind met een specifieke dataset. Wat dan ontstaat is een machine learning model. Het model, getraind en wel, kan dan op zichzelf acteren en nieuwe data analyseren. Instagram is gericht op foto’s en video’s, daarvoor wordt eenzelfde machine learning model gebruikt, genaamd Computer Vision. Deze herkent vormen in de foto’s en geeft ze bepaalde labels mee. Het verschil met een gewoon machine learning model is dat in de meeste gevallen bij Computer Vision, de trainingsdata gelabeld en handmatig ingevoerd worden door mensen. Deze mensen zijn vaak ‘crowd workers’, zij bieden hun diensten goedkoop aan op crowdsourcingplatforms om ervaring op te doen of voor een groot bedrijf te werken. Bedrijven besteden dan projecten, als het trainen van machine learning models, uit aan grote groepen ‘crowd workers’.

Agathe Balayn is een PhD-kandidaat aan TU Delft en doet onderzoek naar machine learning models. Zij zegt: ‘Het werk van labelen is vervelend en langdradig. Dit wordt nu uitgevoerd door mensen van crowdsourcingplatforms. Deze werknemers worden vaak uitgebuit en onderbetaald. In het geval van gewelddadige en obscene content zijn zij hier dagelijks aan blootgesteld, wat psychologische problemen kan veroorzaken op de lange termijn.’ Daarnaast zijn ze vaak minder precies en kritisch in hun werk, schrijft Agathe in een ander onderzoek.

Oneerlijke patronen

Wat problematisch kan zijn van machine learning algoritmes, is dat zij werken door het identificeren van statistische patronen in de data. Als gevolg worden zeldzame patronen niet gevonden. In andere woorden, het is essentieel in welke data het model is getraind. Daarom zie je nog dat er vaak valse verbanden worden gelegd als het gaat om minderheden: ‘In Computer Vision werkt gezichtsherkenning bijvoorbeeld veel beter op witte mannen dan bij vrouwen van kleur. Dus op je vraag of het witte mensen beschermt, dat is niet het geval. Het is eerder dat het anderen kan schaden.’ Agathe richt zich in haar onderzoek op deze thema’s, wat in machine learning-onderzoek ‘unfairness’ wordt genoemd.

Agathe kan zich ook voorstellen dat ‘unfairness’ voorkomt in de gevallen van fake news en complottheorieën: ‘Hetzelfde (‘unfairness’) kun je terugvinden in fake news. Wanneer fake news eerder subjectief is, of niet veel voorkomt en wanneer het vaak dezelfde onderwerpen aansnijdt of dezelfde protagonisten heeft. In deze gevallen kunnen de algoritmemodellen valse en oneerlijke correlaties maken rond deze onderwerpen en/of protagonisten.’

Wat is een algoritme? Een algoritme kan dingen publiek maken, een algoritme kan zelf publieken creëren en het kan jou onderdeel maken van een publiek. Een algoritme heeft dus het vermogen om nieuwe realiteiten creëren.

Monopoly op de waarheid

Facebook, 45 onafhankelijk feitencheckers en algoritmes maken een claim op de waarheid. Gebruikers zijn verplicht om hun oordeel aan te horen: juist of onjuist, goed en fout. Misschien moet je de mogelijkheid geven aan de gebruiker om te kiezen voor de ‘uncut’ of bewerkte versie van sociale media? Pogingen om volledig waarheid van fictie te filteren, is een illusie die is vormgegeven door de trainingsdata van een algoritme of de achtergrond en toegang tot informatie van een feitenchecker.

Agathe vertelt ook hoe gebrekkige definities ruimte laten voor subjectiviteit: ‘Voor haatspraak is de issue dat het niet precies genoeg wordt gedefinieerd, wat ruimte laat voor subjectiviteit en ambiguïteit in de creatie van de datasets. Tot gevolg dat niet alles wat als haatspraak wordt gevlagd, overeenkomt met wat de gebruikers misschien zouden verwachten. Wat ook weer verschilt per gebruiker.’ Je ontkomt niet aan subjectiviteit, dat is een feit? En als zij de waarheid in pacht hebben, mag het in transparantie?

Voorbeelden hoe Computer Vision memes analyseert:

Meme 1 bevat spreektaal, bijvoorbeeld door het gebruik van het woord ‘tryna’. Meeste machine learning modellen zijn getraind met correct taalgebruik, daarom kunnen zij geen betekenis geven aan het woord.

Computer Vision modellen herkennen grote elementen in een foto, zoals een lichaam, gezicht, pet of broek. De karakteristieken van de objecten herkennen zij niet, zoals de stijl van kleding, in dit geval de gescheurde broek in meme 1.

Memes 2 en 3 vereisen achtergrondinformatie over de BLM-beweging. Context is nodig om te bepalen of de tekst fake nieuws is of niet. Bij de derde meme kan Computer Vision niet checken of het gezicht op het plaatje correspondeert met de naam. Hiervoor is er toegang nodig tot andere databases. In beide gevallen kan Computer Vision dus weinig doen qua signalering.

Vervolg

Het verhaal is nooit af. Welke vervolgvragen komen bij jou op?

Vervolg

Dit delen:

Gerelateerd

Plaats een reactie Reactie annuleren