Meer data, meer transparantie

Lees hier het pdf van dit artikel. Datajournalistiek is het nieuwe toverwoord binnen de journalistiek. Nieuws vinden door een database met cijfers door te spitten is echter niet nieuw. Maar dankzij een transparantere overheid en de opkomst van het internet lijkt een oneindige hoeveel data beschikbaar. Dit biedt kansen voor zowel de journalist als burger. Door Hille van der Kaa Steeds meer nieuwsorganisaties ‘doen’ er aan: datajournalistiek. Uit grote hoeveelheden data een verhaal peuteren. RTL, NOS, nrc.next, nu.nl en ANP stelden de afgelopen jaren zelfs aparte redacteuren aan voor dit journalistieke werk. Is het nieuw? Nee. Is het makkelijker geworden door meer beschikbare data en nieuwe analysemethoden? Ja. Dankzij internet en een steeds transparanter wordende overheid is meer data beschikbaar dan ooit. Wat kan een journalist hiermee? En wat betekenen deze ontwikkelingen voor de maatschappij? Een inleiding in de wereld van de datajournalistiek. De oorsprong van datajournalistiek Datajournalistiek vindt zijn oorsprong in de jaren vijftig, toen de Amerikaanse nieuwszender CBSmet hulp van één van de eerste computers, de Univac, de verkiezingsuitslagen voorspelde. In de jaren zestig kwam precision journalism op. Een vorm van journalistiek waarbij wetenschappelijke onderzoeksmethodes worden gebruikt bij het analyseren van informatie. De Amerikaanse journalist en wetenschapper Philip Meyer gebruikte deze technieken reeds in 1967, toen hij voor de Detroit Free Press een diepgaande analyse maakte over het ontstaan van de rellen in Detroit. Hierbij weerlegde hij een aantal algemene aannames over de relschoppers. Zo zag hij dat een slechte economische achtergrond niet de belangrijkste voorspeller was. Meyer werkte voor dit onderzoek samen met een universiteit en verwerkte de data met wetenschappelijke onderzoeksmethodes. Doordat hij computers gebruikte, geldt dit voorbeeld als de bakermat van computerassisted reporting, kort gezegd car. In 1969 bracht hij het boek Precision Journalism uit, waarin hij pleitte voor meer sociaalwetenschappelijke onderzoeksmethodes en het gebruik van databases in de journalistiek. Hij beschrijft zijn werk in zijn onlangs verschenen memoires: Paper Route. Finding My Way to Precision Journalism. Sinds de jaren zestig is er veel veranderd; grote hoeveelheden data kwamen beschikbaar. Google lanceerde open programma’s als Google Fusion Tables en Google Refine om grote hoeveelheden data te verwerken en door te spitten. Hiermee is het analyseren van data makkelijker dan ooit. En niet alleen voor de meest doorgewinterde onderzoeksjournalist. Data verzamelen Datajournalistiek draait om het proces van data verzamelen, data verwerken, data analyseren en het omvormen tot een verhaal. Bij de eerste stap, het verzamelen van data kan een journalist op twee manieren te werk gaan: eerst een verhaal bedenken en daar data bij zoeken, of vanuit een dataset gaan werken Datasets vindt een journalist overal. Bijvoorbeeld bij bedrijven als TomTom (verkeer), Locatus (winkellocaties) of zelfs de sportschool om de hoek. De overheid stelt veel gegevens beschikbaar via opendata.overheid.nl. Hier zijn databestanden te vinden over onder meer subsidiebestedingen, in- en uitstroom van scholieren en studenten en parkeerlocaties (sites als hackdeoverheid.nl bieden een overzicht van nieuwe datasets). Daarnaast heeft de overheid veel data beschikbaar als je er om vraagt. Daarvoor is de Wet openbaarheid van bestuur (WOB) in het leven geroepen. Een verzoek om informatie is niet altijd even eenvoudig, maar wel haalbaar – mits de gegevens niet privacygevoelig zijn. Natuurlijk moet een journalist hiervoor wel weten dat de dataset bestaat. In het Handboek Datajournalistiek (Van Ess, Van der Kaa, 2012) staan verschillende methodes om een dataset te ontdekken. Eén daarvan is het zoeken naar formulieren. Immers, als een overheidsinstantie een formulier uitgeeft, kan men ervan uitgaan dat de data uiteindelijk ook ergens zijn opgeslagen. En formulieren zijn er genoeg. De zoekactie ‘formulier voor’ in Google kent meer dan 18.000 resultaten. Stel je voor; een journalist vindt een formulier voor het afmelden van een hond voor hondenbelasting en krijgt de geanonimiseerde dataset van de gemeente. Hier kan hij veel verhalen uithalen. Is het echt zo dat veel honden worden afgedankt voor de zomervakantie? Raken er wellicht meer honden vermist? Een wat simpel voorbeeld wellicht, maar het formulier biedt zo mogelijkheden voor verhalen die een journalist zonder dataset nooit had kunnen maken. Verzoeken om data bij de overheid worden vaak niet meteen ingewilligd. Soms omdat de ambtenaar of voorlichter in kwestie de data liever niet openbaar maakt, maar vaak ook omdat het doel niet altijd duidelijk is. ‘Waar is het voor?’ hoort een datajournalist dan. De antwoord op die vraag kan vaak niet worden gegeven, voordat de journalist in de database heeft gesnuffeld. Datajournalistiek en de Wet openbaarheid van bestuur (WOB) zijn daarom nauw met elkaar verbonden. Verwerken van data De eerste vragen die een journalist zich stelt bij een dataset zijn: ‘Wat staat er in de dataset en wat staat er niet in?’ En vooral ook: ‘Wie is de afzender en hoe betrouwbaar is de data?’ Een verschil met de wetenschap is dat de journalist vaak niet zelf de data heeft verzameld en dus op basis van de afzender en inhoud van de set een uitspraak doet over de betrouwbaarheid. Want kan het niet zijn dat er misschien wat minder fraaie inhoud uit een dataset is verdwenen? Een kwestie van inschatten en doorvragen. Als de set het stempel ‘betrouwbaar’ heeft gekregen, volgt de stap van het schoonmaken van data. Want staan er geen dubbelingen in? Of worden dezelfde dingen verschillend benoemd? Een gegeven waar bijvoorbeeld Dan Nguyen, journalist van de Amerikaanse nonprofit organisatie ProPublica.org, mee te kampen had. Voor zijn project Dollars for docs verzamelde hij de betalingen van twaalf grote farmaceuten aan artsen en ziekenhuizen. De betalingen zijn legaal; vaak voor onderzoek. Aan de andere kant kan het ethische vragen oproepen. Want is een arts die veel geld ontvangt nog wel onafhankelijk in zijn advies over medicijnen? De data kenden verschillende vormen. Ook waren de namen van artsen niet direct te vergelijken, omdat ze soms net anders waren geschreven. Daarna moest hij de verschillende namen van artsen aan elkaar koppelen om ook op instituutsniveau een beeld te kunnen schetsen. Het verwerken van de data was daarom een gigantische klus. Maar met een mooi resultaat. Op de site van Dollars for docs kunnen patiënten op transparante wijze zien door welke farmaceut hun arts of ziekenhuis wordt ondersteund. De Amerikaanse Sunlight Foundation gaat uit van hetzelfde principe, maar dan op overheidsgebied. Zij maken met onder meer hun site Poligraft de relaties tussen politici, bedrijven, sponsoren en lobbyisten transparant. Wie betaalt wie waarvoor? Welke bedrijven steunen welke politici met welk doel? Informatie die in Amerika tot op een bepaalde hoogte openbaar is. Iets waar Nederland nog niet klaar voor lijkt. De roep om open data is groot; de wil van verschillende politieke partijen om het daadwerkelijk uit te voeren, minder. De projecten van ProPublica en Sunlight Foundation zijn een vorm van database journalism, waarbij de journalist niet zozeer de resultaten duidt en conclusies trekt, maar de data gewoonweg toegankelijk maakt en het oordeel uiteindelijk laat aan het publiek. De datajournalist is hierbij meer een curator dan een duider. Data analyseren Andere journalisten willen juist wel het verhaal duiden. Zij beginnen met de dataset en een vraag. Maar hoe komt hier nu een verhaal uit? Gewoon wat aanrommelen, zullen de meesten zeggen. Het helpt om er aanvankelijk met één vraag in te duiken, maar vaak vindt de journalist de spannende nieuwsfeiten per ongeluk, of omdat de journalist zich steeds meer vragen gaat stellen. Hier kennen het werk van de journalist en van de wetenschapper zowel overeenkomsten als verschillen. Waar een wetenschapper meestal zoekt naar één specifiek resultaat om een hypothese te bevestigen of te verwerpen, zoekt een journalist naar antwoorden die maatschappelijk relevant zijn. Een wetenschappelijke uitkomst is niet altijd even interessant als een datajournalistieke uitkomst en andersom. Veel datajournalisten hebben een wetenschappelijke opleiding gevolgd, maar Nederland kent niet veel gepromoveerde journalisten. Daar ligt vanuit de wetenschap een punt van kritiek. Zijn de uitkomsten van een datajournalistiek onderzoek niet te kort door de bocht? Datajournalisten bepalen hierbij zelf hun eigen merites. En laten zien wat deze merites zijn. In Nederland publiceren journalisten vaak niet alleen de resultaten, maar zetten ze ook de dataset online. Dit deed bijvoorbeeld ook de Volkskrant in 2009, bij hun onderzoek naar de kwaliteit van 250 verpleeghuizen en 1260 verzorgingstehuizen (verpleeghuizen.volkskrant.nl). Ze keken hierbij naar het oordeel van de bewoners en de beschikbare kwantitatieve gegevens over de kwaliteit van de zorg. Bij de beoordeling van de onderliggende scores telden volgens de journalist sommige aspecten extra zwaar mee, zoals fouten met medicijnen, probleemgedrag, gebruik van sufmakende medicatie, aanwezigheid van een arts, beschikbaarheid van personeel, mentaal welbevinden, het aanbod van dagbesteding en de kwaliteit van het eten. De verantwoording van de weging en de rekenmethode staan online. Zo bieden ze transparantie; geïnteresseerde lezers kunnen zelf nagaan of ze de lijnen van de journalist volgen of niet. Transparante berichtgeving Dit laatste biedt naar mijn idee voor de journalistiek het grootste voordeel. Het maakt verhalen transparanter. De dagelijkse verslaggeving van een journalist is vaak doorspekt met meningen, of afhankelijk van de invalshoek van de journalist. Objectiviteit is – hoezeer een journalist hier ook naar streeft – een illusie. Niet dat dit probleem met een database volledig wordt opgelost; ook data en analyse zijn wat dat betreft maar meningen, maar een goede datajournalist biedt ook altijd de grondstoffen bij zijn productie. Het is aan de lezer om te zien of hij met de journalist meegaat of niet. En het maakt niet alleen de journalistiek transparanter. Doordat data meer beschikbaar komen en het makkelijker wordt om deze data te analyseren, hebben journalisten en het publiek tools in handen om bijvoorbeeld uitspraken te controleren. Een mooi voorbeeld hiervan is de rubriek ‘Next checkt’, waarin nrc.next uitspraken controleert van politici en bedrijven. Een mening kan door datajournalistiek makkelijker op waarde worden geschat. Door de komst van meer beschikbare (open) data zijn deze methodes niet alleen voor een journalist weggelegd, maar kan iedere burger beoordelen wat waar is. Verder maakt datajournalistiek het mogelijk om nieuws te vinden voordat het een persbericht wordt. Zodat het publiek niet alleen op de hoogte is van de stand van zaken in Nederland als het Centraal Bureau voor de Statistiek (CBS) weer een rapport uitgeeft, maar ook daarvoor. Een datajournalist heeft hiermee de tools in handen om berichtgeving transparanter te maken en hierdoor beter hun controlerende taak uit te voeren. Ook kan het publiek berichtgeving meer relevant voor zichzelf maken. Een bericht dat de gemiddelde huisprijs met 6 procent zakt, kan met open datasets meer toegespitst worden. Want wat heb je aan een bericht dat de gemiddelde huizenprijs zakt met 6 procent, als dit in jouw straat niet geldt? Als de prijs daar veel verder is gezakt of juist een veel positiever beeld kent? Datajournalistiek biedt mogelijkheden om berichtgeving toe te spitsen op iedere burger. Datajournalistiek kent een vliegwieleffect; doordat de analysemethodes makkelijker worden, groeit de roep om data. Meer data geeft meer transparantie. Een vliegwieleffect waar zowel de journalist als burger van profiteren.   Hille van der Kaa is als docent verbonden aan de master Datajournalism van de Universiteit van Tilburg en schrijver van het Handboek Datajournalistiek.   Literatuur Kaa, Van der, H. en Ess, Van, H. (2012). Handboek Datajournalistiek. Boom Uitgevers.   Heeft dit artikel uw interesse gewekt? Klik hier voor meer info en abonnementen. – – Dit artikel verscheen in idee nr. 5 2012: Meten is weten, en is te vinden bij het onderwerp transparantie.