Van Maanen Hans van Maanen
klikklikklikklik

De smaak van boefjes in de dop

De Volkskrant, 12 januari 2013

'Weten of een jongere met 16 jaar aan winkeldiefstal doet? Kijk dan naar muziekvoorkeur op 12 jaar!' twitterde wetenschappelijk onderzoekster Loes Keijsers afgelopen dinsdag enthousiast. Dat enthousiasme was op zich begrijpelijk, want het vakblad Pediatrics had net een artikel (PDF) gepubliceerd dat zij met haar hoogleraar Tom ter Bogt had geschreven.

Of wij enthousiast moeten zijn over het onderzoek -- laat staan over haar samenvatting -- staat echter nog te bezien. Keijsers had, zelfs als het onderzoek goed zou zijn, nog wel andere genuanceerde tweets de wereld in kunnen sturen. 'Muziekvoorkeur voorspelt winkeldiefstal niet', bijvoorbeeld. Of: 'Brugklassers die van Bach houden verzwijgen in de vierde winkeldiefstallen'. Of zelfs: 'Buikhuisen is terug en heet nu Tom ter Bogt'. Maar het onderzoek was niet goed, dus zelfs die tweets zouden nog te hoog van de toren piepen (niet dat zo'n detail ertoe doet: de media barstten bijkans uit hun voegen van enthousiasme -- deze krant incluis).

In 2001 vroegen Keijsers en Ter Bogt 309 twaalfjarigen allerlei muziek rapportcijfers te geven, van pop en hiphop tot trance en klassiek. Vier jaar later nog eens, en toen vroegen ze ook hoe vaak de kinderen zich ooit schuldig hadden gemaakt aan zaken als zwartrijden, prijskaartjes verwisselen, stelen en slaan. Ze noteerden ook geslacht, schoolprestaties en persoonlijkheidstype, maar niet zoiets toch ook belangwekkends als gezinsinkomen. Hoeveel ijverige, twaalfjarige dochters van gegoede ouders zouden er onder die 309 kinderen zijn die naar 'hardhouse' luisteren -- of weten wat het is? Dat krijgen we niet te horen: alle absolute aantallen in het artikel ontbreken, we moeten het doen met correlaties en intercepts en slopes. Over welke risico's het precies gaat, kunnen we dus niet weten, al ziet het ernaar uit dat we het niet over een omvangrijk probleem hebben: op een schaal van 1 (nooit) tot 4 (4 keer of vaker) zat het gemiddelde over alle kinderen op 1,12.

Maar ook die correlaties zijn verre van indrukwekkend. Allereerst blijkt dat eigenlijk elke muziekvoorkeur op twaalfjarige leeftijd iets zegt over 'delinquentie' later. Er waren elf muziekstijlen, daarvan gaven er maar liefst zeven een significante correlatie -- alleen voorkeur voor top-40-pop, R&B, klassiek en jazz voorspelt geen delinquentie. Veel verklaren doen de verbanden evenmin: het cijfer dat een brugklasser voor bijvoorbeeld gothic gaf, voorspelt niet meer 9 procent van alle verschillen in de (al dan niet stoer) gemelde vergrijpen. Terwijl gothic de sterkste is van wat Ter Bogt in het persbericht 'een ijzersterke voorspeller' durft te noemen.

En nog blijft de hamvraag onbeantwoord: is het verband tussen bijvoorbeeld gothic en delinquentie nu hoger dan dat tussen jazz en delinquentie? Er moet wel enig onderscheid zijn, anders hebben we er nog niet veel aan. We moeten het allemaal zelf uitrekenen, maar ook al is het eerste verband significant en het tweede niet, het verschil tussen de twee blijkt niet significant. In feite zeggen verschillen in muziekvoorkeuren dus vrijwel niets over delinquentie. En dan blijven alle andere bezwaren, plus een paar, nog staan.

Is het, ten slotte, goed om te 'weten of een jongere met 16 jaar aan winkeldiefstal doet?' In 1978 kreeg criminoloog Wouter Buikhuisen half weldenkend Nederland over zich heen omdat hij wilde onderzoeken of hij criminaliteit kon voorspellen -- niet met muziekvoorkeur, maar met huidgeleiding en zweetproductie en andere biologische kenmerken. Stel dat een brugpieper niet van klassiek of jazz houdt, moet zij dan begeleiding krijgen om haar op het rechte pad te houden? Gaan winkeliers jonge gothics nu extra in de gaten houden want een 'ijzersterke voorspeller'? Willen we mogelijke zwartrijders al oppakken voordat ze hebben zwartgereden?

Met Buikhuisen is het goed afgelopen -- hij heeft nog tien jaar enthousiast in Leiden lesgegeven voor hij zijn toga aan de wilgen hing -- maar de vraag blijft niet minder actueel. Is dit goede wetenschap?


De onderzoekers stuurden een weerwoord naar de Volkskrant, dat op vrijdag 18 januari werd geplaatst op de opiniepagina.

'Kritiek is goed, maar we heten niet allemaal Diederik Stapel'

In de Volkskrant van 12 januari uit Hans van Maanen in zijn column forse kritiek op een wetenschappelijk artikel van onze hand dat een relatie tussen vroeg-adolescente muziekvoorkeuren en probleemgedrag aantoont. Hij kwalificeert ons artikel als 'twijfelachtig'. Dat is een conclusie die om een reactie vraagt. Helemaal omdat Van Maanen tot zijn kwalificatie komt terwijl hij sommige resultaten verkeerd duidt en onze belangrijkste resultaten zelfs helemaal niet bespreekt.

Vorige week publiceerden wij een artikel in het Amerikaanse blad Pediatrics. Wij vonden een verband tussen muziekvoorkeuren in de vroege adolescentie en het type 'kleine' criminaliteit (winkeldiefstal, vernielen, vechten etc.) dat veel voorkomt in de latere adolescentie. Dit resultaat verbaasde ook ons en wij doen in het artikel een poging het verband te verklaren.

Voortbouwend op het werk van Keith Roe, Jeffrey Arnett en Terri Moffit, beschrijven wij een set van zeven stellingen die dit verband opheldert: Music Marker Theory. Die betiteling is bewust gekozen. Wij noemen muziekpreferenties een 'marker' ofwel een 'indicator'. Nog maar een keer: hardere varianten van hiphop, rock en dancemuziek veroorzaken geen probleemgedrag, maar leiden naar alle waarschijnlijkheid wel tot de selectie van vrienden die later probleemgedrag kunnen versterken.

De scepsis die journalisten aan de dag legden ten aanzien van onze resultaten, was opvallend. Steevast kregen wij de vraag of hier niet sprake was van een 'Stapeltje' - dit begrip bestond een jaar geleden nog niet eens. Dat die vraag nu zo consequent gesteld werd, geeft aan dat er sinds de affaire rond Diederik Stapel in de perceptie van sociale wetenschap iets veranderd is in Nederland. Wij worden niet zomaar meer geloofd. Opzienbarende resultaten triggeren, zeker bij het grote publiek, meteen de verdenking van vervalsing.

Scepsis over wetenschappelijk werk is wat de wetenschap voortdrijft. Kritiek is productief, maar dan moet die kritiek wel niveau hebben. Wij lopen genoemd artikel van Hans van Maanen na en constateren een aantal evidente fouten en missers.

Wij zouden geen 'dochters uit gegoede gezinnen' in onze analyses gehad hebben. Die hadden wij wel. Sterker, onze steekproef was hoger dan gemiddeld opgeleid. Ook in de groep jongeren vonden wij veel typisch adolescent probleemgedrag dat, inderdaad, geindiceerd werd door vroege muziekvoorkeuren.

Wij zouden weggelaten hebben hoeveel jongeren bepaalde muzieksoorten überhaupt niet kennen. Fout, natuurlijk staat dit wel vermeld. Het waren er overigens niet veel. Er staat ook hoe wij met dit probleem omgaan in onze analyses.

Wij zouden in onze analyses niet gecontroleerd hebben voor gezinsinkomen. Juist. Maar wij controleren wel voor opleidingsniveau. Uit eerder onderzoek is gebleken dat opleidingsniveau zowel gerelateerd is aan gezinsinkomen en muziekvoorkeuren als aan probleemgedrag. Daarmee is het een relevante controlevariabele die in modellen hetzelfde werkt als gezinsinkomen. Jongeren kennen bovendien het inkomen van hun ouders niet goed. Hen daarnaar vragen, levert veel onzin op. Vandaar dat wij hun eigen opleidingsniveau, dat zij natuurlijk wel kennen, gebruiken.

Wij zouden geen absolute aantallen met betrekking tot de prevalentie van probleemgedrag gerapporteerd hebben. De prevalentie van probleemgedrag wordt inderdaad niet uitgedrukt in bijvoorbeeld een percentage daders, maar wel in een gemiddelde.

In ons stuk proberen wij probleemgedrag op een nieuwe wijze te verklaren. Vandaar de focus op verbanden, en niet op beschrijvende resultaten die elders al voldoende voorhanden zijn en die overtuigend aantonen dat dit veelvoorkomend gedrag is in de adolescentie.

En dan het belangrijkste kritiekpunt. Wij zouden de sterkte van onze verbanden overdrijven. Van Maanen: een voorkeur voor gothicmuziek op 12-jarige leeftijd zou niet meer dan 9 procent van de 100 procent aan variatie aan probleemgedrag op 16-jarige leeftijd voorspellen. Juist. Dit zou een zwak verband impliceren. Onjuist. Met betrekking tot dit type correlationele analyses geldt een verklaarde variantie van 9 procent in de wetenschappelijke literatuur als middelgroot (Cohen, 1992). Omdat het hier overtijdse correlaties betreft, namelijk tussen muziekvoorkeuren op 12-jarige leeftijd en probleemgedrag vier jaar later, hebben wij dit verband gekwalificeerd als opmerkelijk.

Helaas blijft Van Maanen steken in de rapportage van die correlaties. Hij heeft niet eens gekeken naar ons definitieve multivariante model waarin bijvoorbeeld een gothicvoorkeur op 12-jarige leeftijd liefst 21 procent van de variantie in probleemgedrag op 16-jarige leeftijd voorspelt - zelfs als gecontroleerd is voor sekse, opleidingsniveau en persoonlijkheidstype.

In een wetenschappelijk artikel gebruiken wij daarvoor neutrale termen, maar om in een persbericht of in interviews uit te leggen dat het hier om sterke verbanden gaat, daarvan nemen wij geen woord terug.

De verbanden tussen de wat ruigere muzieksoorten en probleemgedrag verschillen ook significant van de niet bestaande of negatieve verbanden tussen bijvoorbeeld voorkeuren voor top-40-achtige muziek, jazz of klassiek enerzijds en probleemgedrag anderzijds. Van Maanen schrijft dat wij deze 'hamvraag' niet beantwoorden en slaat dan zelf aan het rekenen met onze correlaties. Hij beweert dat de verbanden tussen bijvoorbeeld een jazzvoorkeur op 12-jarige leeftijd en probleemgedrag op 16-jarige leeftijd (-.06), en een gothicvoorkeur en probleemgedrag (.31) niet van elkaar verschillen. Dit is feitelijk onjuist: er is een duidelijk, significant verschil tussen die twee verbanden.

Van Maanen vraagt zich af waarom je dit type onderzoek überhaupt nodig hebt en of het niet stigmatiserend is. Wij menen dat wetenschappers de taak hebben ook onwelgevallige resultaten te rapporteren. Wel waarschuwen wij in ons artikel juist tegen stigmatisering. Heel praktisch: onze resultaten geven aan dat sommige ouders wat meer moeten opletten met welke vrienden hun kinderen omgaan. Dat zij moeten blijven investeren in de band met hun kinderen, juist als die luisteren naar muziek die zij zelf waarschijnlijk pokkeherrie vinden. Wij benadrukken dat geen enkel type muziek zou moeten worden verboden en wijzen op de positieve effecten van het luisteren naar muziek.

Wetenschappers en columnisten dienen zich altijd weer bij te scholen en te ontwikkelen. Dat maakt ons en hun vak interessant en uitdagend. Zonder een kritische houding ten aanzien van eigen en andermans werk zou stagnatie ons deel zijn. Maar ook: wetenschappers moeten open en met plezier kunnen vertellen over de soms opzienbarende, soms moeilijk te geloven dingen die zij ontdekken. Zeker in een tijd waarin onze geloofwaardigheid systematisch onder druk staat.

Tom ter Bogt
Loes Keijsers
Wim Meeus


Mijn kritiek richtte zich allereerst op de wijze waarop de onderzoekers en de persdienst van de universiteit van Utrecht communiceerden. 'Zelfs als rekening wordt gehouden met sociaal-economische achtergrond en de persoonlijkheid blijven muziekvoorkeuren een ijzersterke voorspeller,' liet Ter Bogt zich in het persbericht van de universiteit citeren. Onderzoekster Loes Keijsers twitterde, zoals gezegd, 'Weten of een jongere met 16 jaar aan winkeldiefstal doet? Kijk dan naar muziekvoorkeur op 12 jaar!'
Dat zijn stevige claims voor wetenschappers, waarvoor je wat mag verwachten. Kunnen we Ter Bogt 100 brugklassers geven en wijst hij dan de 12 aan die straks winkeldiefstallen plegen? Zit hij 11 van de 12 keer goed en worden hooguit 2 van de 88 anderen delinquent? Wat is 'weten', wat is 'een ijzersterke voorspeller' anders? Pikt hij ze er zo uit?
Nee, het blijken slechts correlaties, zwakke tot matige verbanden. Dat is het ergerniswekkende in de huidige wetenschap en de wetenschapscommunicatie: men overspeelt voortdurend zijn hand. Nu eens zijn het 'de frisdrankautomaten die nu ook maar echt weg moeten' omdat kinderen in een strak experiment met suikervrije frisdrank in anderhalf jaar een kilo minder zijn aangekomen, dan weer is het tomatenketchup die 'beschermt tegen hartaandoeningen' omdat een stofje in een reageerbuis leuk reageert op een ander stofje, nu is het 'muziekvoorkeur voorspelt probleemgedrag: wetenschappelijk aangetoond' (nog een tweet van Keijsers). Inmiddels is het kennelijk aan journalisten om de nuance te zoeken en tot enige bescheidenheid te manen?
Met Stapel heeft dat niets te maken. Die geeft de briefschrijvers slechts de gelegenheid de vermoorde onschuld te spelen en niet in te gaan op mijn kritiek op hun persbeleid. Je weet toch dat vrijwel alle media dat leuke nieuws uit de wetenschap klakkeloos overnemen, dan houd je je toch een beetje in? Dan ga je toch niet expres ongenuanceerd doen om aandacht te trekken?

Eerst wat kleine dingen om de citaten goed te krijgen. Ik schreef niet dat de onderzoekers geen 'dochters uit gegoede gezinnen' in de analyse hadden betrokken, ik schreef, zie boven: 'Hoeveel ijverige, twaalfjarige dochters van gegoede ouders zouden er onder die 309 kinderen zijn die naar 'hardhouse' luisteren - of weten wat het is?' Daarmee wierp ik, voor de goede verstaander, de vraag op of de data niet wat overbelast worden. Voor statistiek heb je aantallen nodig, en mij lijken tweemaal elf analyses met drie correctiefactoren op 309 kinderen wat veel. Die twijfel houd ik, want die vraag is niet beantwoord.
Ik schreef dus ook niet dat de onderzoekers 'weggelaten hebben hoeveel jongeren bepaalde muzieksoorten überhaupt niet kennen', maar het wordt door Ter Bogt wel fout gerekend.
'We zouden in onze analyses niet gecontroleerd hebben voor gezinsinkomen.' Dat blijkt 'juist', maar ten eerste zei Ter Bogt in het persbericht toch duidelijk 'zelfs als rekening wordt gehouden met sociaal-economische achtergrond', ten tweede lijkt het me nog steeds niet goed om hiermee geen rekening te houden. Nergens in het wetenschappelijke artikel wordt verdedigd dat schoolkeuze een goede maat is voor sociaal-economisch milieu - voor gezinsinkomen, buurt, afkomst, zakgeld en wat al niet.
Evenmin werd in het artikel vermeld dat, naar nu blijkt, de opleiding van de kinderen hoger dan gemiddeld was. Wat zegt het onderzoek dan over kinderen op het mbo? Hoeveel vmbo'ers deden mee? In hoeverre zijn de resultaten generaliseerbaar?

Ondertussen weten we nog steeds niet waar we het precies over hebben. 'Probleemgedrag' is een breed begrip, en in het wetenschappelijke artikel blijft het even vaag: 'zoals winkeldiefstal, kruimeldiefstal en vandalisme'. In het artikel waarnaar ze verwijzen, is zwartrijden echter het meest erkende vergrijp (jongens 60 procent, meisjes 48 procent), daarna pas winkeldiefstal (49 en 32 procent). Vandalisme staat bij jongens op de tiende plaats, bij meisjes op de dertiende.
Ook op mijn vraag over de omvang van het probleem gaan de briefschrijvers niet in. Nogmaals: het gemiddelde op een schaal van 1 (nooit) tot 4 (4 keer of meer het afgelopen jaar) zat het gemiddelde bij de zestienjarigen op 1,12, iets boven nooit. De standaardafwijking is 0,27, wat erop wijst dat de meeste kinderen buitengewoon braaf waren en er vooral een paar boefjes tussen zaten die vier keer of vaker probleemgedrag meldden: de verdeling is scheef. Het doet eens te meer verlangen naar de absolute getallen - waar hebben we het over?
Opmerkelijk is nog, dat het delictgemiddelde op 12 jaar uitkwam op 1,14, niet significant anders dan op 16 jaar. Kennelijk zijn die delicten al op de basisschool gepleegd, terwijl de kinderen dan, volgens de theorie van Ter Bogt, nog 'betrekkelijk weinig bewegingsvrijheid en gelegenheid hebben regels te overtreden' en nog weinig 'besmet' zijn door andere non-mainstream-liefhebbers. Of misschien verandert de aard van de delicten naarmate pubers ouder worden? We weten het niet, we horen het niet.
En bedenk dat we het, cruciaal, nog steeds over zelfgemelde delinquentie hebben. Op mijn vraag of muziekvoorkeur zelf niet de gretige melding van delinquentie kan beïnvloeden, gaan de onderzoekers niet in. Wat ben je waard als gothic als je toegeeft dat je nog nooit iets stouts hebt gedaan? Wat gemelde delinquentie met echte delinquentie te maken heeft, weten we nog steeds niet (dat weet namelijk niemand).

Om met een verwijzing naar Cohen te staven dat de verbanden niet zwak maar 'sterk' of 'ijzersterk' zijn, gaat ver. Mensen die de literatuur niet kennen, zullen bij die termen toch andere associaties hebben. Cohen suggereert 0,3 als grens voor een 'middelmatig' effect, alles daaronder is 'zwak'. De voorkeur voor gothic kwam uit op 0,31, de rest van de significante verbanden zat daar min of meer onder: hiphop 0,16, metal 0,29, punk 0,27.
Als 9 procent van de verschillen in gerapporteerde delinquentie wordt verklaard door de verschillen in voorliefde voor gothic, moet 91 procent door andere factoren worden verklaard. Zelfs in het totale model moet nog 80 procent van de verschillen in die delinquentie bij gothic op een andere manier verklaard worden dan door muziek (Ter Bogt noemt hier weer het sterkste verband, de volgende zijn punk en rock, met 14 procent verklaarde variantie). Ik blijf het niet goed vinden om het dan en plein public over ijzersterke verbanden en over 'weten' te hebben.

Aanvankelijk vergeleek ik in mijn stuk als voorbeeld bij de hamvraag de correlatie tussen delinquentie en voorkeur voor hiphop met de correlatie tussen delinquentie en R&B. Dat verschil is niet significant, t = 1,31, p = 0,19, en dat tussen hiphop en jazz ook niet (p = 0,11), vandaar dat ik opmerkte dat de verschillen in muziekvoorkeuren vrijwel niets over delinquentie zeggen. Daar had ik het beter bij kunnen laten, maar op het allerlaatst, pal voor ik de laatste versie moest inleveren, keek ik nog even of er geen stugger voorbeeld was, bijvoorbeeld tussen gothic en jazz. Daar heb ik kennelijk iets verkeerd gedaan, waardoor het fout in de krant is gekomen. Akelig voor mij, een belangrijk punt voor Ter Bogt.
Des te akeliger, omdat deze misser Ter Bogt de gelegenheid geeft niet op het argument in te gaan, namelijk dat ze uiteindelijk niet expliciet hebben getoetst of harde muziek nu een betere voorspeller is dan pop en jazz en klassiek. De verschillen tussen de significante en niet-significante correlaties zijn en blijven klein, en ze zijn niet altijd significant. Mijn hamvraag blijft staan.

Ik vroeg me niet af waarom je dit type onderzoek überhaupt nodig hebt en of het niet stigmatiserend is. Ik vroeg me af of dit wenselijk onderzoek is, verwijzend naar de affaire-Buikhuisen. Dat lijkt me een legitieme vraag, het gaat niet om onwelgevallige resultaten, het gaat om de probleemstelling. Duidelijker dan in mijn rubriek kon ik het niet zeggen; als de onderzoekers niet begrijpen wat ik bedoel, ligt het aan mij. Waar ze zelf in hun wetenschappelijke artikel tegen stigmatisering waarschuwen, heb ik niet kunnen vinden.

Wetenschappers moeten uiteraard open en met plezier kunnen vertellen over de soms opzienbarende, soms moeilijk te geloven dingen die zij ontdekken, dat zal niemand bestrijden. Ze moeten echter niet meer beloven dan ze kunnen waarmaken, overdrijven en opscheppen, een hype creëren en de wetenschappelijke nuance laten varen. Zeker in een tijd waarin hun geloofwaardigheid systematisch onder druk staat.