loppet IAT: en fallstudie av Validitetskrisen i psykologi:

loppet IAT: en fallstudie av Validitetskrisen i psykologi:

bra vetenskap kräver giltiga åtgärder. Detta uttalande är knappast kontroversiellt. Inte överraskande hävdar alla författare av någon psykologisk åtgärd att deras åtgärd är giltig. Valideringsforskning är dock dyr och svår att publicera i prestigefyllda tidskrifter. Som ett resultat har Psykologisk Vetenskap en validitetskris., Många åtgärder används i hundratals artiklar utan tydliga definitioner av konstruktioner och utan kvantitativ information om deras giltighet (Schimmack, 2010).

Implicit Association Test (AT) är inget undantag. IAT introducerades 1998 med starka och mycket replikerbara bevis för att genomsnittliga attityder mot objektpar (t.ex. blommor vs spindlar) kan mätas med reaktionstider i en klassificeringsuppgift (Greenwald et al., 1998)., Även om titeln på artikeln lovade ett mått på individuella skillnader var huvudbeviset i artikeln genomsnittliga skillnader mellan grupper. Den ursprungliga artikeln visade således inte mycket på att IAT är ett giltigt mått på individuella skillnader.

användningen av IAT som ett mått på individuella skillnader i attityder kräver vetenskapliga bevis för att testresultat är kopplade till variation i attityder., Viktiga bevis för giltigheten av ett test är tillförlitlighet, konvergent giltighet, diskriminerande giltighet och inkrementell prediktiv giltighet (Campbell & Fiske, 1959).

IAT: s giltighet som ett mått på attityder måste granskas från fall till fall, eftersom kopplingen mellan föreningar och attityder kan variera beroende på attitydobjektet. För attitydobjekt som popdrycker, Coke vs. Pepsi kan föreningar vara starkt relaterade till attityder., Faktum är att IAT har god prediktiv giltighet för val mellan två popdrycker (Hofmann, Gawronski, Gschwendner, & Schmitt, 2005). Det saknar dock konvergent giltighet när det används för att mäta självkänsla (Bosson & Swan, & Pennebaker, 2000).

IAT är mest känd som ett mått på fördomar, rasfördomar eller attityder hos vita amerikaner mot afroamerikaner. Å ena sidan hävdar uppfinnaren av IAT, Greenwald, att rasen IAT har prediktiv giltighet (Greenwald et al., 2009)., Andra tar problem med bevisen: ”implicita Associationstestpoäng tillät inte förutsägelse av beteenden på individuell nivå” (Blanton et al., 2009, s. 567) ;” IAT ger liten inblick i vem som kommer att diskriminera vem, och ger inte mer insikt än uttryckliga åtgärder för bias ”(Oswald et al., 2013).

nio år senare presenterar Greenwald och kollegor en ny metaanalys av IAT: s prediktiva giltighet (Kurdi et al., 2018) baserat på 217 forskningsrapporter och en total urvalsstorlek N = 36,071 deltagare. Resultaten av denna metaanalys rapporteras i abstrakt.,

Vi fann betydande implicita-kriterium korrelationer (ICCs) och explicit-kriterium korrelationer (ECCs), med unika bidrag av implicita (beta = .14) och uttryckliga åtgärder (beta = .11) avslöjas genom strukturell ekvation modellering.

problemet med metaanalyser är att de aggregerar information med olika metoder, mått och kriterievariabler, och metaanalysen visade hög variation i prediktiv validitet. Således ger rubriken fynd inte information om den prediktiva giltigheten av loppet IAT., Som framgår av författarna, ”statistiskt, den höga graden av heterogenitet tyder på att varje enskild punkt uppskattning av implicit-kriteriet förhållandet skulle vara vilseledande” (s. 7).

ett annat problem med metaanalys är att det är svårt att hitta tillförlitliga moderatorvariabler om ursprungliga studier har små prover och stort provtagningsfel. Som ett resultat kan en icke-signifikant moderatoreffekt inte tolkas som bevis på att resultaten är homogena. Således är ett bättre sätt att undersöka den prediktiva giltigheten av ras IAT att begränsa metaanalysen till studier som använde ras IAT.,

ett annat problem med små studier är att de introducerar mycket buller eftersom punktskattningar är partiska av provtagningsfel. Stanley, Jarrell och Doucouliagos (2010) gjorde det geniala förslaget att begränsa meta-analys till topp 10% av studierna med de största provstorlekarna. Eftersom dessa studier har ett litet provtagningsfel till att börja med, kommer aggregering av dem att producera uppskattningar med ännu mindre provtagningsfel och det är inte nödvändigt att inkludera många små studier med hög heterogenitet., Ett mindre antal studier gör det också lättare att utvärdera studiernas kvalitet och att undersöka heterogenitetskällor i olika studier. Jag använde detta tillvägagångssätt för att undersöka den prediktiva giltigheten av ras IAT med hjälp av de studier som ingår i Kurdi et al.’s (2018) meta-analys (data).

beskrivning av Data

datafilen innehöll variabeln groupStemCat2 som kodade grupperna jämfört i IAT. Endast studier klassificerade som groupStemCat2 == ”African American and Africans” valdes och lämnade 1328 poster (rader)., Därefter valde jag endast studier med en IAT-kriterium korrelation och lämnade 1004 poster. Därefter valde jag endast poster med en minsta provstorlek på N = 100, vilket gav 235 poster (mer än 10%).

235-posterna baserades på 21-studier, vilket indikerar att metaanalysen kodade i genomsnitt mer än 10 olika effekter för varje studie.

median IAT-kriteriet korrelation mellan alla 235 studier var r=.070. I jämförelse var median r för 769-studierna Med N < 100 r=.044., Att välja för studier med stor N minskade således inte effektstorleksuppskattningen.

När jag först beräknade medianen för varje studie och sedan medianen över studierna fick jag en liknande mediankorrelation av r=.065. Det fanns ingen signifikant korrelation mellan provstorlek och median ICC-kriteriet korrelation mellan de 21 studierna, r = .12. Således finns det inga tecken på publicering bias.

Jag granskar nu de 21 studierna i minskande ordning av median-IAT-kriteriet-korrelationen. Jag utvärderar studiernas kvalitet med 1 till 5 stjärnor som sträcker sig från lägsta till högsta kvalitet., Eftersom vissa studier inte var avsedda att vara valideringsstudier återspeglar denna utvärdering inte kvaliteten på en studie i sig. Utvärderingen bygger på förmågan hos en studie att validera IAT som ett mått på rasfördomar.

1. * Ma et al. (Studie 2), N = 303, r = .34

Ma et al. (2012) använde flera IATs för att förutsäga omröstningsintentioner i det amerikanska presidentvalet 2012. Viktigt är att Studie 2 inte inkluderade race IAT som användes i studie 1 (#15, median r = .03). Istället ändrades race IAT för att inkludera bilder av de två kandidaterna Obama och Romney., Även om det är intressant att en IAT som kräver rasklassificeringar av kandidater förutspådde omröstningsintentioner, kan denna studie inte användas för att hävda att ras IAT som ett mått på rasförspänning har prediktiv giltighet eftersom IAT mäter specifika attityder gentemot kandidater snarare än attityder gentemot afroamerikaner i allmänhet.

2. *** Knowles et al., N = 285, r = .26

denna studie använde race IAT för att förutsäga omröstningsintentioner och godkännande av Obamas hälsovårdsreformer., Det viktigaste resultatet var att loppet IAT var en betydande prediktor för röstavsikter (Odds Ratio = .61; r = .20) och att detta förhållande förblev betydande efter att ha inkluderat den moderna Rasismskalan som prediktor (Odds Ratio = .67, effekt storlek r = .15). Korrelationen liknar det resultat som erhållits i nästa studie med ett större prov.

3. ***** Greenwald et al. (2009), N = 1,057, r = .17

de mest avgörande resultaten kommer från Greenwald et al.s (2009) studie med den största urvalsstorleken för alla studier., I ett urval av n = 1,057 deltagare förutspådde race IAT röstavsikter i 2008 amerikanska valet (Obama vs McCain), r = .17. Men i en modell som inkluderade politisk orientering som prediktor för omröstningsintentioner, lade endast uttryckliga attitydåtgärder till inkrementell prediktiv giltighet, b = .10, se = .03, t = 3,98, men IAT gjorde det inte, b = .00, se = .02, T = 0, 18.

4. Cooper m.fl., N = 178, r = .12

provstorleken i metaanalysen matchar inte provstorleken i den ursprungliga studien., Även om 269 patienter var inblandade, administrerades race IAT till 40 primärvårdskliniker. Således kan prediktiv giltighet endast bedömas på ett litet urval av n = 40 läkare som tillhandahöll oberoende IAT-poäng. Tabell 3 visar sju beroende variabler och visar två signifikanta resultat (p=.02, P = .02) för svarta patienter.

5. * Biernat et al. (Studie 1), N = 136, r = .10

studie 1 inkluderade race IAT och donationer till en svart vs andra studentorganisationer som kriterievariabel. Det negativa förhållandet var inte signifikant (effektstorlek r = .05)., Metaanalysen inkluderade också den skiftande standardvariabeln (effektstorlek r=.14). Skiftande standarder avser i vilken utsträckning deltagarna skiftade standarder i sina bedömningar av svart mot vitt måls akademiska förmåga. Den viktigaste punkten i artikeln var att skiftande standarder snarare än implicita attitydåtgärder förutspår ras bias i faktiskt beteende. ”I tre studier var tendensen att skifta standarder okorrelerade med andra åtgärder av fördomar men förutspådde minskad fördelning av medel till en svart studentorganisation.,”Det verkar således diskutabelt att använda skiftande standarder som ett valideringskriterium för race IAT eftersom nyckelkriteriumvariabeln var donationerna, medan skiftande standarder var en konkurrerande indirekt mått på fördomar.

6. ** Zhang et al. (Studie 2), N = 196, r = .10

denna studie undersökte tankeförteckningar efter att deltagarna såg ett brott som begåtts av en svart gärningsman På lag och ordning. ”Över två program hittades inga statistiskt signifikanta relationer mellan tankens natur och poängen på IAT, F(2, 85) = 2.4, p < .,11 för program 1, och F(2, 84) = var 1,98, p < .53 för program 2.”Den största begränsningen av denna studie är att tankeförteckningar inte är ett verkligt socialt beteende. Eftersom effektstorleken för denna studie ligger nära medianen, exklusive den har ingen märkbar effekt på slutresultatet.

7. * Vimmerby et al., N = 300, h = .09

titeln på denna artikel är ”Ras och den psykologiska hälsan hos afroamerikaner.”Provet består av 300 afroamerikanska deltagare., Även om det är intressant att undersöka afroamerikanernas rasistiska attityder, tar denna studie inte upp frågan om ras IAT är en giltig åtgärd av fördomar mot afroamerikaner.

8. *** Eno et al. (Studie 1), N = 105, r = .09

den här artikeln undersöker svar på en filmuppsättning under civil Rights Era; ”kom ihåg Titans.”Efter att ha tittat på filmen gjorde deltagarna flera betyg om tolkningar av händelser. Endast en händelse, som tillskriver Emmas handlingar till en olycka, visade en signifikant korrelation med IAT, r = .,20, men attributioner till rasism visade också en korrelation i samma riktning, r =.10. För de andra händelserna hade attributioner samma icke-signifikanta effektstorlek, flickor intressen r = .12, Flickor race, r = .07; tegel rasism, r = -.10, Brick Black coachs handlingar, r = -.10.

9. *** Men annars & Haag, N = 153, r = .07

Abserson och Haag administrerade loppet IAT till 153 deltagare och ställde frågor om kvantitet och kvalitet i kontakt med afroamerikaner. De fann icke-signifikanta korrelationer med kvantitet, r = -.12 och kvalitet, r = -.,10, och en signifikant positiv korrelation med interaktionen, r = .17. Den positiva interaktionseffekten tyder på att individer med låg kontakt, vilket också innebär låg kvalitet kontakt, inte skiljer sig från individer med frekvent kontakt av hög kvalitet.

10. *Hagiwara et al. N = 106, r = .07

denna studie är en annan studie av svarta patienter och icke-svarta läkare. Den största begränsningen är att det bara fanns 14 läkare och endast 2 var vita.

11. **** Bar-Revolterande & Nosek, N = 397, r = .,06

denna studie använde kontakt som valideringskriterium. Loppet IAT visade en korrelation av r = -.14 med gruppkontakt. N i intervallet från 492-647. Den korta IAT visade praktiskt taget samma förhållande, r = -.13. Bilagan rapporterar att kontakten var starkare korrelerad med de uttryckliga åtgärderna; termometer r = .27, preferens r = .31. Med hjälp av strukturell ekvationsmodellering, som rekommenderas av Greenwald och kollegor, fann jag inga bevis för att IAT har unik prediktiv giltighet i förutsägelsen av kontakt när uttryckliga åtgärder inkluderades som prediktorer, b = .03, se = .,07, T = 0, 37.

12. *** Men annars & Gaffney, N = 386, median r = .05

denna studie relaterade race IAT till åtgärder av positiv och negativ kontakt, r = .10, r = -.01, respektive. Korrelationer med en uttrycklig åtgärd var betydligt starkare, r=.38, r = -.35 respektive. Dessa resultat speglar de resultat som presenteras ovan.

13. * Orey et al. N = 386, median r = .04

denna studie undersökte rasistiska attityder bland svarta respondenter., Även om detta är en intressant fråga, kan uppgifterna inte användas för att undersöka den prediktiva giltigheten av ras IAT som ett mått på fördomar.

14. * Krieger et al. N = 708, median r = .04

denna studie använde race IAT med 442 svarta deltagare och kriteriemått för uppfattad diskriminering och hälsa. Även om detta är ett värdefullt forskningsämne, resultaten kan inte användas för att utvärdera giltigheten av ras IAT som ett mått på fördomar.

15. *** Ma et al. (Studie 1), N = 335, median r = .,03

denna studie använde race IAT för att förutsäga väljarintentioner i presidentvalet 2012. Studien fann ingen signifikant relation. ”Men varken kategori-nivå åtgärder var relaterade till avsikt att rösta för Obama (rs ≤ .06, ps ≥ .26)” (S. 31). Metaanalysen registrerade en korrelation av r=.045, baserat på e-postkorrespondens med författarna. Det är inte klart varför race IAT inte skulle förutsäga omröstningsintentioner under 2012, när det förutspådde omröstningsintentioner under 2008., En möjlighet är att Obama nu betraktades som en individ snarare än som medlem i en viss grupp, så att allmänna attityder gentemot afroamerikaner inte längre påverkade röstavsikter. Oavsett vad orsaken är, ger denna studie inte bevis för den prediktiva giltigheten av ras IAT.

16. **** Oliver et al., N = 105, median r = .02

denna studie var på online-studie av 543 läkare inom familj och internmedicin. De avslutade loppet IAT och gav behandlingsrekommendationer för ett hypotetiskt fall. Patientens ras manipulerades experimentellt., Abstraktet säger att ”läkare hade explicita och implicita rasfördomar, men dessa fördomar förutspådde inte
behandlingsrekommendationer” (s. 177). Provstorleken i metaanalysen är mindre eftersom det totala provet delades upp i mindre undergrupper.

17. * Nosek & Hansen, N = 207, median r = .01

denna studie omfattade inte ett tydligt valideringskriterium. Syftet var att undersöka förhållandet mellan ras IAT och kulturell kunskap om stereotyper., ”I sju studier (158 prover, n = 107,709) var IAT tillförlitligt och varierat relaterat till uttryckliga attityder, och uttryckliga attityder stod för förhållandet mellan IAT och kulturell kunskap.”De kulturella kunskapsåtgärderna användes som kriterievariabler. En positiv relation, r = .10, erhölls för objektet ” om det ges valet, vem skulle de flesta arbetsgivare väljer att hyra, en svart amerikan eller en vit Amerikan? (1 definitivt vit till 7 definitivt Svart).”En negativ relation, r = -.,09, erhölls för objektet ” Vem är mer sannolikt att vara ett mål för diskriminering, en svart amerikan eller en vit Amerikan? (1 definitivt vit till 7 definitivt Svart).”

18. *Plantera et al., N = 229, median r = .00

denna artikel undersökte röstintentioner i ett urval av 229 studenter. Resultaten rapporteras inte i artikeln. Metaanalysen rapporterade en positiv r = .04 och en negativ r = -.04 för två separata poster med olika uttryckliga åtgärder, vilket måste vara ett kodningsfel., Eftersom röstningsbeteende har undersökts i större och mer representativa prover (#3, # 15) kan dessa resultat ignoreras.

19. *Krieger et al. (2011), N = 503, r = .00

denna studie rekryterade 504 afroamerikaner och 501 Vita amerikaner. Alla deltagare avslutade loppet IAT. Studien omfattade dock inte tydliga valideringskriterier. Metaanalysen använde självrapporterade erfarenheter av diskriminering som valideringskriterium. Men den viktiga frågan är om ras IAT förutspår beteenden hos människor som diskriminerar, inte erfarenhet av offer för diskriminering.,

20. *Fiedorowicz, N = 257, r = -.01

denna studie är en avhandling och valideringskriteriet var religiös fundamentalism.

21. *Heider & Skowronski, N = 140, r = -.02

denna studie separerade mätningen av fördomar med ras IAT och mätningen av kriterievariablerna med flera veckor. Kriteriet var kooperativt beteende i ett fånge dilemma spel. Resultaten visade att ” både IAT (b = -.21, t = -2.51, p = .013) och Pro-Svart subscore (b = .17, T = 2, 10, p = .,037) var betydande prediktorer för mer samarbete med Black confederate. Dessa resultat var dock falska och har korrigerats (se Carlsson m.fl., 2018, för en detaljerad diskussion).
Heider, J. D., & Skowronski, J. J. (2011). Addendum till Heider och Skowronski (2007): förbättra den prediktiva giltigheten av implicita Association Test., North American Journal of Psychology, 13, 17-20

diskussion

Sammanfattningsvis visar en detaljerad undersökning av ras IAT-studierna som ingår i metaanalysen stor heterogenitet i kvaliteten på studierna och deras förmåga att undersöka den prediktiva giltigheten av ras IAT. Den bästa studien är Greenwald et al.s (2009) studie med ett stort urval och rösta i Obama vs McCain race som kriteriet variabel. En annan röstningsstudie misslyckades dock med att replikera dessa resultat under 2012., Den näst bästa studien var BarAnan och Noseks studie med intergroup contact som ett valideringskriterium, men det misslyckades med att visa inkrementell prediktiv giltighet av IAT.

studier med läkare visar inga tydliga tecken på rasfördomar. Detta kan bero på läkarnas professionalism och resultaten bör inte generaliseras till den allmänna befolkningen. De återstående studierna ansågs olämpliga för att undersöka prediktiv giltighet. Till exempel använde vissa studier med afroamerikanska deltagare inte IAT för att mäta fördomar.,

baserat på detta begränsade bevis är det omöjligt att dra starka slutsatser om den prediktiva giltigheten av ras IAT. Min bedömning av bevisen är ganska förenlig med författarna till metaanalysen, som fann att ”av de 2,240 ICCs som ingår i denna metaanalys fanns det bara 24 effektstorlekar från 13 studier som (A) hade förhållandet mellan implicit kognition och beteende som deras primära fokus” (s. 13).,

detta bekräftar min observation i introduktionen att psykologisk vetenskap har en valideringskris eftersom forskare sällan utför valideringsstudier. I själva verket, trots alla bekymmer om replikerbarhet, bristen på replikationsstudier är mycket mer talrika än valideringsstudier. Konsekvenserna av valideringskrisen är att psykologer rutinmässigt gör teoretiska påståenden baserade på åtgärder med okänd giltighet. Som visas här är detta också sant för IAT., För närvarande är det omöjligt att göra evidensbaserade påståenden om IAT: s giltighet eftersom det är okänt vad IAT-åtgärderna och hur väl det mäter vad det mäter.

teoretisk förvirring om implicita åtgärder

bristen på teoretisk förståelse för IAT är uppenbar i Greenwald och Banajis (2017) senaste artikel, där de föreslår att ”implicit kognition påverkar explicit kognition som i sin tur driver beteende” (Kurdi et al., s.13)., Denna modell skulle innebära att implicita åtgärder som IAT inte har en direkt koppling till beteende eftersom medvetna processer slutligen bestämmer åtgärder. Denna spekulativa modell illustreras med Bar-Anan och Noseks (#11) data som visade ingen inkrementell prediktiv giltighet vid kontakt. Modellen kan omvandlas till en orsakskedja genom att ändra den bidiretionella vägen till ett antaget orsakssamband mellan implicita och uttryckliga attityder.,

det är dock också möjligt att ändra modellen till en enda faktormodell, som betraktar unik varians i implicita och uttryckliga åtgärder som enbart metodvarians.

således är alla påståenden om implicit bias och explicit bias för tidiga eftersom de befintliga uppgifterna överensstämmer med olika teoretiska modeller., För att göra vetenskapliga påståenden om implicita former av ras bias, skulle det vara nödvändigt att få data som kan skilja empiriskt mellan enstaka konstruera och dubbla konstruera modeller.

slutsats

tävlingen IAT är 20 år gammal. Det har använts i hundratals artiklar för att göra empiriska påståenden om fördomar. Förvirringen mellan åtgärder och konstruktioner har skapat en offentlig diskurs om implicita rasfördomar som kan uppstå utanför medvetenheten. Denna diskurs tas emellertid bort från de empiriska fakta., Den viktigaste upptäckten av den senaste metaanalysen är att en noggrann sökning av litteraturen avslöjade endast en handfull allvarliga valideringsstudier och att resultaten av dessa studier är suggestiva i bästa fall. Även om framtida studier skulle ge mer avgörande bevis på inkrementell prediktiv giltighet, skulle detta konstaterande vara otillräckligt för att hävda att IAT är ett giltigt mått på implicit bias. IAT kunde ha inkrementell prediktiv giltighet även om det bara var en kompletterande åtgärd av medvetet tillgängliga fördomar som inte delar metodvarians med uttryckliga åtgärder., En metod med flera metoder behövs för att undersöka IAT: s konstruktions giltighet som ett mått på implicit ras bias. Sådana bevis existerar helt enkelt inte. Greenwald och kollegor hade 20 år och riklig finansiering för att genomföra sådana valideringsstudier, men de misslyckades med att göra det. Däremot förvirrar deras artiklar konsekvent åtgärder och konstruktioner och ger intrycket att IAT mäter omedvetna processer som är dolda från introspektion (”medveten erfarenhet ger bara ett litet fönster i hur sinnet fungerar”, ”Klicka här för att upptäcka dina dolda tankar”).,

Greenwald och Banaji är väl medvetna om att deras påståenden är viktiga. ”Forskning om implicit social kognition har bevittnat högre uppmärksamhet både från allmänheten och från statliga och kommersiella enheter, vilket gör regelbunden rapportering av vad som är känt ett extra ansvar” (Kurdi et al., 2018, s. 3). Jag instämmer. Men jag tror inte att deras metaanalys uppfyller detta löfte., En opartisk bedömning av bevisen visar inga övertygande bevis för att ras IAT är ett giltigt mått på implicit rasförspänning. och utan ett giltigt mått på implicit rasförspänning är det omöjligt att göra vetenskapliga uttalanden om implicit rasförspänning. Jag anser att allmänheten förtjänar att få veta detta. Tyvärr finns det inget behov av vetenskapliga bevis för att fördomar och diskriminering fortfarande existerar., Helst kommer psykologer att satsa mer på att utveckla giltiga åtgärder för rasism som kan ge tillförlitlig information om variation mellan individer, geografiska regioner, grupper och tid. Många tror att psykologer redan gör det, men den här översynen av litteraturen visar att detta inte är fallet. Det är hög tid att faktiskt göra vad allmänheten förväntar sig av oss.

Lämna ett svar

Din e-postadress kommer inte publiceras. Obligatoriska fält är märkta *