God vitenskap krever gyldig tiltak. Denne uttalelsen er neppe kontroversiell. Ikke overraskende, er alle forfatterne av noen psykologiske mål hevder at deres mål er gyldig. Imidlertid, validering forskning er dyrt og vanskelig å publisere i anerkjente tidsskrifter. Som et resultat, psykologisk vitenskap har en gyldighet krise., Mange tiltak er brukt i hundrevis av artikler uten klare definisjoner av begreper og uten kvantitativ informasjon om deres gyldighet (Schimmack, 2010).
Den Implisitte Association Test (PÅ) er intet unntak. IAT ble innført i 1998 med sterk og svært sammenlignbar bevis på at gjennomsnittlig holdninger til objekter par (f.eks, blomster vs. edderkopper) kan måles med reaksjonstid i en klassifisering oppgave (Greenwald et al., 1998)., Selv om tittelen på artikkelen lovet å måle individuelle forskjeller, den viktigste bevis i artikkelen ble mener forskjeller mellom grupper. Dermed, den opprinnelige artikkelen gitt lite som tyder på at IAT er et gyldig mål på individuelle forskjeller.
bruk av IAT som et mål på individuelle forskjeller i holdninger krever vitenskapelig bevis for at tester score er knyttet til variasjon i holdninger., Viktige bevis for gyldigheten av en test er pålitelighet, konvergerende validitet, diskriminerende validitet, og inkrementell logisk gyldighet (Campbell & Fiske, 1959).
gyldigheten av IAT som et mål på holdninger har å bli undersøkt på en sak fordi koblingen mellom foreninger og holdninger kan variere avhengig av holdning objekt. For holdning objekter som pop drikke, Cola vs. Pepsi, foreninger kan være sterkt knyttet til holdninger., Faktisk, IAT har god prediktiv validitet for valg mellom to pop drikke (Hofmann, Gawronski, Gschwendner, & Schmitt, 2005). Men, det mangler konvergent validitet når det brukes til å måle selvfølelse (Bosson & Swan, & Pennebaker, 2000).
IAT er best kjent som et mål på fordommer, rasefordommer, eller holdninger av Hvite Amerikanere mot Afrikansk-Amerikanere. På den ene siden, oppfinneren av IAT, Greenwald, hevder at løpet IAT har prediktiv validitet (Greenwald et al., 2009)., Andre tar problemet med bevis: «Implisitt Association Test score gjorde det ikke mulig prediksjon av individ-nivå atferd» (Blanton et al., 2009, s. 567); «IAT gir liten innsikt i hvem som vil diskriminere mot hvem, og gir ikke mer innsikt enn eksplisitte tiltak av bias» (Oswald et al., 2013).
Ni år senere, Greenwald og kolleger presentere en ny meta-analyse av logisk gyldighet av IAT (Kurdi et al., 2018) basert på 217 forskningsrapporter og en total utvalgsstørrelse N = 36,071 deltakere. Resultatene av denne meta-analysen er rapportert i det abstrakte.,
Vi fant betydelige implisitt– kriteriet korrelasjoner (ICCs) og eksplisitt– kriteriet korrelasjoner (ECCs), med unike bidrag av implisitt (beta = .14) og eksplisitte tiltak (beta = .11) avslørt av structural equation modeling.
problemet med meta-analyser er at de samlet informasjon med ulike metoder, tiltak, og kriteriet variabler, og meta-analyse viste høy variabilitet i logisk gyldighet. Dermed overskriften finne ikke gir informasjon om den prediktive validiteten av rase IAT., Som nevnt av forfatterne, «Statistisk sett høy grad av mangfold tyder på at noen enkelt punkt estimat av implisitt– kriteriet forholdet ville være villedende» (s. 7).
et Annet problem av meta-analyse er at det er vanskelig å finne pålitelige moderator variabler hvis opprinnelige studier har små prøver og stor utvalgsfeilen. Som et resultat, en ikke-signifikant effekt moderator kan ikke tolkes som bevis på at resultatene er homogen. Dermed er en bedre måte å undersøke den prediktive validiteten av rase IAT, er å begrense meta-analyse av studier som brukes løpet IAT.,
et Annet problem av små studier er at de innfører en mye støy på grunn punkt estimater er partisk av utvalgsfeilen. Stanley, Jarrell, og Doucouliagos (2010) laget det geniale forslaget om å begrense meta-analyse for topp 10% av studier med de største utvalgene. Som disse studiene har liten prøvesmak feil til å begynne med, å samle dem vil gi estimater med enda mindre utvalgsfeilen og inkludering av mange små studier med høyt mangfold er ikke nødvendig., Et mindre antall studier gjør det også enklere å vurdere kvaliteten på studier og til å undersøke kilder til mangfold på tvers av studier. Jeg brukte denne metoden til å undersøke den prediktive validiteten av rase IAT ved hjelp av studiene som er inkludert i Kurdi et al.’s (2018) meta-analyse (data).
Beskrivelse av Data
datafile som finnes variabelen groupStemCat2 at kodet gruppene sammenlignet med IAT. Bare studier klassifisert som groupStemCat2 == «African American og Afrikanere» ble valgt, forlater 1328 poster (rader)., Neste, jeg valgte bare studier med en IAT-kriteriet korrelasjon, forlater 1004 oppføringer. Neste, jeg valgte bare oppføringer med et minimum eksempel størrelse på N = 100, forlater 235 oppføringer (mer enn 10%).
235 oppføringer var basert på 21 studier, som indikerer at meta-analyse kodet i gjennomsnitt mer enn 10 forskjellige effekter for hver undersøkelse.
median IAT-kriteriet sammenheng på tvers av alle de 235 studier var r = .070. I sammenligningen, median r for 769 studier med N < 100 var r = .044., Dermed, for å velge studier med stor N ikke redusere effekten størrelse estimat.
Når jeg først beregnet median for hver undersøkelse, og deretter median på tvers av studier, har jeg oppnådd en lignende median korrelasjon på r = .065. Det var ingen signifikant korrelasjon mellom utvalgsstørrelse og median ICC-kriteriet sammenheng på tvers av 21 studier, r = .12. Dermed er det ingen bevis for publikasjonsskjevhet.
jeg nå skrive en anmeldelse av 21 studier i synkende rekkefølge av median IAT-kriteriet korrelasjon. Jeg vurdere kvaliteten på studier med 1 til 5 stjerner alt fra laveste til høyeste kvalitet., Som noen studier ikke var ment å være valideringsstudier, denne evalueringen reflekterer ikke kvaliteten av en studie per se. Evalueringen er basert på evnen til en studie for å validere IAT som et mål på rasefordommer.
1. * Ma et al. (Studie 2), N = 303, r = .34
Ma et al. (2012) brukt flere IATs å forutsi stemmeberettigede intensjoner i 2012 AMERIKANSKE presidentvalget. Viktigere, Studie 2 ikke inkluderer løpet IAT som ble brukt i Studie 1 (#15, median r = .03). I stedet løp IAT ble endret til å inkludere bilder av de to kandidatene Obama og Romney., Selv om det er interessant at en IAT som krever rase klassifiseringer av kandidater spådd å stemme intensjoner, og denne studien kan ikke bli brukt for å kreve at løpet IAT som et mål på rasefordommer har prediktiv validitet fordi IAT tiltak bestemte holdninger til kandidater snarere enn holdninger til Afro-Amerikanere generelt.
2. *** Knowles et al. N = 285, r = .26
Denne studien brukes løpet IAT å forutsi stemmeberettigede intensjoner og anbefaling av Obama ‘ s health care reformer., De viktigste funn var at løpet IAT var en signifikant prediktor av stemmeberettigede intensjoner (Odds Ratio = .61; r = .20), og at dette forholdet vært betydelig etter inkludert Moderne Rasisme skala som prediktor (Odds Ratio = .67, i kraft størrelse r = .15). Korrelasjonen er lik resultat oppnådd i den neste studien med et større utvalg.
3. ***** Greenwald et al. (2009), N = 1,057, r = .17
Den mest avgjørende resultatene kommer fra Greenwald et al.’s (2009) studie med de største eksempel størrelsen på alle studier., I en prøve av N = 1,057 deltakere, rase IAT spådd å stemme intensjoner i 2008 OSS valget (Obama vs. McCain), r = .17. Imidlertid, i en modell som inkluderte politiske retning som prediktor for stemmegivning intensjoner, er det bare eksplisitt holdning tiltak lagt trinnvis logisk gyldighet, b = .10, SE = .03, t = 3.98, men IAT ikke, b = .00, SE = .02, t = 0.18.
4. * Cooper et al., N = 178, r = .12
utvalgsstørrelsen i meta-analysen ikke samsvarer eksempel størrelsen av den opprinnelige studien., Selv om 269 pasienter var involvert, rase IAT ble gitt til 40 primærhelsetjenesten klinikere. Dermed logisk gyldighet kan bare vurderes på et lite utvalg av N = 40 leger som har gitt uavhengig IAT score. Tabell 3 viser sju avhengige variabler og viser to signifikante resultater (p = .02, p = .02) for Sorte pasienter.
5. * Biernat et al. (Studie 1), N = 136, r = .10
Studie 1 inkludert løpet IAT og donasjoner til en Sort vs. andre studentorganisasjonene som kriterium variabel. Den negative sammenhengen var ikke signifikant (effektstørrelse r = .05)., Meta-analysen også inkludert skiftende standard variabel (effect size r = .14). Skiftende normer refererer til i hvilken grad deltakerne flyttet standarder i sine vurderinger til Svarte kontra Hvite mål’ akademisk evne. Det viktigste poenget med artikkelen var at skiftende standarder snarere enn implisitt holdning tiltak forutsi rasefordommer i faktiske atferd. «I tre studier, tendensen til å skifte standarder ble ukorrelerte med andre tiltak for fordommer, men spådd redusert tildeling av midler til en Svart studentorganisasjon.,»Så, det virker diskuteres å bruke skiftende standarder som en validering kriteriet for løpet IAT, fordi nøkkelen kriteriet variabel var donasjoner, mens skiftende standarder var en konkurrerende indirekte mål på fordommer.
6. ** Zhang et al. (Studie 2), N = 196, r = .10
Denne studien undersøkte trodde oppføringer når deltakerne så en forbrytelse begått av en Svart lovbryteren på Lov og Orden. «Over to programmer, ingen statistisk signifikante relasjoner mellom arten av de tanker og score på IAT ble funnet, F(2, 85) = 2.4, p < .,11 for program 1, og F(2, 84) = 1.98, p < .53 for program 2.»Den viktigste begrensning i denne studien er at tanken oppføringer er ikke en ekte sosial atferd. Som effektstørrelse for denne studien er nær medianen, unntatt det har ingen merkbar effekt på det endelige resultatet.
7. * Ashburn et al., N = 300, r = .09
tittelen på denne artikkelen er «Rase og psykisk helse av Afro-Amerikanere.»Utvalget består av 300 African American deltakere., Selv om det er interessant å undersøke rasistiske holdninger av Afro-Amerikanere, denne studien tar ikke for seg spørsmålet om rase IAT er et gyldig mål på fordommer mot Afrikansk-Amerikanere.
8. *** Eno et al. (Studie 1), N = 105, r = .09
Denne artikkelen undersøker svar til en film som er satt under den Sivile Rettigheter Æra; «Remember the Titans.»Etter å ha sett filmen, deltakere gjort flere vurderinger om tolkninger av hendelser. Bare én hendelse, tildeling av Emma ‘ s handlinger til en ulykke, viste en signifikant korrelasjon med IAT, r = .,20, men attribusjoner til rasisme viste også en sammenheng i samme retning, r = .10. For andre hendelser, egenskaper hadde de samme ikke-signifikant effekt størrelse, Jenter interesser r = .12, Jenter rase, r = .07; Murstein rasisme, r = -.10, Murstein Svart trener handlinger, r = -.10.
9. *** Men ellers & Haag, N = 153, r = .07
Abserson og Haag administreres løpet IAT til 153 deltakere og stilte spørsmål om kvantitet og kvalitet av kontakt med Afro-Amerikanere. De som er funnet ikke-signifikante sammenhenger med antall, r = -.12 og kvalitet, r = -.,10, og en signifikant positiv korrelasjon med samhandling, r = .17. Positiv interaksjonseffekt tyder på at personer med lave kontakt, noe som innebærer lav kvalitet kontakt så godt, er ikke forskjellige fra personer med hyppige høy kvalitet kontakt.
10. *Hagiwara et al. N = 106, r = .07
Denne studien er en annen studie av Svart pasienter og ikke-Black lege. Den viktigste begrensningen er at det bare var 14 leger og bare 2 var Hvite.
11. **** Bar-Anan & Nosek, N = 397, r = .,06
Denne studien brukes kontakt som en validering av kriteriet. Rase IAT viste en korrelasjon på r = -.14 med gruppen kontakt. N i området fra 492-647. Den Korte IAT viste praktisk talt den samme forhold, r = -.13. I tillegg rapporterer at kontakten ble mer sterkt korrelert med den eksplisitte tiltak; termometer r = .27, preferanse r = .31. Ved hjelp av structural equation modeling, som anbefalt av Greenwald og kolleger, jeg fant ingen bevis for at IAT har unike logisk gyldighet i prediksjon av kontakten når eksplisitte tiltak ble inkludert som prediktorer, b = .03, SE = .,07, t = 0.37.
12. *** Men ellers & Gaffney, N = 386, median r = .05
Denne studien knyttet løpet IAT til tiltak av positive og negative kontakt, r = .10, r = -.01, henholdsvis. Korrelasjoner med et eksplisitt mål var betydelig sterkere, r = .38, r = -.35, henholdsvis. Disse resultatene speil resultatene presentert ovenfor.
13. * Orey et al. N = 386, median r = .04
Denne studien undersøkte rasistiske holdninger blant Svarte respondentene., Selv om dette er et interessant spørsmål, dataene kan ikke brukes til å undersøke den prediktive validiteten av rase IAT som et mål på fordommer.
14. * Krieger et al. N = 708, median r = .04
Denne studien brukes løpet IAT med 442 Svart deltakere og kriteriet tiltak av opplevd diskriminering og helse. Selv om dette er en verdig forskning emne, resultatene kan ikke brukes til å vurdere gyldigheten av rase IAT som et mål på fordommer.
15. *** Ma et al. (Studie 1), N = 335, median r = .,03
Denne studien brukes løpet IAT å forutsi velgernes intensjoner i 2012 presidentvalget. Studien fant ingen signifikante forhold. «Imidlertid er verken kategori-nivå tiltak var knyttet til intensjonen om å stemme for Obama (rs ≤ .06, ps ≥ .26)» (s. 31). Meta-analyse registrert en korrelasjon på r = .045, basert på e-post korrespondanse med forfatterne. Det er ikke klart hvorfor løpet IAT ville ikke forutsi stemmeberettigede intensjoner i 2012, når den gjorde forutsi stemmeberettigede intensjoner i 2008., En mulighet er at Obama ble nå sett på som en en person snarere enn som medlem av en bestemt gruppe, slik at generelle holdninger til Afro-Amerikanere ikke lenger påvirket stemmeberettigede intensjoner. Uansett hva grunnen er, denne studien gir ikke bevis for logisk gyldighet av rase IAT.
16. **** Oliver et al. N = 105, median r = .02
Denne studien var på online studie av 543 familie og indremedisin leger. De fullførte løpet IAT og ga behandling anbefalinger for en hypotetisk tilfelle. Rase av pasienten var eksperimentelt manipulert., Det abstrakte sier at «leger besatt eksplisitt og implisitt rasemessige fordommer, men de skjevheter ikke forutsi
behandling, anbefalinger» (s. 177). Utvalgsstørrelsen i meta-analysen er mindre fordi det totale utvalget ble brutt ned i mindre undergrupper.
17. * Nosek & Hansen, N = 207, median r = .01
Denne studien inkluderte ikke en klar validering kriteriet. Målet var å undersøke forholdet mellom rase IAT og kulturelle kunnskap om stereoetypes., «I syv studier (158 prøver, N = 107,709), IAT var pålitelig og trinnløst knyttet til eksplisitte holdninger, og eksplisitte holdninger rede for forholdet mellom IAT og kulturell kunnskap.»Den kulturelle kunnskapen tiltak ble brukt som kriterium variabler. En positiv relasjon, r = .10, ble anskaffet for elementet «Om du fikk velge, hvem ville de fleste arbeidsgivere velger å leie, en Svart Amerikansk eller en Hvit Amerikansk? (1 definitivt Hvit til 7 definitivt Svart).»Et negativt forhold, r = -.,09, ble innhentet for element «Som er mer sannsynlig å være et mål for diskriminering, en Svart Amerikansk eller en Hvit Amerikansk? (1 definitivt Hvit til 7 definitivt Svart).»
18. *Plante et al. N = 229, median r = .00
Denne artikkelen undersøkt stemmeberettigede intensjoner i en prøve av 229 studenter. Resultatene er ikke rapportert i artikkelen. Meta-analyse rapporterte en positiv r = .04 og en negativ r = -.04 for to separate oppføringer med forskjellige eksplisitte tiltak, som må være en feil koding., Som stemmegivning atferd har blitt undersøkt i større og mer representative utvalg (#3, #15), og disse resultatene kan bli ignorert.
19. *Krieger et al. (2011), N = 503, r = .00
Denne studien rekrutterte 504 Afro-Amerikanere og 501 Hvite Amerikanere. Alle deltakerne gjennomførte løpet IAT. Men studien inkluderte ikke klart validering kriterier. Meta-analysen brukt selvrapporterte opplevelser av diskriminering som validering av kriteriet. Men, det viktige spørsmålet er om rase IAT spår atferd av folk som diskriminerer, ikke opplevelsen av ofre for diskriminering.,
20. *Fiedorowicz, N = 257, r = -.01
Denne studien er en avhandling og validering kriterium var religiøs fundamentalisme.
21. *Heider & Skowronski, N = 140, r = -.02
Denne studien skilte måling av fordommer med rase IAT og måling av kriteriet variabler med flere uker. Kriteriet var samarbeidsvillig atferd i en fangens dilemma-spill. Resultatene viste at «både IAT (b = -.21, t = -2.51, p = .013) og Pro-Svart underpoengsum (b = .17, t = 2.10, p = .,037) var signifikante prediktorer for mer samarbeid med den Svarte konfødererte. Imidlertid, disse resultatene var falske, og har blitt rettet opp (se Carlsson et al., 2018, for en nærmere diskusjon).
Heider, J. D., & Skowronski, J. J. (2011). Tillegg til Heider og Skowronski (2007): å Forbedre den prediktive validiteten av de Implisitte Association Test., North American Journal of Psychology, 13, 17-20
Diskusjon
I sammendraget, en grundig undersøkelse av rase IAT studier som er inkludert i meta-analysen viser betydelige forskjeller som finnes i kvaliteten på studiene og deres evne til å undersøke den prediktive validiteten av rase IAT. Den beste studien er Greenwald et al.’s (2009) studie med et større utvalg og stemme på Obama vs. McCain rase som kriterium variabel. Men en annen stemme studien klarte ikke å replikere disse funnene i 2012., Den nest beste studien var BarAnan og Nosek s studie med intergroup kontakt som en validering av kriteriet, men det klarte ikke å vise trinnvis logisk gyldighet av IAT.
Studier med leger viser ingen klare bevis for rasefordommer. Dette kan være på grunn av profesjonalitet av leger og resultatene bør ikke bli generalisert til den generelle befolkningen. De resterende studiene ble vurdert som uegnet til å undersøke logisk gyldighet. For eksempel, noen studier med African American deltagerne ikke bruke IAT å måle fordommer.,
Basert på denne begrensede bevis som det er umulig å trekke sterke konklusjoner om den prediktive validiteten av rase IAT. Min vurdering av de bevisene er ganske konsistent med forfatterne av meta-analyse, som fant at «ut av 2,240 ICCs inkludert i denne metaanalysis, var det bare 24 effekten størrelser fra 13 studier som (a) hadde forholdet mellom implisitt erkjennelse og atferd som sitt primære fokus» (s. 13).,
Dette bekrefter min observasjon i innledningen at psykologiske vitenskapen har en validering krise fordi forskere sjelden opptreden valideringsstudier. Faktisk, til tross for alle de bekymringer om replicability, mangel på replikering studier er langt mer tallrike enn valideringsstudier. Konsekvensene av validering krisen er at psykologer rutinemessig foreta teoretiske påstander basert på tiltak med ukjent gyldighet. Som vist her, dette er også sant for IAT., I dag, er det umulig å få bevis-basert krav om gyldigheten av IAT fordi det er ukjent hva som IAT tiltak og hvor godt den måler hva den måler.
Teoretisk Forvirring om Implisitt Tiltak
mangelen på teoretisk forståelse av IAT er tydelig i Greenwald og Banaji s (2017) fersk artikkel, der de foreslår at «implisitt erkjennelse påvirkninger eksplisitt erkjennelse som, i sin tur, stasjoner atferd» (Kurdi et al. på side. 13)., Denne modellen vil innebære at implisitt tiltak som IAT ikke har en direkte link til atferd fordi bevisste prosesser som til syvende og sist avgjøre handlinger. Denne spekulative modellen er illustrert med Bar-Anan og Nosek s (#11) data som viste at ingen trinnvis logisk gyldighet på kontakt. Modellen kan bli forvandlet til en kausal kjede ved å endre bidiretional vei inn i en antatt årsakssammenheng mellom implisitte og eksplisitte holdninger.,
Men det er også mulig å endre modellen inn i en enkelt faktor modellen, som vurderer unik varians i implisitt og eksplisitt tiltak som rene metode varians.
Derfor, eventuelle krav om implisitt bias og eksplisitt bias er for tidlig fordi de eksisterende data er konsistente med ulike teoretiske modeller., For å gjøre vitenskapelige påstander om implisitte former for rasefordommer, ville det være nødvendig å innhente data som kan skille mellom empirisk enkelt konstruere og dual-konstruere modeller.
Konklusjon
rase IAT er 20 år gammel. Det har vært brukt i hundrevis av artikler for å gjøre empiriske påstander om fordommer. Forvirringen mellom tiltak og konstruksjoner har opprettet en offentlig diskurs om implisitt rasefordommer som kan oppstå utenfor bevisstheten. Imidlertid, denne diskursen er fjernet fra den empiriske fakta., De viktigste funn av nyere meta-analyse er at en grundig søk av litteratur avdekket bare en håndfull av alvorlige valideringsstudier og at resultatene av disse studiene er tankevekkende i beste fall. Selv om fremtidige studier vil gi mer avgjørende bevis på inkrementell logisk gyldighet, slik fortolkning ville være tilstrekkelig til å hevde at IAT er et gyldig mål på implisitt bias. IAT kan ha trinnvis logisk gyldighet, selv om det bare var et supplerende mål på bevisst tilgjengelig fordommer som ikke dele metode strid med eksplisitte tiltak., En multi-metoden tilnærming er nødvendig for å undersøke konstruere gyldigheten av IAT som et mål på implisitt rase bias. Slike bevis rett og slett ikke eksisterer. Greenwald og kolleger hadde 20 år og rikelig med midler til å gjennomføre slike valideringsstudier, men de klarte ikke å gjøre det. I motsetning til sine artikler konsekvent forvirre tiltak og konstruksjoner, og gi inntrykk av at IAT tiltak ubevisste prosesser som er skjult fra introspeksjon («bevisst opplevelse gir bare et lite vindu inn i hvordan sinnet fungerer», «klikk her for å oppdage skjulte tanker»).,
Greenwald og Banaji er vel klar over at deres krav i saken. «Forskning på implisitt sosial kognisjon har vært vitne til høyere nivåer av oppmerksomhet både fra publikum og fra statlige og kommersielle enheter, noe som gjør regelmessig rapportering av hva det er som kjent et ekstra ansvar» (Kurdi et al., 2018, s. 3). Jeg enig. Men, jeg tror ikke at deres meta-analyse oppfyller dette løftet., En objektiv vurdering av bevis som viser at ingen overbevisende dokumentasjon på at løpet IAT er et gyldig mål på implisitt rasefordommer, og uten et gyldig mål på implisitt rasefordommer det er umulig å gjøre vitenskapelige uttalelser om implisitt rasefordommer. Jeg tror publikum fortjener å vite dette. Dessverre, det er ikke behov for vitenskapelig bevis for at fordommer og diskriminering fortsatt eksisterer., Ideelt sett, psykologer vil bruke mer krefter på å utvikle gyldig tiltak for rasisme som kan gi pålitelig informasjon om variasjon på tvers av individer, geografiske områder, grupper og tid. Mange mennesker tror at psykologer allerede gjør det, men dette gjennomgang av litteraturen viser at dette ikke er tilfelle. Det er på høy tid til å faktisk gjøre hva publikum forventer fra oss.