The race IAT: A Case Study of the Validity Crisis in Psychology: – Replicability-Index

La buena ciencia requiere medidas válidas. Esta afirmación no es controvertida. No es sorprendente que todos los autores de alguna medida psicológica afirmen que su medida es válida. Sin embargo, la investigación de validación es costosa y difícil de publicar en revistas prestigiosas. Como resultado, la ciencia psicológica tiene una crisis de validez., Muchas medidas se utilizan en cientos de artículos sin definiciones claras de constructos y sin información cuantitativa sobre su validez (Schimmack, 2010).

La prueba de Asociación implícita (AT) no es una excepción. El tai se introdujo en 1998 con evidencia fuerte y altamente replicable de que las actitudes promedio hacia los pares de objetos (por ejemplo, flores vs.arañas) se pueden medir con tiempos de reacción en una tarea de clasificación (Greenwald et al., 1998)., Aunque el título del artículo prometía una medida de las diferencias individuales, la principal evidencia en el artículo eran las diferencias medias entre grupos. Por lo tanto, el artículo original proporcionó poca evidencia de que el TAI es una medida válida de las diferencias individuales.

el uso del Tai como medida de las diferencias individuales en las actitudes requiere evidencia científica de que los puntajes de las pruebas están vinculados a la variación en las actitudes., La evidencia clave para la validez de una prueba son confiabilidad, validez convergente, validez discriminante y validez predictiva incremental (Campbell & Fiske, 1959).

la validez del Tai como medida de actitudes tiene que ser examinada caso por caso porque el vínculo entre asociaciones y actitudes puede variar dependiendo del objeto de actitud. Para objetos de actitud como bebidas pop, Coca-Cola vs.Pepsi, las asociaciones pueden estar fuertemente relacionadas con las actitudes., De hecho, el IAT tiene una buena validez predictiva para elegir entre dos bebidas pop (Hofmann, Gawronski, Gschwendner, & Schmitt, 2005). Sin embargo, carece de validez convergente cuando se utiliza para medir la autoestima (Bosson & Swan, & Pennebaker, 2000).

el TAI es más conocido como una medida de prejuicio, sesgo racial o actitudes de los estadounidenses blancos hacia los afroamericanos. Por un lado, el inventor del IAT, Greenwald, argumenta que el IAT de raza tiene validez predictiva (Greenwald et al., 2009)., Otros están en desacuerdo con la evidencia:» los resultados de las pruebas de Asociación implícita no permitieron la predicción de comportamientos a nivel individual » (Blanton et al., 2009, p. 567); «el IAT proporciona poca información sobre quién discriminará contra quién, y no proporciona más información que medidas explícitas de sesgo» (Oswald et al., 2013).

nueve años después, Greenwald y sus colegas presentan un nuevo metaanálisis de validez predictiva del Tai (Kurdi et al., 2018) basado en 217 informes de investigación y un tamaño total de la muestra de N = 36.071 participantes. Los resultados de este meta-análisis se reportan en el resumen.,

encontramos correlaciones significativas de criterio implícito (ICCs) y correlaciones de criterio explícito (ECCs), con contribuciones únicas de implícito (beta = .14) y medidas explícitas (beta = .11) revelado por el modelado de ecuaciones estructurales.

el problema con los metanálisis es que agregan información con diversos métodos, medidas y variables de criterio, y el metanálisis mostró una alta variabilidad en la validez predictiva. Por lo tanto, el hallazgo del titular no proporciona información sobre la validez predictiva del IAT de raza., Como señalan los autores, «estadísticamente, el alto grado de heterogeneidad sugiere que cualquier estimación puntual de la relación implícito– criterio sería engañosa» (p. 7).

otro problema del metanálisis es que es difícil encontrar variables moderadoras confiables si los estudios originales tienen muestras pequeñas y error de muestreo grande. Como resultado, un efecto moderador no significativo no puede interpretarse como evidencia de que los resultados son homogéneos. Por lo tanto, una mejor manera de examinar la validez predictiva del tai de raza es limitar el meta-análisis a los estudios que utilizaron el TAI de raza.,

otro problema de los estudios pequeños es que introducen mucho ruido porque las estimaciones puntuales están sesgadas por el error de muestreo. Stanley, Jarrell y Doucouliagos (2010) hicieron la ingeniosa sugerencia de limitar el meta-análisis al 10% superior de los estudios con los tamaños de muestra más grandes. Como estos estudios tienen un pequeño error de muestreo para empezar, agregarlos producirá estimaciones con un error de muestreo aún más pequeño y la inclusión de muchos estudios pequeños con alta heterogeneidad no es necesaria., Un número menor de estudios también facilita la evaluación de la calidad de los estudios y el examen de las fuentes de heterogeneidad entre los estudios. Utilicé este enfoque para examinar la validez predictiva de la raza IAT utilizando los estudios incluidos en Kurdi et al.’s (2018) meta-analysis (data).

descripción de los datos

el archivo de datos contenía la variable groupStemCat2 que codificaba los grupos comparados en el IAT. Solo se seleccionaron los estudios clasificados como groupStemCat2 == «African American and Africans», dejando 1328 entradas (filas)., A continuación, seleccioné solo los estudios con una correlación IAT-criterio, dejando 1004 entradas. A continuación, seleccioné solo entradas con un tamaño mínimo de muestra de N = 100, dejando 235 entradas (más del 10%).

Las 235 entradas se basaron en 21 estudios, indicando que el metanálisis codificó, en promedio, más de 10 efectos diferentes para cada estudio.

la mediana de la correlación del criterio IAT en los 235 estudios fue r=.070. En comparación, la mediana r para los 769 estudios con N < 100 fue r=.044., Por lo tanto, la selección para estudios con N grande no redujo la estimación del tamaño del efecto.

cuando calculé por primera vez la mediana para cada estudio y luego la mediana a través de los estudios, obtuve una correlación mediana similar de r = .065. No hubo correlación significativa entre el tamaño de la muestra y la mediana de la correlación entre el criterio de la CCI en los 21 estudios, r = .12. Por lo tanto, no hay evidencia de sesgo de publicación.

ahora reviso los 21 estudios en orden decreciente de la mediana de correlación IAT-criterio. Evalúo la calidad de los estudios con 1 a 5 estrellas que van de la más baja a la más alta calidad., Como algunos estudios no estaban destinados a ser Estudios de validación, esta evaluación no refleja la calidad de un estudio per se. La evaluación se basa en la capacidad de un estudio para validar el Tai como una medida de sesgo racial.

1. * Ma et al. (Estudio 2), N = 303, r = .34

Ma et al. (2012) utilizaron varios IAT para predecir las intenciones de voto en las elecciones presidenciales de Estados Unidos de 2012. Es importante destacar que el estudio 2 no incluyó el IAT raza que se utilizó en el estudio 1 (#15, mediana r = .03). En cambio, el IAT de la carrera fue modificado para incluir imágenes de los dos candidatos Obama y Romney., Aunque es interesante que un IAT que requiere clasificaciones raciales de candidatos predijo intenciones de voto, este estudio no se puede utilizar para afirmar que el IAT raza como una medida de sesgo racial tiene validez predictiva porque el IAT mide actitudes específicas hacia los candidatos en lugar de actitudes hacia los afroamericanos en general.

2. *** Knowles et al., N = 285, r=.26

Este estudio utilizó el race IAT para predecir las intenciones de voto y el respaldo a las reformas de salud de Obama., El principal hallazgo fue que el IAT de la carrera fue un predictor significativo de las intenciones de voto (Odds Ratio = .61; r = .20 )y que esta relación siguió siendo significativa después de incluir la escala de racismo moderna como predictor (Odds Ratio=.67, Tamaño de efecto r=.15). La correlación es similar al resultado obtenido en el siguiente estudio con una muestra más grande.

3. ***** Greenwald et al. (2009), N = 1.057, r = .17

los resultados más concluyentes provienen de Greenwald et al.(2009) estudio con el mayor tamaño muestral de todos los estudios., En una muestra de N = 1.057 participantes, el IAT de la carrera predijo las intenciones de voto en las elecciones estadounidenses de 2008 (Obama vs. McCain), r = .17. Sin embargo, en un modelo que incluyó la orientación política como predictor de las intenciones de voto, solo las medidas de actitud explícitas agregaron validez predictiva incremental, b = .10, SE = .03, t = 3.98, pero el IAT no lo hizo, b=.00, SE = .02, t = 0,18.

4. * Cooper et al., N = 178, r=.12

el tamaño de la muestra en el metanálisis no coincide con el tamaño de la muestra del estudio original., Aunque participaron 269 pacientes, el IAT race se administró a 40 médicos de atención primaria. Por lo tanto, la validez predictiva solo puede ser evaluada en una pequeña muestra de N = 40 médicos que proporcionaron puntajes independientes de Tai. La Tabla 3 enumera siete variables dependientes y muestra dos resultados significativos (p = .02, p=.02) para pacientes de raza negra.

5. * Biernat et al. (Estudio 1), N = 136, r = .10

El Estudio 1 incluyó la raza IAT y las donaciones a un negro vs. otras organizaciones estudiantiles como variable de criterio. La relación negativa no fue significativa (tamaño del efecto r = .05)., El metanálisis también incluyó la variable estándar de desplazamiento (tamaño del efecto r=.14). Los estándares cambiantes se refieren a la medida en que los participantes cambiaron los estándares en sus juicios de la capacidad académica de los blancos frente a los negros. El punto principal del artículo fue que los estándares cambiantes en lugar de las medidas de actitud implícitas predicen el sesgo racial en el comportamiento real. «En tres estudios, la tendencia a cambiar los estándares no estaba correlacionada con otras medidas de prejuicio, pero predijo una asignación reducida de fondos a una organización de estudiantes negros.,»Por lo tanto, parece discutible usar estándares cambiantes como un criterio de validación para el IAT de raza porque la variable de criterio clave fueron las donaciones, mientras que los estándares cambiantes fueron una medida indirecta competidora del prejuicio.

6. ** Zhang et al. (Estudio 2), N = 196, r = .10

Este estudio examinó los listados de pensamiento después de que los participantes vieron un crimen cometido por un delincuente negro en la ley y el orden. «A través de dos programas, no se encontraron relaciones estadísticamente significativas entre la naturaleza de los pensamientos y las puntuaciones en IAT, F(2, 85) = 2.4, p < .,11 para el programa 1, y F (2, 84)=1.98, p < .53 para el programa 2.»La principal limitación de este estudio es que los listados de pensamiento no son un comportamiento social real. Como el tamaño del efecto para este estudio es cercano a la mediana, excluyéndolo no tiene un efecto notable en el resultado final.

7. * Ashburn et al., N = 300, r = .09

el título de este artículo es «la raza y la salud psicológica de los afroamericanos.»La muestra consta de 300 participantes afroamericanos., Aunque es interesante examinar las actitudes raciales de los afroamericanos, este estudio no aborda la cuestión de si el Tai racial es una medida válida de prejuicio contra los afroamericanos.

8. *** ENO et al. (Estudio 1), N = 105, r = .09

este artículo examina las respuestas a una película ambientada durante la Era de los Derechos Civiles; » Remember the Titans.»Después de ver la película, los participantes hicieron varias valoraciones sobre las interpretaciones de los eventos. Solo un evento, atribuyendo las acciones de Emma a un accidente, mostró una correlación significativa con el Tai, r = .,20, pero las atribuciones al racismo también mostraron una correlación en la misma dirección, r=.10. Para los otros eventos, las atribuciones tuvieron el mismo tamaño de efecto no significativo, intereses de las niñas r=.12, Carrera de chicas, r = .07; racismo de ladrillo, r= -.10, acciones de Brick Black coach, r= -.10.

9. *** Aberson & Haag, N = 153, r = .07

Abserson y Haag administraron la carrera IAT a 153 participantes y formularon preguntas sobre la cantidad y calidad del contacto con afroamericanos. Encontraron correlaciones no significativas con la cantidad, r= -.12 y calidad, r= -.,10, y una correlación positiva significativa con la interacción, r=.17. El efecto de interacción positiva sugiere que los individuos con bajo Contacto, lo que implica también un contacto de baja calidad, no son diferentes de los individuos con contacto frecuente de alta calidad.

10. * Hagiwara et al., N = 106, r = .07

Este estudio es otro estudio de pacientes negros y médicos no Negros. La principal limitación es que solo había 14 médicos y solo 2 eran blancos.

11. **** Bar-Anan & Nosek, N = 397, r = .,06

Este estudio utilizó el contacto como criterio de validación. La raza IAT mostró una correlación de r= -.14 con contacto grupal. , N en el rango de 492-647. El breve IAT mostró prácticamente la misma relación, r= -.13. El apéndice reporta que el contacto fue más fuertemente correlacionado con las medidas explícitas; termómetro r = .27, preferencia r = .31. Utilizando el modelado de ecuaciones estructurales, como recomiendan Greenwald y colegas, no encontré evidencia de que el Tai tenga validez predictiva única en la predicción de contacto cuando se incluyeron medidas explícitas como predictores, b=.03, SE = .,07, t = 0,37.

12. *** Aberson & Gaffney, N = 386, mediana r=.05

Este estudio relacionó la raza IAT con medidas de contacto positivo y negativo, r = .10, r= -.01, respectivamente. Las correlaciones con una medida explícita fueron considerablemente más fuertes, r=.38, r= -.35, respectivamente. Estos resultados reflejan los resultados presentados anteriormente.

13. * Orey et al., N = 386, mediana r = .04

Este estudio examinó las actitudes raciales entre los encuestados Negros., Aunque esta es una pregunta interesante, los datos no se pueden utilizar para examinar la validez predictiva de la IAT raza como una medida de prejuicio.

14. * Krieger et al., N = 708, mediana r = .04

Este estudio utilizó el IAT de raza con 442 Participantes negros y medidas de criterio de discriminación percibida y salud. Aunque este es un tema de investigación que vale la pena, los resultados no pueden usarse para evaluar la validez del tai de raza como una medida de prejuicio.

15. *** Ma et al. (Estudio 1), N = 335, mediana r=.,03

Este estudio utilizó el IAT race para predecir las intenciones de los votantes en las elecciones presidenciales de 2012. El estudio no encontró relación significativa. «Sin embargo, ninguna de las medidas a nivel de categoría estaba relacionada con la intención de votar por Obama (rs ≤ .06, ps ≥ .26)» (p. 31). El metanálisis registró una correlación de r=.045, basado en correspondencia por correo electrónico con los autores. No está claro por qué el IAT race no predice las intenciones de voto en 2012, cuando sí predijo las intenciones de voto en 2008., Una posibilidad es que ahora Obama fuera visto como un individuo en lugar de como un miembro de un grupo en particular, de modo que las actitudes generales hacia los afroamericanos ya no influyeran en las intenciones de voto. No importa cuál sea la razón, este estudio no proporciona evidencia para la validez predictiva de la raza IAT.

16. **** Oliver et al., N = 105, mediana r = .02

Este estudio se realizó en línea con 543 médicos de Medicina Familiar e interna. Completaron el IAT de carrera y dieron recomendaciones de tratamiento para un caso hipotético. La raza del paciente fue manipulada experimentalmente., El resumen afirma que «los médicos poseían prejuicios raciales explícitos e implícitos, pero esos prejuicios no predicen
recomendaciones de tratamiento» (p. 177). El tamaño de la muestra en el metanálisis es menor porque la muestra total se desglosó en subgrupos más pequeños.

17. * Nosek & Hansen, N = 207, mediana R=.01

Este estudio no incluyó un criterio de validación claro. El objetivo era examinar la relación entre la raza IAT y el conocimiento cultural sobre los estereotipos., «En siete estudios (158 muestras, N = 107.709), el tai se relacionó de manera fiable y variable con actitudes explícitas, y las actitudes explícitas explicaron la relación entre el TAI y el conocimiento cultural.»Las medidas de conocimiento cultural fueron utilizadas como variables de criterio. Una relación positiva, r = .10, se obtuvo para el artículo » si se le da la opción, que la mayoría de los empleadores optan por contratar, un Americano negro o un Americano Blanco? (1 definitivamente blanco a 7 definitivamente Negro).»Una relación negativa, r = -.,09, se obtuvo para el artículo » ¿quién es más probable que sea un blanco de la discriminación, Un Americano negro o un Americano Blanco? (1 definitivamente blanco a 7 definitivamente Negro).»

18. * Plant et al., N = 229, mediana r = .00

Este artículo examinó las intenciones de voto en una muestra de 229 estudiantes. Los resultados no se reportan en el artículo. El metanálisis reportó un R = positivo .04 y un negativo r= -.04 para dos entradas separadas con diferentes medidas explícitas, que debe ser un error de codificación., Como el comportamiento de votación ha sido examinado en muestras más grandes y más representativas (#3, #15), estos resultados pueden ser ignorados.

19. * Krieger et al. (2011), N = 503, r = .00

Este estudio reclutó a 504 afroamericanos y 501 estadounidenses blancos. Todos los participantes completaron la carrera IAT. Sin embargo, el estudio no incluyó criterios de validación claros. El metaanálisis utilizó como criterio de validación las experiencias autoinformadas de discriminación. Sin embargo, la pregunta importante es si el IAT raza predice los comportamientos de las personas que discriminan, no la experiencia de las víctimas de la discriminación.,

20. * Fiedorowicz, N = 257, r= -.01

Este estudio es una disertación y el criterio de validación fue el fundamentalismo religioso.

21. * Heider & Skowronski, N = 140, r = -.02

Este estudio separó la medición del prejuicio con la raza IAT y la medición de las variables criterio por varias semanas. El criterio era el comportamiento cooperativo en un juego de dilema de prisionero. Los resultados mostraron que » tanto el IAT (b= -.21, t = -2,51, p=.013) y la sub-puntuación Pro-Black (b = .17, t = 2.10, p=.,037) fueron predictores significativos de una mayor cooperación con la Confederación Negra. Sin embargo, estos resultados fueron falsos y han sido corregidos (ver Carlsson et al., 2018, para una discusión detallada). Heider, J. D.,& Skowronski, J. J. (2011). Addendum to Heider and Skowronski (2007): Improving the predictive validity of the Implicit Association Test., North American Journal of Psychology, 13, 17-20

discusión

En resumen, un examen detallado de los estudios race IAT incluidos en el meta-análisis muestra una considerable heterogeneidad en la calidad de los estudios y su capacidad para examinar la validez predictiva del race IAT. El mejor estudio es Greenwald et al.(2009) estudio con una gran muestra y votación en la raza Obama vs.McCain como variable de criterio. Sin embargo, otro estudio de votación no replicó estos hallazgos en 2012., El segundo mejor estudio fue el de BarAnan y Nosek con el contacto intergrupal como criterio de validación, pero no mostró validez predictiva incremental del Tai.

Los estudios con médicos no muestran evidencia clara de sesgo racial. Esto podría deberse a la profesionalidad de los médicos y los resultados no deben generalizarse a la población general. Los estudios restantes se consideraron inadecuados para examinar la validez predictiva. Por ejemplo, algunos estudios con Participantes afroamericanos no utilizaron el tai para medir los prejuicios.,

Con base en esta evidencia limitada es imposible sacar conclusiones fuertes sobre la validez predictiva de la raza IAT. Mi evaluación de la evidencia es bastante consistente con los autores del metaanálisis, quienes encontraron que «de los 2,240 ICCs incluidos en este metaanálisis, solo había 24 tamaños de efectos de 13 estudios que (a) tenían la relación entre la cognición implícita y el comportamiento como su enfoque principal» (p. 13).,

esto confirma mi observación en la introducción de que la ciencia psicológica tiene una crisis de validación porque los investigadores rara vez realizan estudios de validación. De hecho, a pesar de todas las preocupaciones sobre la replicabilidad, la falta de estudios de replicación son mucho más numerosos que los estudios de validación. Las consecuencias de la crisis de validación es que los psicólogos rutinariamente hacen afirmaciones teóricas basadas en medidas con validez desconocida. Como se muestra aquí, esto también es cierto para el IAT., En la actualidad, es imposible hacer afirmaciones basadas en pruebas sobre la validez del Tai porque se desconoce qué mide el TAI y qué tan bien mide lo que mide.

confusión teórica sobre las medidas implícitas

la falta de comprensión teórica del Tai es evidente en el artículo reciente de Greenwald y Banaji (2017), donde sugieren que «la cognición implícita influye en la cognición explícita que, a su vez, impulsa el comportamiento» (Kurdi et al., p. 13)., Este modelo implicaría que las medidas implícitas como el tai no tienen un vínculo directo con el comportamiento porque los procesos conscientes en última instancia determinan las acciones. Este modelo especulativo se ilustra con los datos de Bar-Anan y Nosek (#11) que no mostraron validez predictiva incremental al contacto. El modelo se puede transformar en una cadena causal cambiando el camino bidirecional en una relación causal asumida entre actitudes implícitas y explícitas.,

Sin embargo, también es posible cambiar el modelo a un modelo de factor único, que considera la varianza única en medidas implícitas y explícitas como mera varianza de método.

por lo tanto, cualquier afirmación sobre el sesgo implícito y el sesgo explícito es prematura porque los datos existentes son consistentes con varios modelos teóricos., Para hacer afirmaciones científicas sobre las formas implícitas de sesgo racial, sería necesario obtener datos que puedan distinguir empíricamente entre modelos de construcción única y de construcción dual.

conclusión

la carrera IAT tiene 20 años. Se ha utilizado en cientos de artículos para hacer afirmaciones empíricas sobre el prejuicio. La confusión entre medidas y construcciones ha creado un discurso público sobre el sesgo racial implícito que puede ocurrir fuera de la conciencia. Sin embargo, este discurso se aleja de los hechos empíricos., El hallazgo más importante del reciente metaanálisis es que una búsqueda cuidadosa de la literatura descubrió solo un puñado de estudios de validación serios y que los resultados de estos estudios son sugerentes en el mejor de los casos. Incluso si estudios futuros proporcionaran pruebas más concluyentes de validez predictiva incremental, este hallazgo sería insuficiente para afirmar que el TAI es una medida válida de sesgo implícito. El Tai podría tener validez predictiva incremental incluso si fuera solo una medida complementaria de prejuicio conscientemente accesible que no comparte la varianza del método con medidas explícitas., Se necesita un enfoque multi-método para examinar la validez de constructo del Tai como una medida de sesgo racial implícito. Tal evidencia simplemente no existe. Greenwald y sus colegas tenían 20 años y una amplia financiación para llevar a cabo tales estudios de validación, pero no lo hicieron. En contraste, sus artículos constantemente confunden medidas y construcciones y dan la impresión de que el IAT mide procesos inconscientes que están ocultos de la introspección («la experiencia consciente proporciona solo una pequeña ventana en cómo funciona la mente», «haga clic aquí para descubrir sus pensamientos ocultos»).,

Greenwald y Banaji son muy conscientes de que sus reclamaciones importan. «La investigación sobre la cognición social implícita ha sido testigo de niveles más altos de atención tanto por parte del público en general como de entidades gubernamentales y comerciales, haciendo que la información regular de lo que se conoce sea una responsabilidad adicional» (Kurdi et al., 2018, p. 3). Estoy de acuerdo. Sin embargo, no creo que su meta-análisis cumpla esta promesa., Una evaluación imparcial de la evidencia no muestra evidencia convincente de que el Tai racial sea una medida válida de sesgo racial implícito; y sin una medida válida de sesgo racial implícito es imposible hacer declaraciones científicas sobre el sesgo racial implícito. Creo que el público en general merece saber esto. Lamentablemente, no hay necesidad de pruebas científicas de que sigan existiendo prejuicios y discriminación., Idealmente, los psicólogos invertirán más esfuerzo en desarrollar medidas válidas de racismo que puedan proporcionar información confiable sobre la variación entre individuos, regiones geográficas, grupos y tiempo. Muchas personas creen que los psicólogos ya lo están haciendo, pero esta revisión de la literatura muestra que este no es el caso. Ya es hora de hacer realmente lo que el público en general espera de nosotros.