1. Introducción
Desde una perspectiva ingenua, la ciencia implica un conjunto de prácticas que marchan infaliblemente hacia la verdad. Los científicos utilizan los mejores métodos disponibles para reunir pruebas. Razonan desapasionadamente sobre esta evidencia y cambian sus creencias y teorías en consecuencia. Comparten sus datos de forma libre y amplia y escuchan atenta y justamente los hallazgos de otros científicos. Cuando descubren que sus métodos o teorías son defectuosos, los abandonan por otros mejores. Por supuesto, la realidad es más confusa e imperfecta. Los científicos son humanos y, como todas las empresas humanas, la ciencia tiene éxitos y fracasos, buenas y malas prácticas. Las debilidades de la psicología humana impactan a la ciencia en cada etapa del proceso, desde la búsqueda de subvenciones hasta la elección de hipótesis, la recopilación de evidencia, la generación de teorías, la argumentación y la publicación.
Esta confusa realidad significa dos cosas.
En primer lugar, para comprender el funcionamiento de la ciencia, los investigadores deben estudiarla como una empresa humana.
En segundo lugar, este estudio tiene el potencial de mejorar la práctica científica. Si bien la ciencia es imperfecta, a menudo también es autorreflexiva y autocorrectora.
Al estudiar la ciencia, es posible hacer descubrimientos sobre qué características del proceso científico son las más exitosas (o las más problemáticas) y realizar los cambios correspondientes. Desde mediados del siglo XX, los teóricos se han dedicado a este tipo de estudio bajo los títulos de “filosofía de la ciencia”, “sociología de la ciencia”, “ciencia de la ciencia” y, más recientemente, “metaciencia”. Investigadores de las ciencias sociales, la filosofía e incluso disciplinas STEM como la ingeniería, la biología y la informática han investigado sus propias prácticas y las prácticas de sus colegas para ver cómo funciona la ciencia y cómo podría funcionar mejor. El objetivo de este Elemento no será resumir esta amplia literatura, sino centrarse en una parte de ella: la investigación que utiliza modelos para comprender a las comunidades científicas. En las últimas décadas, el uso de modelos para estudiar el comportamiento humano se ha vuelto cada vez más popular. Especialmente a medida que los investigadores obtienen acceso a cada vez más poder computacional, ha quedado claro que las representaciones matemáticas y computacionales de grupos humanos tienen la capacidad de dilucidar una amplia gama de fenómenos. En particular, los modelos son útiles para razonar sobre grupos y procesos que son complicados y están distribuidos en el tiempo y el espacio, es decir, aquellos que son difíciles de estudiar utilizando métodos empíricos únicamente.
La ciencia se ajusta a esta imagen. El cambio de teoría científica, por ejemplo, suele ocurrir en períodos de tiempo significativos e implica miles de interacciones entre cientos de investigadores que realizan cientos de experimentos. Por esta razón, no sorprende que los investigadores hayan recurrido a modelos para estudiar diversas características. Por esta razón, no sorprende que los investigadores hayan recurrido a modelos para estudiar diversas características de la ciencia. Como veremos, estos modelos pueden desempeñar muchas funciones en el estudio de las comunidades científicas.
Este elemento es una breve descripción general. Para la mayoría de los modelos descritos, no entraré en muchos detalles matemáticos, sino que me centraré en descripciones generales y conclusiones. En particular, este Elemento no brindará un estudio en profundidad de otros trabajos teóricos y empíricos sobre la ciencia, excepto en la medida en que este trabajo sea relevante para los modelos de ciencia discutidos. Tampoco examinará la gran literatura que utiliza modelos para estudiar la epistemología social (la difusión y el desarrollo de ideas, creencias, opiniones y conocimientos en grupos humanos) de manera más general. Esta literatura, que abarca las ciencias sociales y la filosofía, ha aportado muchas ideas importantes sobre la producción de conocimiento humano. Aquí sólo se cubrirán aquellas ideas especialmente pertinentes para pensar en las comunidades científicas.
Las diferentes secciones de este Elemento se organizarán principalmente en torno a diferentes enfoques de modelización. La sección 2, La economía del crédito, analiza modelos en los que los científicos buscan crédito académico. Estos modelos se derivan de enfoques de teoría de juegos y decisiones que tratan a los humanos como maximizadores de utilidad para explicar y predecir el comportamiento humano. Como veremos, este trabajo sobre los incentivos materiales que enfrentan los científicos arroja ideas sobre temas que van desde la división del trabajo científico hasta el intercambio de investigaciones académicas y el fraude. La Sección 3, La selección natural de la ciencia, analiza modelos con un supuesto ligeramente diferente: varias personas y prácticas en las comunidades científicas experimentan variaciones de procesos selectivos similares a los observados en las poblaciones biológicas. Al centrarse en procesos selectivos, estos modelos aclaran fenómenos emergentes que van más allá de las opciones de búsqueda de crédito de los científicos individuales. Estos incluyen la persistencia de métodos de investigación deficientes, los efectos de la interdisciplinariedad en el progreso y la influencia de la industria en la ciencia a través de financiación estratégica. En la Sección 4, Redes sociales y conocimiento científico, vemos modelos que se centran en las conexiones sociales entre científicos y consideran cómo estas conexiones sociales impactan cosas como el cambio de teorías y la difusión de creencias. Como quedará claro, la forma en que fluye la información en las comunidades científicas impacta profundamente el progreso de la ciencia. La sección 5, Paisajes epistémicos, se centra en la elección de problemas en la ciencia y en cómo las estrategias para la elección de problemas pueden beneficiar o ralentizar el descubrimiento. En particular, esta sección considera “modelos de paisaje” que representan un espacio de problemas por el que los científicos pueden moverse y explorar. Estos modelos arrojan luz, en particular, sobre el papel de la diversidad cognitiva en las comunidades científicas.
La sección 6, La crisis de replicación y la reforma metodológica, considera un conjunto de modelos con similitudes formales que también están unificados temáticamente. Esto se debe a que los modelos en cuestión se desarrollaron junto con el movimiento de metaciencia en respuesta a la crisis de replicación. En su mayor parte, estos modelos consideran diversas prácticas estadísticas y cómo impactan la recopilación de datos y la inferencia en las comunidades científicas. Las preguntas centrales incluyen: ¿Por qué no se han podido replicar tantos hallazgos? ¿Cuáles son los principales incentivos y prácticas que conducen a este fracaso? ¿Qué respuestas e intervenciones pueden mejorar la práctica científica en el futuro? La conclusión del Elemento resume y sintetiza las recomendaciones de políticas de los modelos de todo el Elemento.
Antes de comenzar, quiero dedicar un poco más de espacio a una (breve) discusión sobre la epistemología de los modelos. ¿Qué nos pueden decir modelos como los presentados aquí sobre la ciencia? ¿Y cómo deberíamos tomarlos para informar nuestra comprensión del mismo? La ciencia es complicada y multifacética. La ciencia es diversa y variada. Cualquier intento de generar teorías generales sobre el funcionamiento de la “ciencia” necesariamente fracasará. Los modelos presentados en este Elemento están en consonancia con un enfoque que funciona por partes para mejorar la comprensión de ciertas características, procesos y partes de la empresa científica. Como tal, ninguno de los resultados del modelado aquí debe tomarse como la conclusión definitiva sobre algún tema. Más bien son sólo un conjunto de investigaciones que contribuyen a nuestra comprensión de esta empresa humana compleja y de larga data. Aun así, debemos tener cuidado con lo que nos llevamos. Siempre que se utilizan modelos simplificados para estudiar realidades sociales complejas, hay margen de error.
A veces los modelos no tienen en cuenta factores importantes del mundo real y, por lo tanto, respaldan conclusiones erróneas. A veces los modelos se abstraen tanto de sus sistemas objetivo que es difícil evaluar su valor. Dicho esto, como veremos en este Elemento, los modelos pueden, no obstante, desempeñar una variedad de papeles importantes en el estudio de la ciencia. Pueden sugerir nuevas hipótesis para estudios futuros, cuestionar afirmaciones de imposibilidad, sugerir intervenciones que podrían no haber sido obvias, identificar formas en que las intervenciones propuestas podrían salir mal, etc. Además, pueden actuar como ayuda para el razonamiento o la teorización ordinaria. Que un modelo en particular sea apropiado para algún rol epistémico dependerá de los detalles de ese modelo y de las formas en que se utilice. Muchos de los modelos presentados aquí pueden desempeñar papeles exitosos en algunos tipos de argumentación e inferencia, incluso si no son apropiados para otros. Si bien no podré evaluar la calidad y aplicabilidad de cada modelo analizado, a menudo describiré las formas en que creo que se utilizan con éxito en la argumentación sobre la ciencia.
A modo de ejemplo, muchos de los modelos analizados se centran en la evaluación de diversas propuestas de políticas. Son herramientas útiles para hacerlo porque puede resultar costoso y/o difícil implementar nuevas políticas sociales. Los modelos son una forma relativamente barata y fácil de empezar a explorar cómo algunas políticas nuevas podrían afectar la práctica.Pero es arriesgado pasar directamente de los resultados de los modelos a las propuestas de políticas por las razones que acabamos de mencionar. En cambio, algunos de los modelos presentados generan hipótesis nuevas (a veces inesperadas) sobre qué tipos de resultados pueden seguir a las intervenciones políticas. Cuando lo hacen, a menudo vale la pena probar empíricamente estas hipótesis. De esta manera, un modelo simple no nos dice directamente qué sucederá en una realidad compleja, pero abre posibilidades de estudio. Si bien el modelo en cuestión no sería una herramienta adecuada para dar forma directa a las políticas, sí lo es para estimular una mayor exploración.
Este ejemplo incluye una lección generalizable. Los modelos descritos en este Elemento a veces arrojan conclusiones que son sencillas. Más a menudo, la mejor manera de emplearlos para comprender y mejorar la ciencia es combinándolos con métodos empíricos y otros tipos de teorización. Los estudios empíricos de la ciencia nos ayudan a construir buenos modelos. Los modelos ayudan a dar forma a la teoría. La teoría dirige la investigación empírica, que a veces impulsa más modelos. A través de este tipo de ida y vuelta, los modelos y las herramientas empíricas pueden trabajar mano a mano para mejorar nuestra comprensión de los complejos procesos que tienen lugar en las comunidades científicas y ayudarnos a dar forma al futuro de la ciencia.
2 La economía crediticia
Zihan trabaja en astrofísica y había estado planeando investigar un patrón determinado y apasionante en la formación de nebulosas. Sin embargo, cuando escucha que otro equipo muy destacado está trabajando en el mismo problema, le preocupa que ellos publiquen primero y obtengan crédito por el descubrimiento. Decide cambiar su grupo hacia otro proyecto más modesto.
Jerome estudia las emociones en los bebés. Después de preparar su último manuscrito, pasa mucho tiempo decidiendo a qué revista enviarlo. Los más destacados realmente mejorarían su reputación, pero llevaría mucho tiempo revisarlos. Las posibilidades de que su trabajo sea aceptado son bajas y podría perder el tiempo presentándolo. Al final, intenta conseguir una revista de nivel inferior, ya que la revisión de su mandato se realizará el año siguiente.
En la escuela de posgrado, los mentores de Firuzeh eran muy críticos con su trabajo a menos que fuera absolutamente estelar. Lo que ella no sabía era que estas reacciones críticas estaban determinadas, al menos en parte, por el hecho de que ella era una mujer musulmana. Con el tiempo, desarrolló la expectativa de que el trabajo académico terminado debía ser de muy alta calidad si quería que fuera aceptado para su publicación y, como resultado, comenzó a tomarse mucho tiempo para perfeccionar su trabajo antes de enviarlo.
Alice y Andy son dos co-investigadores investigadores que trabajan en la secuenciación de genes humanos en competencia con otros laboratorios. Desarrollan una nueva técnica que les permitirá obtener secuencias genéticas mucho más rápidamente. Si comparten esta técnica, se les acreditará haberla descubierto, pero otros laboratorios podrán utilizarla. Si esperan, corren el riesgo de que otro equipo desarrolle la misma técnica y reciba crédito por ella. Pero mientras tanto, sus investigaciones avanzarán más rápidamente que las de sus competidores. Al final, deciden esperar para compartir su nueva técnica hasta que estén más avanzados en el proyecto.
Todos los ejemplos antes mencionados involucran a científicos que toman decisiones por razones estratégicas. Las ramas de las matemáticas que normalmente se utilizan para modelar este tipo de toma de decisiones son la teoría de juegos y de decisiones. En tales modelos, los agentes suelen ser tratados como maximizadores de utilidad. Estos modelos suponen que las acciones de los agentes producen diferentes beneficios dependiendo de los comportamientos de los socios interactivos o de la estructura del mundo. Al suponer que los agentes preferirán cualquier acción que maximice sus beneficios esperados, los modelos ayudan a explicar y predecir el comportamiento estratégico en los humanos.
Los modelos científicos de economía crediticia aplican modelos de teoría de juegos y de decisiones a la ciencia, pero con un giro. En lugar de maximizar la rentabilidad en general, estos modelos suponen que los científicos intentan maximizar el “crédito”. Si bien el crédito en este sentido no es un concepto perfectamente definido, rastrea aproximadamente la reputación y el estatus en la ciencia, y los beneficios asociados: trabajos elegantes, buenos salarios, invitaciones a charlas prestigiosas, etc.
En cada uno de los ejemplos antes mencionados, los científicos en cuestión tomaron decisiones no porque quisieran aumentar su producción de conocimiento útil sino porque querían carreras exitosas. El sociólogo científico Robert K. Merton fue uno de los primeros en describir claramente los motivos crediticios de los científicos (Merton, 1973). En su trabajo y en los posteriores se ha establecido claramente que muchas de las decisiones que los científicos toman día a día están realmente impulsadas por motivos crediticios. Estos motivos, a su vez, están moldeados por las estructuras de crédito de la ciencia: normas como la “regla de prioridad”, que otorga crédito sólo al primer científico en hacer un descubrimiento, prácticas de revistas, como el sesgo de publicación (publicar solo resultados positivos), conceder dar reglas, etc.En esta sección del Elemento, consideramos modelos que comienzan con el supuesto de que los científicos están motivados por el crédito y vemos cómo estos motivos podrían moldear los resultados en la ciencia. Existe un número importante de discusiones que describen y defienden este enfoque general. No abordaremos estos argumentos en detalle, pero los lectores interesados deberían consultar Dasgupta y Maskin (1987), Gold man y Shaked (1991), Dasgupta y David (1994), Stephan (1996), Polanyi et al. (2000), Leonard (2002), Hull (1988), Strevens (2011) y Zollman (2018).
2.1 La división del trabajo científico
Uno podría pensar instintivamente que los motivos crediticios son algo malo en la ciencia. ¿No deberíamos esperar que motivos codiciosos o impuros impulsen a los científicos a adoptar malas prácticas? ¿Y los científicos con motivaciones “más puras”, relacionadas con encontrar la verdad, no harán un mejor trabajo? En realidad, estas preguntas se remontan a Du Bois (1898) y constituyen la base de gran parte de la literatura descrita en esta sección del Elemento. En un modelo temprano de economía crediticia, Kitcher (1990) sostiene que los incentivos crediticios pueden en realidad ayudar al progreso científico al mejorar la división del trabajo.
Por lo general, es deseable que los miembros de una comunidad científica trabajen en una variedad de temas o enfoques diferentes. Al hacerlo, se aseguran de que no se pierdan descubrimientos importantes. Una comunidad que es demasiado uniforme con respecto a la elección de problemas o adopción de teorías corre el riesgo de conformarse con teorías que no son óptimas o que no logran avances potenciales. A esto a veces se le llama “división del trabajo científico”. Pero supongamos que todos los científicos están motivados puramente por el deseo de descubrir cosas verdaderas. Y supongamos además que tienen acceso al mismo tipo de información y evidencia. De ser así, es posible que se pongan de acuerdo sobre qué temas de exploración son más prometedores y no logren dividir el trabajo de manera efectiva.
En el modelo de Kitcher, los científicos eligen entre proyectos, cada uno con alguna cualidad intrínseca o tendencia a tener éxito. Kitcher supone que los científicos comparten una evaluación objetiva de qué proyectos son más prometedores. Por lo tanto, si eligen un proyecto basado únicamente en el mérito epistémico, no logran dividir el trabajo. Sin embargo, cuando los científicos están motivados por el crédito, se sienten atraídos por proyectos en los que actualmente están trabajando menos pares. Esto se debe a que es más probable que sean ellos quienes hagan descubrimientos importantes en tales proyectos y, por lo tanto, reciban crédito (como Zihan, que decidió no trabajar en la formación de nebulosas). Como sostiene Kitcher,
“los mismos factores que frecuentemente se piensa que interfieren con la búsqueda racional de la ciencia –la sed de fama y fortuna, por ejemplo– podrían en realidad desempeñar un papel constructivo en nuestro proyecto epistémico comunitario”
Strevens (2003) utiliza un modelo similar para defender los beneficios de una regla específica de asignación de créditos en ciencia: la regla de prioridad. Como se señaló, esta regla especifica que sólo el primer científico que hace un descubrimiento recibe crédito, incluso si otro científico desconoce el hallazgo anterior e incluso si los descubrimientos son casi simultáneos (Merton, 1957; Strevens, 2003). En el modelo de Strevens, los investigadores nuevamente eligen entre proyectos y reciben incentivos crediticios, ya sea de acuerdo con
(1) la regla de prioridad o alguna alternativa, incluidas reglas que
(2) otorgan crédito en función de las contribuciones marginales a la investigación y
(3) otorgan crédito a todos científicos que hacen un descubrimiento.
Muestra que todos estos esquemas de incentivos pueden impulsar la división del trabajo pero que, al hacerlo, la regla de prioridad otorga un incentivo adicional a los proyectos más prometedores. Strevens utiliza este resultado para ayudar a explicar por qué la ciencia ha adoptado la regla de prioridad. En ciencia, basta con hacer un descubrimiento una vez para que sus beneficios repercutan en la sociedad. En tal esquema, la división del trabajo resultante de la regla de prioridad es particularmente eficiente en su modelo.
Algunos han puesto en duda la utilidad de estos modelos. Zollman (2018) señala que si los científicos están motivados por un puro deseo de que se descubra la verdad, ya están incentivados a dividir el trabajo de la manera ideal para facilitar este descubrimiento. Después de todo, la división del trabajo es la mejor manera de garantizar este descubrimiento. El crédito sólo ayudará si sólo están motivados por el deseo de descubrir la verdad por sí mismos y no quieren que otro investigador haga el descubrimiento. (Pero, uno podría preguntarse, ¿por qué a un científico verdaderamente motivado por la verdad le importaría quién hace un descubrimiento?) Bedessem (2019) sostiene que estos y otros modelos que representan la división del trabajo en la ciencia no logran rastrear la complejidad y variabilidad de los problemas/teorías científicas. . Reijula y Kuorikoski (2019) critican el modelo de Strevens al señalar que no proporciona un mecanismo sobre cómo podrían surgir incentivos crediticios para dividir efectivamente el trabajo científico.
Goldman (1999) y Viola (2015) señalan que puede haber mejores formas de coordinar la división del trabajo que tengan en cuenta los organismos de financiación centralizados (un tema al que volveremos en las secciones 4 y 5). Muldoon y Weisberg (2011) critican los supuestos de que (1) los científicos saben cómo otros científicos distribuyen su trabajo y (2) pueden calcular la probabilidad de éxito de diferentes proyectos (calculando así cómo deberían distribuir mejor su propio trabajo). Desarrollan una versión del modelo basada en agentes y descubren que cuando los agentes sólo conocen las opciones de investigación de unos pocos miembros de la comunidad, los incentivos crediticios no funcionan para dividir el trabajo. Esto se debe a que los agentes no tienen la información adecuada para incentivarlos a elegir la alternativa menos prometedora. Y De Langhe (2014) señala que estos modelos se centran en dividir el trabajo entre opciones existentes, en lugar de explorar nuevas posibilidades en la ciencia. Desarrolla un modelo de crédito donde los agentes pueden explorar nuevas teorías o probar las existentes. Sostiene que la regla de prioridad incentiva la exploración, mientras que el hecho de que los científicos tiendan a acreditarse a sí mismos aquellos que trabajan en temas similares incentiva el estudio de las teorías existentes. Esto aborda un tipo diferente de división del trabajo en la ciencia: entre explotar lo conocido y explorar lo desconocido. Volveremos a esta cuestión con más detalle cuando analicemos los modelos de paisaje epistémico en la Sección 5.Al final, ¿respaldan los modelos la afirmación de que los incentivos crediticios mejoran la división científica del trabajo? La evidencia es mixta. Otra observación es que los científicos en general son complejos y diferentes. Por lo general, no evalúan la calidad potencial de las teorías o temas de investigación de manera similar. Tienen una formación diferente y diferentes intereses que moldean sus decisiones de investigación. La división del trabajo en la ciencia suele estar impulsada tanto por este tipo de factores como por motivos crediticios. Al evaluar si los incentivos crediticios en ciencia son beneficiosos y cómo deberíamos darles forma, hay otras cuestiones, posiblemente más apremiantes, que la división del trabajo, a la que nos referiremos ahora.
2.2 Replicación
Romero (2017) señala que Strevens (2003) y otros que defienden los beneficios de las motivaciones crediticias para la división del trabajo no consideran la importancia de la replicación. Una característica distintiva del conocimiento científico es que es replicable: volver a realizar una prueba científica debería generar el mismo resultado. Pero la “crisis de replicación” ha creado una agitación masiva a medida que investigadores de diversas disciplinas han descubierto que muchos hallazgos centrales no logran replicarse (Begley y Ellis, 2012; Open Science et al., 2015; Baker, 2016). (Volveremos a este tema en detalle en la Sección 6.) Como resultado, muchos han abogado por que los investigadores dediquen más tiempo a replicar los resultados existentes. La regla de prioridad, sin embargo, desincentiva fuertemente las replicaciones, al asignar crédito sólo a los nuevos descubrimientos. En otras palabras, cuando analizamos otro tipo de división del trabajo científico –entre buscar nuevos hallazgos y verificar los antiguos– la regla de prioridad causa problemas. En apoyo de esta afirmación, Higginson y Munafò (2016) desarrollan un modelo que muestra cómo la regla de prioridad tenderá a desincentivar la replicación de resultados existentes en favor de la novedad, solo por las razones descritas.
En respuesta a este tipo de cuestiones, varios autores sostienen que las comunidades científicas deberían configurar los incentivos crediticios para promover directamente la replicación. Begley y Ellis (2012) sostienen que siempre se deben exigir replicaciones junto con nuevos hallazgos para poder publicarlos. Romero (2018, 2020) aboga por la creación de grupos de científicos cuyas carreras se dediquen íntegramente a reproducir trabajos existentes. Para estos científicos, todo el crédito se deriva del intento de replicar otros experimentos. En estas propuestas, se rediseñan los incentivos crediticios para evitar problemas con la prioridad.
2.3 Fraude y atajos
Otra preocupación sobre las motivaciones crediticias es que llevan a los científicos a cometer fraude o a tomar atajos y a involucrarse en prácticas de investigación descuidadas o imprecisas (Merton, 1973; Casadevall y Fang, 2012). Es más probable que los científicos que buscan “fama y fortuna” fabriquen datos que respalden un resultado impactante. Del mismo modo, es más probable que los científicos que pretenden publicar muchas investigaciones rápidamente para ganar crédito o ganar carreras prioritarias hagan un trabajo descuidado. Los estudios sugieren que los tipos graves de fraude son relativamente raros pero no insignificantes en la ciencia.
La mayoría de las estimaciones sitúan el porcentaje de investigadores que han cometido fraude entre el 1 y el 3 por ciento (Fanelli, 2009; Bauchner et al., 2018; Xie et al., 2021), aunque algunas estimaciones son significativamente más altas (Gopalakrishna et al., 2022). especialmente aquellos derivados de informes que estiman fraude entre colegas y no entre uno mismo (Fanelli, 2009). Además, las estimaciones de la prevalencia de prácticas de investigación cuestionables (QRP) menos graves son mucho más altas (Fanelli, 2009; Xie et al., 2021; Gopalakrishna et al., 2022).
Zollman (2023) presenta un modelo que muestra cuán pernicioso podría ser este problema. Los científicos eligen entre el fraude y la investigación honesta y, al hacerlo, intentan maximizar el crédito esperado. Su análisis muestra que el fraude puede resultar rentable incluso cuando los científicos son castigados si son descubiertos. Los estafadores afortunados (aquellos que no son atrapados durante un período de tiempo significativo) obtienen mayores beneficios crediticios que cualquier otra persona. Heesen (2021) muestra además cómo el fraude desde el principio puede encaminar la carrera de un científico por un camino más exitoso. Debido a la forma en que las ventajas crediticias tienden a acumularse en la ciencia (ver Sección 2.6), el fraude puede resultar rentable incluso en casos en los que el castigo lo desincentiva fuertemente. Ambos autores sugieren que estos análisis pueden ayudar a explicar la presencia de fraude en las comunidades de investigación.
A falta de fraude, tanto Higginson y Munafò (2016) como Heesen (2018) presentan modelos que muestran por qué los motivos crediticios podrían conducir a la publicación de trabajos rápidos y descuidados, exacerbando así los problemas de replicabilidad. Partiendo del simple (realista) supuesto de que la velocidad de la investigación está compensada por la calidad, los actores motivados por el crédito tienden a elegir la velocidad para aumentar su número de publicaciones. Estas elecciones, a su vez, perjudican la calidad de la investigación publicada.A la luz de estos problemas, Bright (2017b) ofrece una sorprendente defensa de los motivos crediticios al desarrollar un modelo para mostrar cómo motivos puramente epistémicos también pueden incentivar el fraude. Los agentes en su modelo prueban preguntas en el mundo y obtienen conjuntos de datos aleatorios, pero conducentes a la verdad, que luego pueden publicar. Como muestra, los agentes motivados epistémicamente se ven incentivados a tergiversar sus datos en los casos en que creen que los datos son engañosos. Se sienten tentados a cometer fraude por el bien de la verdad, del mismo modo que quienes buscan crédito se sienten tentados a hacerlo por su propio bien. Sin embargo, Huebner y Bright (2020) y Bright (2021) consideran los diversos impactos de los motivos crediticios en el fraude y, en última instancia, concluyen que los motivos crediticios efectivamente han impulsado la adopción y difusión del fraude (y otras prácticas de investigación deficientes). Dados los claros daños de las malas prácticas de investigación, esto genera preocupaciones sobre los incentivos crediticios.Bruner (2013) presenta un modelo de teoría de juegos que investiga los tipos de incentivos que podrían promover la “vigilancia entre pares” del fraude en la ciencia. Les da a sus científicos la opción de informar honestamente la importancia de su trabajo, hacer trampa informando de mayor importancia, o vigilar informando honestamente y también pagando un costo para detectar trampas por parte de otros. Como muestra, ofrecer incentivos crediticios a los científicos para que dediquen tiempo a detectar fraudes puede aumentar la proporción de científicos honestos en la comunidad. De esta manera, un nuevo tipo de incentivo crediticio podría aliviar los problemas de los incentivos crediticios clásicos.
2.4. Comunismo
Si bien la regla de prioridad puede generar fraude y trabajo descuidado, desempeña otro papel muy importante y positivo que muchos han destacado: promover el intercambio rápido y libre de hallazgos científicos (Dasgupta y David, 1994). Merton (1942) describe esto como la “norma comunista”. Lo que se produce también se comparte. La regla de prioridad garantiza que los científicos estén fuertemente incentivados a compartir los resultados de sus investigaciones lo antes posible. Sin este incentivo, los científicos podrían preferir quedarse con los beneficios prácticos de su investigación o venderlos al mejor postor. Dado que la ciencia progresa gracias al trabajo compartido de miles de investigadores y que sólo compartiendo la crítica de la investigación y el desarrollo de la teoría puede ocurrir, la norma comunista es absolutamente crucial para el funcionamiento de la ciencia moderna.Pero tanto Dasgupta y David (1994) como, más ampliamente, Strevens (2017) utilizan modelos para argumentar que este incentivo de compartir no siempre funcionará. Paradójicamente, la regla de prioridad también debería incentivar a los investigadores a ocultar descubrimientos provisionales que puedan contribuir a hallazgos más amplios.
Hasta el momento en que un descubrimiento se vuelve publicable, la regla de prioridad en realidad desincentiva su intercambio. Esto es especialmente cierto durante las carreras prioritarias en las que varios equipos trabajan en el mismo problema (como ocurre con la secuenciación genética de Alice y Andy en la introducción de esta sección). Strevens recurre a casos para iluminar este punto, como la carrera para construir el láser TEA, como lo describe Collins (1974). En ese caso, “la rivalidad entre laboratorios competidores desalienta la comunicación que podría haber acelerado que todos alcanzaran su objetivo conjunto” (Strevens, 2017, 3). Por esta razón, el intercambio intermedio puede entenderse como algo así como el dilema del prisionero, en el que cada individuo quiere escuchar los hallazgos de los demás pero no quiere compartir los suyos. Según este modelo, Strevens caracteriza la norma comunista como un contrato social: los científicos se adhieren para crear un sistema en el que todos se beneficien, aunque cada científico preferiría desertar y no compartir. Dasgupta y David (1994), por otro lado, sostienen que debido a los beneficios de la reciprocidad en el dilema del prisionero, los científicos formarán grupos mutuamente beneficiosos para compartir información incluso sin algún contrato social explícito. En este panorama, el intercambio surgirá de forma natural, aunque seguirá existiendo la tentación constante de hacer trampa, por ejemplo, ocultando conocimientos técnicos detallados y relevantes para producir nuevos resultados o estando más dispuesto a compartir los secretos comerciales de otros laboratorios además del propio. Tanto Heesen (2017b) (a partir de un modelo anterior de Boyer [2014]) como Banerjee et al. (2014) complican esta caracterización. Heesen a los modelos de tipo selección de la Sección 3, pero, en el fondo, los resultados están impulsados por hechos sobre incentivos crediticios, por lo que se incluyen aquí.Implica múltiples etapas de investigación publicable, donde los científicos pueden obtener crédito al compartir en cada etapa. Si retienen información, corren el riesgo de perder crédito por esa etapa ante otro equipo, aunque también aumentan sus propias posibilidades de terminar primero la siguiente etapa.
Heesen muestra que el equilibrio esperado de este juego es para que lo compartan todos los científicos, a menos que las etapas intermedias no reciban suficiente crédito. Banerjee et al. (2014) tienen un modelo en el que los equipos trabajan en varias soluciones de varias etapas a un problema y muestran que recompensar el crédito proporcional a las subtareas que realizan incentiva el intercambio intermedio. Según este panorama, la solución a los problemas del comunismo no es crear un contrato social, ni depender de la reciprocidad, sino garantizar que se ofrezca crédito adecuado para todos los avances intermedios de investigación que beneficien a la comunidad a conocer. Tenga en cuenta que esto puede no resolver el problema planteado por Dasgupta y David (1994), según el cual los científicos pueden ocultar no los resultados reales, sino conocimientos útiles sobre cómo producir resultados adicionales. Esta cuestión podría sugerir la implementación de incentivos más fuertes para compartir técnicas y métodos de investigación novedosos. Boyer-Kassem e Imbert (2015) también utilizan un modelo de tipo etapas de investigación para abordar otro fenómeno: la proliferación de la colaboración académica.
Esto se ha explicado apelando a la sinergia epistémica: dos cabezas piensan mejor que una (Thagard, 2006). En su modelo, sólo la etapa final de la investigación recibe crédito. Encuentran que incluso sin efectos sinérgicos, los equipos colaborativos tienden a pasar por etapas más rápidamente, ya que las posibilidades de que algún miembro del equipo complete una etapa son mayores que las de un individuo. Esto ahorra tiempo y también aumenta sus posibilidades de recibir crédito. Así, en casos de carreras prioritarias, la colaboración puede aumentar el comunismo local intermedio al alinear los intereses crediticios de un grupo de investigadores. La colaboración promueve el compartir dentro del grupo, incluso cuando puede haber incentivos crediticios para no compartir entre grupos.
Hemos estado asumiendo aquí que el comunismo es un bien absoluto en la ciencia, aunque hay algunos modelos que indican que esto podría no ser así. Como veremos en la Sección 4, a veces compartir demasiada información en una comunidad puede disminuir la diversidad de exploración de manera perjudicial. Al publicar un resultado intermedio, un equipo podría impedir que otros grupos exploren caminos alternativos hacia una solución que, en última instancia, podría ser más exitosa. Además, Bergstrom et al. (2016) desarrollan un modelo con posibilidades de intercambio intermedio, pero donde los científicos pueden optar por no participar en un problema. (De esta manera, abordan tanto el comunismo como la división del trabajo en el mismo marco). Argumentan que el comunismo puede afectar la división del trabajo, ya que el intercambio intermedio puede incitar a otros científicos a abandonar un área de investigación, lo que podría ralentizar el progreso hacia nuevos descubrimientos. Por lo tanto, el hecho de que el intercambio intermedio aumente o disminuya la velocidad del descubrimiento puede depender de fuerzas contrapuestas: por un lado los beneficios de alcanzar a muchos equipos con un hallazgo intermedio y por otro lado los perjuicios de ahuyentar a los investigadores motivados por el crédito de un problema importante.
2.5 Crédito y Productividad
Otro factor que pesa a favor de los motivos crediticios se relaciona con la productividad científica. Dasgupta y David (1994) argumentan que, además del comunismo, el principal beneficio de la regla de prioridad en la ciencia es fomentar la velocidad de los descubrimientos científicos. Como señalan, en una carrera prioritaria, los científicos dedicarán una gran cantidad de tiempo y esfuerzo a su trabajo para asegurarse de terminar primeros.
Stephan (1996) formaliza esto en un modelo en el que muestra cómo la regla de prioridad incentiva a los científicos a producir y compartir investigaciones.Zollman (2018) extiende este argumento a los incentivos crediticios en general. En su modelo, los científicos de una comunidad pueden optar por dedicar tiempo a la investigación o al ocio. Como muestra, los científicos que están puramente motivados por la verdad –en el sentido de que su objetivo es que alguien descubra la verdad– asignan una cantidad de tiempo subóptima a la investigación, incluso bajo su propia luz. Esto se debe a que deben renunciar a un bien privado (el tiempo libre) para producir un bien público (la investigación), del que todos se benefician por igual. Los motivos crediticios ayudan a crear incentivos privados para que puedan destinar más esfuerzos a la investigación, y así mejorar el bien público. En general, estos dos últimos resultados de los incentivos crediticios –la promoción del comunismo y la productividad– son cruciales para la ciencia y pueden ser difíciles de generar a través de diferentes estructuras de incentivos. Podría decirse que éstas, más que la división del trabajo, son las características de los incentivos crediticios actuales que es más importante proteger.2.6 El efecto Mateo
Una preocupación acerca de los incentivos crediticios, que va más allá de su impacto en el funcionamiento científico, es que sean recompensados injustamente. Merton (1968) describe lo que él llama “the Matthew effect” de la siguiente manera:
“los científicos eminentes obtienen un crédito desproporcionadamente grande por sus contribuciones a la ciencia, mientras que los científicos relativamente desconocidos tienden a recibir un crédito desproporcionadamente pequeño”
El trabajo de Merton y otros ha demostrado que ese patrón, de hecho, tiende a mantenerse en la ciencia.Merton lo explica como un efecto negativo de una tendencia razonable a prestar atención al trabajo de científicos de renombre (porque presumiblemente es más probable que sea importante).
Strevens (2006) sostiene que el efecto Mateo no es realmente injusto. En su opinión, el crédito se asigna (y debe) basarse en el impacto positivo en la sociedad. Los científicos destacados son considerados más dignos de confianza, lo que significa que sus hallazgos son más influyentes. Debido a que, de hecho, son más influyentes, merecen más crédito. Incluso sostiene que el efecto Mateo podría beneficiar a la sociedad al atraer a los científicos más fuertes a los problemas más importantes. Kleinberg y Oren (2011) desarrollan un modelo, basándose en Kitcher (1990), que de manera similar defiende los beneficios de un efecto Mateo sobre la división del trabajo. En su modelo, algunos científicos obtienen más crédito que otros. Cuando esos científicos eligen proyectos prometedores en los que trabajar, su presencia lleva a sus colegas a seleccionar otros temas porque, a su vez, esperan un crédito relativamente bajo por competir con un equipo destacado. Por lo tanto, el efecto Mateo actúa como un interruptor de simetría que determina quién trabajará en los mejores temas.
Heesen (2017a) presenta un análisis mucho menos optimista del efecto Mateo . Desarrolla un modelo en el que los académicos eligen qué artículos leer en función de la calidad epistémica. Los patrones de atención que emergen tienden a ser altamente estratificados, prestándose mucha más atención al mejor trabajo. Heesen señala que si la competencia general de un académico está altamente correlacionada con la calidad del trabajo producido, este patrón tenderá a dirigir la atención hacia los académicos más competentes y su valioso trabajo futuro. Pero si los hallazgos dependen significativamente de la suerte, esta atención estratificada no reportará ningún beneficio futuro. El efecto Mateo atraerá entonces la atención sobre el trabajo futuro de académicos afortunados pero, al hacerlo, no los recompensará de manera justa por los beneficios para la sociedad ni por mejorar el progreso científico.
En relación con esto, Rubin y Schneider (2021) se preocupan por los impactos de la estructura de la red científica en la prioridad y la concesión de créditos. Como señalan, el crédito no lo otorga automáticamente una comunidad en su conjunto en el momento del descubrimiento, sino que a menudo se establece poco a poco a través de la concesión de crédito individual. (Esto es parte de la razón por la que surgen intensas disputas de prioridad en la ciencia, donde varios académicos afirman tener prioridad sobre el mismo descubrimiento [Merton, 1957].)
En su modelo, los científicos están conectados en una red que representa sus vínculos sociales y comunicativos. Dos científicos pueden hacer un descubrimiento al mismo tiempo. Posteriormente, otros científicos dan crédito por el descubrimiento al científico más cercano en la red (o al que haya sido citado más cercano a ellos). Esto sigue una suposición razonable: los científicos a menudo aprenden sobre los descubrimientos de sus pares y de sus conexiones sociales. Pero también significa que un científico puede terminar recibiendo la mayor parte del crédito por un descubrimiento simultáneo debido a los efectos de red. Como señalan, las redes de comunicación científica a menudo siguen una distribución tipo “ley de potencia”, donde unos pocos científicos tienen muchas conexiones y muchos tienen menos. Suponen que su red tiene estas propiedades y que, en particular, los científicos más antiguos tienden a estar mejor conectados que los nuevos. Bajo este supuesto, la asignación de crédito tiende a beneficiar injustamente a los científicos de mayor edad y más conectados, generando un efecto Mateo.
Rubin (2022) ofrece una demostración aún más dramática de este tipo de proceso descontrolado. En su modelo de red, diferentes investigadores tienen opiniones sobre la reputación de los demás, representada por bordes ponderados. A medida que se comparte el trabajo, aumentan las ponderaciones dirigidas a un investigador, pero más ponderaciones también aumentan las posibilidades de que otros compartan su trabajo. En este modelo, los investigadores destacados se vuelven más destacados, independientemente de las razones de su prominencia inicial. En tal proceso, claramente, el efecto Mateo no aporta ningún beneficio social. También podríamos estar interesados en una inequidad crediticia de otro tipo. Se ha observado en varias disciplinas que las mujeres tienden a ser citadas menos que los hombres. Rossiter (1993) utiliza evidencia histórica para señalar con fuerza que las mujeres, en general, reciben menos crédito que los hombres por el mismo trabajo. Ella lo llama el efecto "Matilda". En las disciplinas científicas donde tradicionalmente las mujeres y las personas de color han sido excluidas, tenderán a ser más nuevas en diversas profesiones y, por tanto, menos conectadas. En los modelos que acabamos de describir de Rubin (2022) y Rubin y Schneider (2021), esto significará una desventaja crediticia.
Además, Rubin y Schneider señalan que la homofilia, o la conexión intragrupal desproporcionada, puede exacerbar este efecto. Construyen modelos en los que los científicos, de manera realista, tienden a conectarse con personas de su propio grupo de identidad con mayor probabilidad. Como muestran, esto puede llevar a una desventaja crediticia persistente para los grupos minoritarios, quienes, debido a la homofilia y a su número relativamente pequeño, tienden a estar menos conectados.
Así, el conjunto de modelos aquí descritos muestra cómo el efecto Mateo puede operar sobre una serie de discrepancias (calidad del trabajo, edad, marginación demográfica) o simplemente sobre la base del azar. En general, estos modelos dan peso a la preocupación de que el efecto Mateo pueda conducir a una concesión injusta de créditos en la ciencia sin crear un beneficio para el progreso científico o la sociedad.
2.7 Revisión por pares, revistas y financiación
Una característica central de la ciencia es el proceso de revisión por pares llevado a cabo por agencias que otorgan subvenciones y revistas académicas. Los colegas evalúan la calidad de la investigación (ya sea planificada o completada), ofrecen sugerencias para mejorar y toman decisiones sobre financiación y publicación. A fuerza de dar forma a estas decisiones, el proceso de revisión por pares es una de las instituciones científicas que influye más directamente en los incentivos crediticios. Varios modelos consideran cómo los incentivos generados por la revisión por pares impactan la ciencia.A Gross y Bergstrom (2019) les preocupan las enormes ineficiencias en el proceso de revisión de subvenciones. Los académicos dedican cantidades significativas de tiempo de investigación a redactar subvenciones (Link et al., 2008). Dado que muchos científicos no pueden publicar (y por lo tanto recibir crédito) sin una subvención, se sienten fuertemente incentivados a dedicar tiempo a la redacción de subvenciones, aunque a menudo les quita tiempo a otros trabajos científicos. Gross y Bergstrom se basaron en la teoría de los concursos para desarrollar un modelo en el que los académicos realizan inversiones costosas en un intento por ganar un premio (financiación). No sorprende que los agentes de su modelo estén dispuestos a pagar altos costos para obtener financiamiento, lo que genera ineficiencias. Utilizan su modelo para demostrar que cuando la financiación mediante subvenciones se realiza mediante una lotería parcial que elimina los proyectos deficientes y luego financia aleatoriamente el resto, la eficiencia mejora. Se incentiva a los actores a dedicar el tiempo suficiente a redactar subvenciones para demostrar que sus proyectos son meritorios, en lugar de dedicar un esfuerzo más significativo a vencer a otros científicos en la obtención de financiación. Al desarrollar este modelo, muestran cómo detalles específicos de las estructuras de financiación pueden incentivar a los científicos motivados por el crédito a dedicar más o menos tiempo a la investigación. Volveremos a los beneficios potenciales de la financiación de la lotería en secciones posteriores. Nosek y Bar-Anan (2012) y Heesen y Bright (2020) sostienen de manera similar que la revisión por pares previa a la publicación de revistas crea ineficiencias en la ciencia.
La revisión por pares requiere mucho tiempo y, a menudo, se realiza varias veces (en secreto) en los mismos artículos. Los autores dedican tiempo a múltiples revisiones, que pueden mejorar o no la calidad de su trabajo. Dados los motivos crediticios actuales, los científicos están dispuestos a participar en este proceso ineficiente porque es la única vía para obtener crédito. (Simplemente publicar en servidores de preimpresión, por ejemplo, difunde los resultados pero no genera el mismo tipo de prestigio o promoción de soporte).
Sobre la base de este análisis, estos autores sugieren abolir por completo la revisión por pares previa a la publicación. En esta imagen, la revisión por pares se produciría después de que los artículos terminados se publiquen en los servidores de preimpresión. Es de suponer que los artículos más importantes recibirían la mayor cantidad de críticas y comentarios. Arvan et al. (2020) utilizan un modelo basado en el teorema del jurado de Condorcet para respaldar esta propuesta. Señalan que la revisión por pares posterior a la publicación, cuando funciona bien, puede aprovechar las opiniones y conocimientos de muchos académicos, en lugar de sólo unos pocos revisores.
Suponiendo que todos estos estudiosos tengan un juicio decente, más juicios serán mejores para determinar la importancia última del trabajo. Sin embargo, Rubin (2022) genera preocupaciones. Utiliza modelos de red (como los descritos en la Sección 2.6) para argumentar que la revisión posterior a la publicación, dado que es necesariamente anonimizada, puede seguir la popularidad más que el mérito. Como se señaló, esto podría tener impactos negativos para los académicos jóvenes y marginados. Arvan et al. (2020) señalan que es posible una revisión anonimizada posterior a la publicación a corto plazo, lo que puede mitigar parcialmente estas preocupaciones. Aunque si los académicos están preocupados por la reciprocidad de sus pares poderosos, una eventual anonimización probablemente afectará su disposición a compartir juicios en las revisiones. Tiokhin et al. (2021), basándose en trabajos de economía, utilizan modelos de señalización de la teoría de juegos para sugerir otras soluciones a la ineficiencia de la revisión por pares.
Como señalan, se incentiva a los autores a enviar sus artículos a revistas de alta calidad con la esperanza de recibir altos niveles de crédito, incluso cuando su trabajo no sea de alta calidad. Esto genera una gran cantidad de trabajo de revisión adicional, examinando artículos de diversas calidades y volviendo a revisar cuando los autores deben enviar el trabajo varias veces. Sería más eficiente si los autores adaptaran adecuadamente sus opciones de envío. Señalan que, en la teoría de las señales, los costos pueden respaldar la honestidad. En este caso, es posible que los autores sólo estén dispuestos a pagar un costo de envío si anticipan una probabilidad suficientemente alta de ser aceptados (como Jerome, que decidió no pagar el costo de un largo período de revisión en una revista importante). Esto debería disuadir las presentaciones de menor calidad. Sugieren varios costos posibles, incluidos los directos, pero también costos simplemente por volver a presentar la solicitud o límites a los intentos de presentación.
En este sentido, Azar (2005), Leslie (2005) y Cotton (2013) sostienen que los procesos de revisión lentos, que actúan como un costo de las presentaciones, pueden disuadir las presentaciones molestas. Tenga en cuenta que estos resultados parecen generar preocupación por las propuestas descritas anteriormente por Gross y Bergstrom (2019). Si la presentación es más rápida y sencilla, tal vez los académicos se vean incentivados a presentar demasiadas solicitudes de subvenciones deficientes. Pero, por otro lado, su propuesta también reduciría significativamente los costos de revisión, lo que significa que tal vez las presentaciones adicionales no se traducirían en demasiado trabajo adicional para los revisores. Dejando de lado el análisis de los costos de eficiencia, Gross y Bergstrom (2021) están interesados en los impactos de la revisión en la elección de problemas y especialmente en la toma de riesgos. Su modelo compara el impacto de la revisión ex-ante (ex-ante review), de propuestas de nuevos trabajos, es decir, por parte de agencias que otorgan subvenciones con la revisión por pares ex-post (ex-post review), de trabajos terminados, es decir, por revisores de revistas) en la elección del tema de investigación.
Suponen que los investigadores valoran los proyectos que, según predicen, tendrán un impacto significativo en las creencias. Como sostienen, la revisión ex-ante tenderá a incentivar propuestas más conservadoras. Supongamos que un científico tiene una razón privada para creer que un experimento arriesgado o inusual tendrá éxito. Entonces tiene buenas razones para llevar a cabo este experimento, con la expectativa de que los revisores de la revista queden impresionados con su impactante hallazgo. Pero anticipará que los organismos que otorgan subvenciones rechazarán la financiación del mismo proyecto, ya que los revisores no tenderán a anticipar su éxito ex-ante. Por lo tanto, la revisión ex ante incentiva una elección más segura, una que más académicos coinciden en que probablemente tenga éxito. Recientemente ha habido cierto movimiento hacia la revisión ex ante no solo de las propuestas de subvención sino también de su publicación a través de informes registrados (volveremos a esto en la Sección 6) (Soderberg et al., 2021). Los resultados de Gross y Bergstrom sugieren que tal medida podría disminuir la producción de ciencia de alto riesgo y alta recompensa. Varios académicos han expresado su preocupación por las tendencias hacia el conservadurismo en la investigación y los impactos de dichas tendencias en el descubrimiento (Currie, 2019; Stanford, 2019; Wu y O’Connor, 2023).
Una práctica de las revistas que se abordará ampliamente en las secciones 3 y 6 por su papel en la configuración de los incentivos en ciencia es el sesgo de publicación. Esto se refiere a la práctica de publicar preferentemente hallazgos positivos novedosos en lugar de resultados nulos (o replicaciones). Una preocupación clave sobre el sesgo de publicación es que incentiva a los científicos a obtener resultados positivos independientemente de cómo se vean sus datos. En el contexto de los estándares estadísticos actuales, es decir, las pruebas de significación de hipótesis nulas o NHST (más sobre esto más adelante), esto crea presión para utilizar una serie de QRP para producir hallazgos positivos y significativos. Estos QRP, incluidos p-hacking, HARK ing y bifurcaciones, se abordarán detalladamente en la Sección 6, que también analiza los incentivos propuestos para mitigar su daño.
2.8 Incentivos e identidad de género
En general, en el ámbito académico, las mujeres tienden a ser menos productivas que los hombres, ya que publican menos artículos por unidad de tiempo (Etzkowitz et al., 2008). Quienes estudian ciencias han intentado explicar esta “brecha de productividad de género” apelan a muchos factores: tal vez las mujeres tengan menos tiempo que los hombres debido a responsabilidades familiares, tal vez enfrenten discriminación en la revisión por pares, o tal vez sean inherentemente menos productivas que los hombres.
Bright (2017a) y Hengel (2022) modelan una sugerencia analizada en Sonnert y Holton (1996) y Lee (2016). La propuesta es que las mujeres podrían ser menos productivas porque esperan enfrentar estándares más altos para la publicación. Siguiendo esta sugerencia, se ha socializado a las mujeres para que esperen un mayor retroceso en su trabajo académico y para compensarlo. En el modelo de Bright, los académicos prefieren publicar tantos artículos como sea posible, pero las mujeres tienden a creer que deben hacer un trabajo de mayor calidad para poder publicar (como Firuzeh, que aprendió de las expectativas de sus asesores a tener un rendimiento superior). Partiendo de este supuesto, muestra que las mujeres tenderán a presentar (y publicar) artículos con menos frecuencia, aunque cada artículo representará un esfuerzo mayor. Hengel (2022) va más allá al validar un modelo de teoría de decisiones utilizando datos de publicación provenientes de la economía. Por ejemplo, señala que si las mujeres responden a este tipo de incentivo, debería haber una brecha de calidad entre los escritos de hombres y mujeres que aumentará con el tiempo. De hecho, encuentra esa brecha utilizando varias medidas de calidad de la escritura. En realidad, es probable que múltiples factores causales contribuyan a la brecha de publicación por género. Este trabajo de modelado aclara cuidadosamente uno de ellos.
• • •En la medida en que los científicos buscan crédito por su trabajo, los modelos de economía crediticia pueden usarse para evaluar los beneficios y perjuicios de diversos incentivos crediticios en ciencia. Como hemos visto, estos modelos se han utilizado ampliamente para presentar y evaluar propuestas de políticas, especialmente aquellas relacionadas con la reelaboración de los incentivos crediticios en ciencia. Al concluir este Elemento, volveremos a algunos de ellos. En la siguiente sección, cambiamos el enfoque para preguntar cómo las recompensas crediticias moldean no las elecciones individuales de los científicos sino los procesos selectivos de las comunidades científicas.
3 La selección natural de la ciencia
La Dra. Alison Slacks desarrolló un método nuevo y de vanguardia para investigar la evolución de los virus. Como resultado, su trabajo ha recibido mucha atención por su relevancia para una pandemia mundial. Sus artículos se publicaron en Science and Nature, se le pidió que hablara en Good Morning America y apareció en la revista Time y Newsweek. Su cuenta de Twitter tiene más de 100.000 seguidores. El colega de la Dra. Slacks, Paul Pantalons, investiga las extremidades mecánicas.
Aunque su trabajo es tan meticuloso y metodológicamente sólido como el de la Dra. Slacks, no ha recibido el mismo tipo de atención. Cuando sus estudiantes han ingresado al mercado laboral, los protegidos de la Dra. Slacks han tendido a tener más éxito. Los comités de contratación han oído hablar del programa de investigación de Slacks y están interesados en contratar estudiantes que puedan desarrollar un perfil similar. Además, con todas sus invitaciones para hablar en prestigiosas conferencias, la Dra. Slacks ha podido promover el trabajo de sus estudiantes. El resultado es que varios investigadores recién creados en las mejores universidades utilizan sus métodos para estudiar la evolución del virus. Estos estudiantes, a su vez, influyen en sus colegas, dan charlas sobre su trabajo y comienzan a formar sus propios estudiantes. La prevalencia de este trabajo lleva a los colegas a adoptar métodos similares. El trabajo sobre la evolución de virus utilizando los métodos de Slacks se vuelve cada vez más frecuente. Mientras tanto, muchas menos personas oyen hablar de las extremidades mecánicas del Dr. Pantalons.
Los modelos evolutivos pueden informar cómo los procesos selectivos, incluidos los procesos de selección cultural, moldean el comportamiento. Existen fuertes conexiones entre este tipo de modelos y los de teoría de juegos. A menudo, el tipo de cosas que pueden modelarse utilizando pagos o utilidades en la teoría de juegos son las mismas que contribuyen a la aptitud y, por tanto, a la selección, en los modelos evolutivos. En la sección 2, vimos cómo los modelos derivados de la teoría de los juegos y de la decisión podrían usarse para estudiar a los científicos como buscadores de crédito. Ahora veremos cómo los modelos derivados de la teoría de la evolución pueden informar cómo el crédito da forma a los procesos selectivos en la ciencia.
En el ejemplo de Slacks and Pantalons, el proceso de contratación en una disciplina moldeó sus prácticas y creencias futuras. En particular, debido a que los métodos y el tema de la Dra. Slacks tendían a acumular crédito en forma de prestigio y exposición, también tendían a persistir y replicarse en la comunidad a medida que sus estudiantes buscaban trabajo y sus colegas elegían nuevos métodos. Este proceso fue independiente de cómo se incentivó individualmente a los científicos para que eligieran temas o métodos de estudio.
La idea de que la ciencia evoluciona de manera análoga a la selección natural está bien explorada y se remonta a académicos como Popper (1972), Kuhn (1962), Campbell (1965) y Hull (1988). Como quedará claro en esta sección de el Elemento, tendencias diferenciales de las personas, los métodos y las teorías para persistir o replicarse
Como quedará claro en esta sección del Elemento, las tendencias diferenciales de las personas, los métodos y las teorías a persistir o replicarse pueden ayudar a explicar diversos fenómenos en la ciencia, desde estándares estadísticos bajos hasta opciones de investigación conservadoras y el éxito de la influencia de la industria. En particular, los efectos de estos procesos son a veces ortogonales a los efectos que los incentivos tienen sobre las decisiones de los científicos y, por lo tanto, es importante estudiarlos para desarrollar una imagen más completa del funcionamiento de la ciencia.
3.1 La selección natural de la ciencia mala, buena y conservadora
Una pregunta importante es: ¿cómo influyen las fuerzas selectivas en la calidad de los métodos utilizados en la ciencia? ¿Tenderá la selección a empujar a los científicos a utilizar técnicas de alta calidad? ¿Técnicas rápidas y descuidadas? ¿O métodos con algún carácter particular?
Smaldino y McElreath (2016) presentan un modelo destinado a explicar la persistencia de estándares estadísticos deficientes en la ciencia. Como señalan, durante muchas décadas, ha habido repetidos llamados en todas las ciencias para una reforma estadística. Pero a pesar de la conciencia generalizada sobre problemas como resultados generalizados con poca potencia, ha habido poca o ninguna mejora en la práctica. Al igual que muchos otros, identifican el sesgo de publicación como uno de los culpables. Como se señaló, muchas revistas tienden a aceptar nuevos resultados positivos y rechazar resultados nulos. Esta práctica crea incentivos crediticios perversos donde los investigadores hacen todo lo posible para adoptar cualquier práctica (potencialmente cuestionable) que produzca hallazgos significativos, independientemente de si esas prácticas conducen a la verdad (Nosek et al., 2012). Por supuesto, uno podría responder que muchos investigadores no están dispuestos a adoptar malas prácticas de investigación por razones éticas y epistemológicas. Sin embargo, como sostienen Smaldino y McElreath, los métodos deficientes pueden difundirse como resultado de estos incentivos a través de dinámicas que “no requieren estrategias conscientes –ni trampas ni holgazanerías deliberadas– por parte de los científicos, sólo que la publicación sea un factor principal para el avance profesional”. (1).
Su modelo incluye una comunidad de N laboratorios, cada uno de los cuales utiliza métodos característicos. Estos métodos se definen por un nivel de eficacia (la capacidad de identificar positivamente resultados verdaderos) y esfuerzo, que es necesario para seleccionar y evitar falsos positivos de este conjunto. El esfuerzo disminuye la productividad pero mejora la calidad de los resultados de la investigación al disminuir hallazgos falsos positivos. En cada ronda de simulación, los laboratorios producen investigaciones con un ritmo y calidad característicos en función de estos factores. Después de esta producción de investigación, se produce una “evolución”: se elige al azar un laboratorio para cerrar y ser reemplazado por otro. El nuevo laboratorio copia las características de un laboratorio principal elegido, donde los laboratorios de alto crédito tienden a copiarse con mayor frecuencia. De esta manera, los laboratorios que acumulan créditos tienden a influir más fuertemente en la comunidad (al igual que el Dr. Slacks tuvo un efecto enorme en su disciplina en comparación con el Dr. Pantalons).
Smaldino y McElreath encuentran que este proceso tiende a seleccionar “mala ciencia”, es decir, métodos de investigación que utilizan un esfuerzo mínimo para evitar falsos positivos. En cambio, los laboratorios adoptan métodos que producen muchos hallazgos falsos (publicables). Esto es cierto incluso cuando los laboratorios son castigados por publicar resultados falsos. En tales casos, el castigo desincentiva a las personas a elegir métodos deficientes. Un maximizador de crédito racional elegiría en realidad mejores métodos para evitar la posibilidad de obtener beneficios negativos cuando sus resultados no se repliquen. Los laboratorios que utilizan métodos deficientes y nunca son descubiertos acumulan el mayor crédito y, por lo tanto, son los más copiados. De esta manera, un proceso selectivo puede conducir a la proliferación de métodos deficientes incluso cuando las respuestas individuales a los incentivos crediticios deberíamos avanzar hacia otros mejores.
Tiokhin et al. (2021) respaldan aún más este hallazgo. Utilizan un modelo evolutivo para considerar el impacto de la regla de prioridad específicamente en la calidad de la investigación. En su modelo, varios laboratorios a menudo terminan en una carrera por prioridad. Muestran que los incentivos de alta prioridad impulsan la evolución de tamaños de muestra pequeños a medida que los laboratorios compiten para terminar primeros, lo que aumenta la proporción de descubrimientos falsos.
Utilizan el modelo para defender la “protección exclusiva”, una intervención empleada por algunas revistas para proteger a los segundos clasificados en carreras prioritarias. Con la protección exclusiva, los laboratorios aún pueden publicar un hallazgo que se haya establecido recientemente en otros lugares.(Por supuesto, una preocupación acerca de esta propuesta es que el crédito se asigna parcialmente a través de la atención y las citas de los colegas. Si es así, aquellos que terminen primero aún pueden obtener más crédito, incluso si se publican artículos posteriores). Estos dos artículos juntos muestran cómo los incentivos del crédito pueden dar forma a procesos selectivos que conducen a la difusión de métodos deficientes.
Si la selección conduce a la proliferación de métodos deficientes, ¿hay alguna manera de contrarrestar este proceso? Smaldino et al. (2019) abordan el potencial de cambio positivo. En primer lugar, argumentan que pueden ayudar los cambios en el proceso de revisión por pares que contrarresten el sesgo de publicación, como la ciencia abierta y los informes registrados. Al crear espacios para que se publiquen todos los resultados de alta calidad, las comunidades científicas disminuyen los incentivos perversos para los resultados falsos positivos (volveremos a esta idea en la Sección 6). En segundo lugar, añaden una etapa de financiación al modelo, en la que algunos laboratorios reciben subvenciones que aumentan su productividad. Estos autores encuentran que un sistema de lotería híbrido (en el que los fondos se asignan aleatoriamente a un laboratorio que supera un umbral de calidad) es eficaz para reducir la selección natural de la mala ciencia. Este sistema de recompensas lleva a la “selección” de una amplia gama de métodos efectivos (en lugar de sólo aquellos con el crédito más alto, que a menudo utilizan métodos cuestionables).
Stewart y Plotkin (2021) desarrollan un modelo similar, pero su objetivo es mostrar cómo los incentivos creados por el sesgo de publicación pueden en realidad impulsar la selección de buena ciencia. Consideran laboratorios que tienen una opción adicional: dedicar esfuerzo a la teoría antes de desarrollar una hipótesis para probar. Hacerlo aumenta las posibilidades de que las hipótesis del laboratorio sean correctas (y, por lo tanto, aumenta las posibilidades de producir resultados positivos y recibir crédito). Su modelo tiene dos puntos finales estables:
uno en el que los investigadores utilizan la teoría y el esfuerzo para producir un trabajo de alta calidad, y
otro similar al de Smaldino y McElreath (2016) donde los laboratorios utilizan el mínimo esfuerzo y publican muchos falsos positivos.
Muestran que el buen resultado científico es particularmente probable cuando
(1) los esfuerzos de replicación se utilizan para castigar a los laboratorios con hallazgos falsos y
(2) la comunidad evita recompensar los hallazgos que llaman la atención (pero que probablemente sean falsos).
De esta manera, Stewart y Plotkin se basan en el trabajo de Smaldino y McElreath (2016) para identificar otras intervenciones que podrían mejorar la práctica científica.
Hemos visto cómo la selección puede afectar la calidad metodológica, pero ¿qué pasa con otros aspectos de la metodología? O'Connor (2019a) desarrolla un modelo para investigar una preocupación diferente acerca de la ciencia: que los investigadores tienden a tomar decisiones conservadoras al publicar muchos artículos de bajo riesgo y baja recompensa. En su modelo, los laboratorios eligen entre proyectos que generan proyectos pequeños, niveles consistentes de crédito o niveles grandes pero inconsistentes. Si bien la ciencia arriesgada genera menos crédito en promedio, los laboratorios con mayor crédito son aquellos cuya asunción de riesgos dio sus frutos (al igual que los laboratorios de bajo esfuerzo en Smaldino y McElreath [2016]). Estos laboratorios tienen un efecto enorme en la comunidad. Se podría pensar que la ciencia de alto riesgo y alta recompensa debería difundirse a través de procesos de selección. Pero, como señala O'Connor, la ciencia arriesgada suele ser difícil de copiar. Un científico exitoso que toma riesgos también debe tener suerte para tener éxito, y sus estudiantes pueden no tener tanta suerte. En otras palabras, sus niveles de éxito son menos hereditarios que los de la ciencia conservadora. Cuando esto es cierto, descubre que el conservadurismo se propaga mediante la selección en la ciencia.
3.2 Sesgos autopreferenciales y falsos paradigmas
Otro lugar en el que puede funcionar la selección es en los tipos de marcos de investigación que utilizan los científicos. Akerlof y Michaillat (2018) se preguntan si los procesos selectivos en la ciencia pueden ayudar a explicar la persistencia de “falsos paradigmas”: marcos de investigación que son menos precisos o útiles que algunas alternativas. Como argumentó Kuhn (1962), los científicos tienden a adherirse a un paradigma incluso cuando se acumula evidencia anómala en su contra, en parte por razones sociales. En el modelo de Akerlof y Michaillat, una comunidad de agentes utiliza paradigmas de diferente calidad. Los científicos del modelo pueden ser anteriores o posteriores a la titularidad. Los nuevos científicos son formados por científicos titulares y tienden a adoptar el paradigma de su mentor. Luego, un miembro aleatorio de la comunidad titular evalúa la titularidad de estos nuevos científicos previos a la titularidad. La decisión de contratar a un científico joven se toma por dos motivos.
Primero, los científicos titulares pueden ser más o menos competentes para distinguir entre la calidad de mejores y peores paradigmas.
En segundo lugar, los científicos pueden estar más o menos sesgados hacia su propio paradigma. (La evidencia empírica sugiere que en muchos sentidos los científicos exhiben este tipo de sesgo autopreferencial.) Encuentran que los sesgos autopreferenciales pueden estabilizar paradigmas deficientes. Los investigadores contratan a quienes hacen el mismo tipo de trabajo que ellos, aunque existan trabajos mejores. Esto es especialmente preocupante cuando los investigadores no son competentes para determinar qué paradigmas son de mayor calidad.
El resultado es que la comunidad sigue estancada en el mismo y pobre paradigma a pesar de la presencia de mejores alternativas. Sugieren esto como una posible explicación de episodios similares en la historia de la ciencia. Esto plantea la cuestión de si las disciplinas que emplean paradigmas deficientes están condenadas al fracaso. Akerloff y Michaillat señalan que si mejora la competencia, se pueden superar los sesgos autopreferenciales. Smaldino y O’Connor (2022) consideran si el contacto interdisciplinario podría romper este ciclo. Observan un modelo similar, pero en el que (1) el trabajo de un científico a veces es evaluado por alguien ajeno a su disciplina y (2) los científicos a veces copian métodos de la otra disciplina. Muestran que un mejor paradigma puede difundirse fácilmente como resultado de este tipo de contacto. Algunas personas copian mejores paradigmas. Y aquellos que adoptan un paradigma de alta calidad, pero raro, pueden volverse prominentes e influyentes como resultado de la concesión de créditos ajenos al grupo, lo que lleva a la difusión de buenos métodos en su disciplina de origen. Como señalan Smaldino y O’Connor, esto no significa que debamos erradicar por completo una estructura disciplinaria. Una estructura disciplinaria completamente plana podría estar sujeta al tipo de arraigo de métodos deficientes que identifican Akerlof y Michaillat (2018). Pero Smaldino y O'Connor sostienen que deberíamos promover un nivel decente de contacto interdisciplinario para facilitar la difusión de buenos métodos entre disciplinas. Esta propuesta está respaldada por otros trabajos cualitativos que identifican los beneficios de la interdisciplinariedad (y tiene pocas desventajas).
3.3 Selección Industrial
Los intereses industriales a menudo entran en conflicto con la creencia pública y, cuando este es el caso, la industria ha utilizado históricamente un bestiario de estrategias sutiles, furtivas y efectivas para confundir las creencias tanto dentro como fuera de la comunidad científica (Oreskes y Conway, 2011; O'Connor y Tiempo, 2019). Muchos han respondido proponiendo códigos de buena conducta para científicos individuales (ver, por ejemplo, Douglas et al. [2014]). Pero incluso si todos los científicos cumplieran con altos estándares, la industria todavía estaría incentivada a dar forma al progreso científico. ¿Qué pasaría si los actores de la industria pudieran utilizar fuerzas selectivas en su propio beneficio? Holman y Bruner (2017) utilizan un modelo selectivo para mostrar cómo en la industria la financiación puede moldear el curso del conocimiento científico sin corromper nunca las prácticas de los científicos individuales. En su modelo, una comunidad intenta identificar cuál de dos teorías, A o B, es más prometedora. Lo hacen probando estas teorías. Pero si bien la mayoría de los científicos utilizan metodologías de seguimiento de la verdad, algunos utilizan métodos que, sin saberlo, apuntan hacia la peor teoría (o, tal vez, utilizan métodos que de otro modo podrían ser apropiados pero que, debido a que se aplican incorrectamente en el dominio de interés, son engañosos). El modelo incluye un agente industrial que puede elegir a qué científicos financiar, aumentando así su productividad. Como muestran, al financiar sólo a aquellos científicos que utilizan peores métodos, el agente industrial puede empujar a la comunidad hacia un consenso que beneficie materialmente a la industria. Los hallazgos que respaldan las creencias de la industria inundan la comunidad desde científicos productivos y bien financiados que utilizan métodos deficientes, dando forma así a la investigación futura de sus pares. Esta financiación también tiende a aumentar la prominencia de los investigadores que utilizan métodos deficientes y, por tanto, la ubicación de sus estudiantes y la tendencia de otros investigadores a copiarlos. Este modelo demuestra cómo, en principio, centrarse en la toma de decisiones individuales podría llevar a los formuladores de políticas a pasar por alto importantes impactos negativos de la industria en la ciencia.
3.4. Niveles de selección en ciencia
En biología, la teoría de los niveles de selección considera cómo los procesos selectivos pueden actuar en diferentes niveles de organización. Por ejemplo, los individuos obtienen beneficios, pero también se puede considerar que los grupos a los que pertenecen tienen beneficios o niveles de aptitud. Tiokhin et al. (2021) consideran lo que sucedería si las comunidades científicas cambiaran el “nivel de selección” del crédito científico. En particular, sugieren que en lugar de recompensar el crédito a científicos individuales, a veces podríamos querer otorgar crédito a los grupos. (Por supuesto, ya damos crédito a grupos de colaboradores, pero la sugerencia es que también podríamos intentar recompensar a otros grupos).
Como señalan, los científicos influyen directamente en el progreso del conocimiento a través de su propio trabajo, pero también, como miembros de comunidades muy unidas, tienen efectos indirectos en la producción de conocimiento a través de interacciones con otros. Los científicos que realizan una cuidadosa revisión por pares, brindan retroalimentación a sus colegas, se toman el tiempo para compartir su código y datos, realizan trabajo de servicio, asesoran a los estudiantes, etc., pueden mejorar la investigación de muchos otros. Pero este tipo de contribuciones toman tiempo y normalmente no son recompensadas por esquemas de contratación y promoción. Esto crea incentivos para eludir los deberes prosociales. Argumentan que los investigadores pueden incluso verse incentivados a perjudicar a los miembros de la comunidad, por ejemplo, aprovechando la productividad de los estudiantes o enviando críticas demasiado negativas para retrasar la publicación por parte de los competidores. Además, sostienen que las recompensas crediticias individuales desincentivan la especialización en funciones complementarias, que normalmente mejoran la eficiencia de la producción.
Al otorgar crédito a los grupos, estos incentivos perversos pueden revertirse. Su propuesta tiene el potencial de aliviar una serie de cuestiones planteadas en la Sección 2: fracasos del comunismo en las etapas intermedias de investigación, desincentivos para realizar trabajos de replicación y fraude. Aunque este no es el tema central de su artículo, también se ha señalado que este tipo de trabajos comunitarios a menudo los realizan de manera desproporcionada mujeres y personas de color en el mundo académico; por lo que su propuesta puede, además, mejorar la equidad. El movimiento generalizado hacia una mayor colaboración en la ciencia ya refleja un cambio que conduce a otorgar crédito a un “nivel” más alto que el individual. Las recompensas a departamentos bien administrados o subcampos de alto funcionamiento también pueden ayudar a promover la ciencia prosocial.
Sin embargo, persisten las preocupaciones. Es poco probable que en un futuro realista los incentivos crediticios en ciencias sólo se otorguen en niveles más altos de selección. Por lo tanto, todavía habrá incentivos para eludir los deberes prosociales si los científicos pueden obtener crédito individualmente mientras se benefician del crédito comunitario generado por otros. Obsérvese que esta estructura de incentivos parece un juego de bienes públicos, donde los incentivos tienden a empujar a los agentes a desertar de sus propias contribuciones. De ser así, recompensar niveles más altos en ciencias podría no tener los efectos positivos sobre las conductas prosociales que sugieren estos autores.
3.5 El surgimiento de la discriminación en la ciencia
Una serie de resultados empíricos sugieren que las mujeres tienden a realizar más trabajo por crédito recibido que los hombres, en promedio, cuando participan en una colaboración científica. ¿Cómo podrían surgir tales patrones de comportamiento? ¿Y reflejan fuerzas selectivas en la ciencia?Bruner y O'Connor (2017) y O'Connor y Bruner (2019) señalan que la coautoría requiere un acuerdo para determinar (1) quién hará cuánto trabajo y (2) quién recibirá qué puesto de autoría. Modelan la evolución cultural de la colaboración mediante un juego de negociación, en el que dos jugadores dividen un recurso. Encuentran que dos grupos sociales a menudo desarrollan patrones de comportamiento sistemáticamente injustos, es decir, donde un grupo recibe más crédito y el otro menos. Además, muestran cómo los grupos minoritarios en la ciencia pueden estar especialmente desfavorecidos como resultado de la dinámica descrita en Bruner (2019).42 Como sostienen, sus modelos pueden ayudar a explicar cómo pueden surgir patrones de comportamiento colaborativo que sistemáticamente desfavorezcan a grupos como las mujeres.
Bruner y O'Connor (2017) también consideran una interpretación diferente de este tipo de modelo, donde los grupos de identidad social siguen niveles jerárquicos en el mundo académico, como profesores y estudiantes de posgrado. Encuentran que las diferencias de poder pueden conducir a una ventaja sistemática para un grupo. Si los profesores, por ejemplo, son más poderosos que los estudiantes de posgrado, esto puede traducirse en mejores posiciones de autoría y menos trabajo por crédito obtenido. Esto puede ayudar a explicar los fenómenos.
Esto puede ayudar a explicar fenómenos como la "autoría fantasma", donde destacados académicos exigen puestos de autor sin contribuir realmente a un artículo. Ambos conjuntos de resultados plantean preocupaciones sobre la equidad en la colaboración y la concesión de créditos. Dado que las normas científicas surgen a través de fuerzas evolutivas culturales, es probable que sigan el mismo tipo de patrones que otras normas. Cuando se trata de negociación, los marcadores de identidad social a menudo se traducen en inequidad, y la ciencia puede no ser diferente.
• • •
Como hemos visto en esta sección del Elemento, la creencia influye no sólo en la toma de decisiones individuales en ciencia sino también en los procesos selectivos. ¿Qué personas consiguen empleo y reciben permanencia? ¿Qué teorías, paradigmas y métodos persisten y se difunden? ¿Y cómo debería esto informar la política? Considerar estos procesos a nivel de grupo ayuda a complicar y matizar nuestra comprensión de cómo las creencias impactan el funcionamiento científico y qué debemos hacer para mejorar el progreso. Esto es especialmente cierto, dados los resultados que muestran que a veces los incentivos impulsan la elección en una dirección (es decir, hacia una investigación de calidad) pero la selección en otra (hacia prácticas cuestionables). En la siguiente sección, continuamos considerando los impactos de los procesos extendidos a nivel de grupo en la ciencia, pero cambiamos el enfoque para analizar específicamente los procesos que rodean la comunicación.
4 Redes Sociales y Conocimiento Científico
Jane Hightower era una médica que había observado un conjunto inusual de síntomas en algunos de sus pacientes: pérdida de cabello, náuseas, fatiga, debilidad, etc. Estos pacientes tendían a ser ricos y preocupados por su salud. Mientras conducía a casa, uno de los colegas de Jane escuchó una historia en la radio sobre un pueblo donde muchos sufrieron síntomas similares después de comer pescado contaminado con mercurio. Después de realizar pruebas a uno de los pacientes de Jane, el colega descubrió niveles elevados de mercurio. Al final resultó que, el paciente comía mucho pescado, especialmente aquellas especies que tienden a acumular el mercurio liberado por las centrales eléctricas de carbón.La Dra. Hightower comenzó a investigar la conexión entre los mariscos y el envenenamiento por mercurio en sus pacientes. Compartió sus preocupaciones sobre este vínculo y la creciente evidencia de ello con colegas de todo el país. Algunos de estos médicos comenzaron a vigilar el envenenamiento por mercurio en sus propios pacientes. Informó sus hallazgos a las agencias de noticias y el programa 20/20 publicó un segmento sobre su trabajo. Probaron los niveles de mercurio en el pescado de las tiendas de comestibles locales y encontraron que estaban elevados por encima de los estándares de la FDA. A medida que se acumuló más evidencia, varias asociaciones médicas aprobaron resoluciones sobre los peligros del mercurio. Las agencias gubernamentales de todo el mundo finalmente aprobaron directrices políticas más estrictas para regular mejor los niveles de mercurio en el pescado.
• • •
El conocimiento humano es profundamente social. Las personas tienden a adoptar la mayoría de sus creencias a través de sus redes sociales. Aprendemos de un maestro que la tierra es redonda. Un amigo nos habló de los beneficios de los suplementos prenatales de DHA. Un presentador de noticias informa sobre un tsunami en Japón. Este proceso de intercambio de evidencias y creencias está en el corazón del avance cultural humano. Sin él, no podríamos acumular el conocimiento y la experiencia necesarios para tecnologías avanzadas, medicina o descubrimientos de vanguardia. Por esta razón, muchos investigadores estudian modelos de "redes epistémicas" para aprender más sobre las creencias y el conocimiento humanos. Los nodos de estas redes son individuos y los bordes son vínculos comunicativos. Nuevas ideas, opiniones, creencias o evidencias pueden pasar a través de estos enlaces y, así, viajar a través de una red social.
Los científicos no son una excepción a la regla del conocimiento social. En el ejemplo antes mencionado (de la vida real), tenga en cuenta que Hightower tuvo por primera vez la idea de una conexión mercurio/mariscos de un colega, quien, a su vez, había oído hablar del envenenamiento por mercurio y el pescado en un programa de radio. Hightower luego difundió esta idea entre colegas y miembros de los medios de comunicación. Varios colegas cambiaron sus prácticas como resultado de su información y comenzaron a probar ellos mismos la hipótesis del mercurio/mariscos. Compartieron la nueva evidencia que acumularon y ayudaron a alertar a más personas sobre peligros potenciales.
En esta sección, consideramos lo que los modelos de redes sociales pueden decirnos sobre la ciencia. Un enfoque principal es cómo la comunicación puede dar forma a las tendencias exploratorias en la ciencia. Otros temas incluyen la polarización, la financiación de la industria científica y la formación de redes científicas. Y, como veremos, considerar cómo fluye la información entre científicos nos permite pensar más a fondo sobre cómo funcionan las comunidades científicas y cómo hacer que funcionen mejor.
4.1 Modelos de intercambio de evidencia
Hay diferentes tipos de información/ideas/opiniones/conocimientos/creencias que se difunden a través de las redes sociales humanas. Como tal, existe una variedad de enfoques de redes para modelar la propagación de estados doxásticos (o relacionados con el conocimiento) en grupos humanos. La mayoría de los modelos de redes que consideraremos suponen que los agentes no comparten opiniones o testimonios sobre sus creencias, sino evidencia. Por ejemplo, en lugar de modelar a alguien que le dice a un compañero: "Creo que el pescado está causando envenenamiento por mercurio", estos modelos corresponden mejor a un individuo que describe datos sobre la cantidad de pescado que comen sus pacientes con pérdida de cabello. Este tipo de modelo es especialmente pertinente para las comunidades científicas donde los científicos producen evidencia para respaldar sus creencias e intentan influir en otros compartiéndola.
Los modelos particulares de intercambio de evidencia en los que nos centramos fueron desarrollados por primera vez en economía por Bala y Goyal (1998) para estudiar el aprendizaje social. Los agentes prueban diversas acciones o teorías, recopilan evidencia de sus pruebas y comparten esa evidencia con sus vecinos de la red. Sus vecinos, a su vez, se ven influenciados por la evidencia que encuentran y la utilizan para determinar qué acciones o teorías deben probar y, por tanto, qué tipo de datos transmiten. A través de este proceso, las comunidades eventualmente tienden a formar un consenso, ya sea correcto o incorrecto, sobre qué acción es mejor. Una característica notable de este modelo es que Bala y Goyal (y otros que lo utilizan) suelen suponer que los agentes aprenden utilizando la regla de Bayes, es decir, responden racionalmente a la evidencia. Entonces, en los casos en que el aprendizaje grupal falla, esto se debe a efectos comunicativos emergentes más que a fallas individuales de racionalidad. De esta manera, el paradigma de modelización permite a los investigadores demostrar algo mucho más difícil de establecer experimentalmente: que los estudiantes racionales pueden fracasar en entornos grupales. Además, esta suposición está bien adaptada a las comunidades científicas, donde los agentes son expertos capacitados para aprender bien de la evidencia.
Zollman (2007, 2010) adoptó por primera vez este modelo para estudiar el cambio teórico en la ciencia. Según esta interpretación, los agentes podrían, por ejemplo, intentar decidir si "los cigarrillos son seguros" o "fumar causa cáncer". Cada científico recopila y comparte datos guiados por su teoría preferida: aquellos que piensan que fumar podría ser peligroso en realidad prueban esta posibilidad, mientras que aquellos que no, la ignoran. O, en el ejemplo de Hightower, las teorías podrían ser "el mercurio en el pescado está enfermando a los pacientes" y "el mercurio en el pescado se encuentra actualmente en niveles seguros". Quienes adoptan la primera teoría tienden a reunir evidencia sobre el mercurio y el pescado, cambian sus creencias como resultado de esta evidencia y la comparten de maneras que luego impactan el consenso grupal actual.
La Figura 1 muestra cómo se vería una ronda de este modelo. Vemos agentes conectados en una red. Al comienzo de la ronda, (a), tienen creencias iniciales o creencias en algunas teorías. Aquí seguiremos a Bala y Goyal (1998) al suponer que están familiarizados con una acción o teoría A, que tiene una tasa de éxito de 0,5. La figura muestra sus creencias sobre si la teoría B es más exitosa que la A. Aquellos con creencias menores a 0,5 (representadas por nodos blancos) prefieren la teoría A. En el paso (b), los agentes que prefieren la teoría B la probarán. Aquí un solo agente intenta esta prueba diez veces y obtiene siete éxitos.En la etapa final (c), los agentes que observan esta evidencia utilizan la regla de Bayes para actualizar sus creencias. En este caso, dos agentes lo hacen y la evidencia reunida convence a uno de cambiar su preferencia por la teoría B. El modelo avanza ronda tras ronda hasta que las preferencias de todos los agentes por las teorías son estables.
4.2 Los beneficios de la diversidad transitoria
Se podría pensar que el objetivo de cualquier comunidad científica es llegar a un consenso: un acuerdo amplio sobre qué ideas o teorías son las correctas.Esto es correcto, pero normalmente la formación de consenso debe ir precedida de algún desacuerdo sobre qué teorías son mejores. Este tipo de desacuerdo, o "diversidad transitoria de creencias", es necesaria para garantizar que los científicos consideren un conjunto suficientemente amplio de posibles hipótesis. Si se deciden preventivamente por una hipótesis, sin suficiente exploración, no hay garantía de que hayan elegido la mejor.
Por supuesto, demasiado desacuerdo durante demasiado tiempo tampoco es lo ideal. El objetivo es explorar opciones durante el tiempo suficiente para garantizar que se seleccionen las teorías óptimas, sin perder demasiado tiempo y recursos en teorías deficientes. Esto está relacionado con el equilibrio entre explorar y explotar en el aprendizaje. Tenga en cuenta que este problema de "diversidad transitoria" es muy similar al problema de "división del trabajo científico" que analizamos en la sección 2. La principal diferencia es que ahora nos centramos en casos en los que las teorías compiten o son mutuamente excluyentes. El problema no es cómo dividir el trabajo entre los problemas en general sino cómo promover el nivel adecuado de exploración entre hipótesis en competencia sobre el mismo tema. Como se mencionó, los modelos de redes pueden dilucidar diferentes mecanismos que dan forma a la diversidad de exploración. Obsérvese que, a diferencia de los modelos de economía crediticia, la pregunta no será qué incentivos podrían impactar la diversidad transitoria –los agentes en estos modelos suelen estar motivados epistémicamente– sino qué otras características relacionadas con la comunicación y la investigación podrían tener ese efecto. Las siguientes secciones describen diferentes modelos que abordan esta pregunta.
4.2.1 Limitar la comunicación
Zollman (2007, 2010) esboza un resultado sorprendente. Cuando las comunidades en este tipo de modelo de red están menos conectadas, tienden a alcanzar un consenso correcto con mayor frecuencia. En comunidades altamente conectadas, series de datos aleatoriamente engañosos pueden convencer a cada individuo de preferir la peor teoría. Una vez que esto sucede, los agentes ya no prueban la mejor teoría y, por lo tanto, no aprenden que, de hecho, es mejor. Las comunidades menos conectadas preservan una diversidad transitoria de creencias durante un período de tiempo más largo. Al hacerlo, dedican más tiempo a probar cada teoría y, por lo tanto, aumentan sus posibilidades de elegir una buena.
Este "efecto Zollman" no se limita sólo a estos modelos. También ocurre en modelos de red donde los actores enfrentan problemas de paisaje de NK (March, 1991; Lazer y Friedman, 2007; Fang et al., 2010).49 Estos se discutirán en profundidad en la siguiente sección. Pueden entenderse como problemas de búsqueda en los que los actores buscan resultados óptimos en un paisaje que puede tener múltiples picos. Demasiada conectividad tiende a generar soluciones menos exitosas, ya que todo un grupo adopta el primer pico que se encuentra sin explorar otros mejores.
Zollman (2010) sostiene que este efecto general puede explicar episodios de la historia de la ciencia como el abandono prematuro de la teoría bacteriana de la úlcera gástrica. Un artículo muy influyente que no encontró evidencia de bacterias en el estómago humano fue suficiente para desviar a toda la comunidad científica de la teoría correcta. Si, por otro lado, algunos subgrupos de investigadores hubieran ignorado este hallazgo, es posible que hubieran descubierto la verdad más rápidamente.
Estos modelos implican que disminuir la comunicación en las comunidades científicas podría, sorprendentemente, ser algo bueno. Zollman (2009) va más allá al convertir un nodo de la red en un "diario" que publica los resultados en el resto de la red. Sostiene que publicar más trabajos no siempre es mejor, incluso cuando la calidad es alta, debido al efecto Zollman. Además, sostiene que las revistas que publican aleatoriamente artículos por encima del umbral pueden promover una diversidad transitoria, ya que la aleatoriedad tenderá a garantizar que se publiquen muchos tipos diferentes de resultados.
Entonces, ¿deberían los científicos comunicarse menos para mejorar sus posibilidades de adoptar buenas teorías? Rosenstock et al. (2017) son aún más escépticos. Como señalan, disminuir la comunicación sólo ayuda cuando los actores enfrentan problemas particularmente difíciles, es decir, aquellos en los que los datos disponibles no resuelven fácilmente la cuestión de qué es verdad. Cuando sus problemas son más fáciles, no hay necesidad. Pero los científicos a menudo no saben qué tipo de problemas enfrentan ex ante. Como tal, la disminución de la comunicación podría tener impactos negativos, sin los beneficios que identifica Zollman (2007). Además, señalan que existen otros mecanismos para promover una suficiente exploración en ciencia, algunos de los cuales serán más eficientes (estad atentos).
4.2.2 Terquedad y parcialidad
Zollman (2010) señala que si los científicos son tercos, en el sentido de que parten de creencias extremas que tardan mucho en cambiar con evidencia, las comunidades en modelos de red tienden a tener más éxito. Esto sucede, nuevamente, porque evitan decidirse preventivamente por una teoría deficiente. Frey y Šešelja (2020) también consideran agentes cuyas creencias son rígidas, es decir, tardan un tiempo en cambiar, y encuentran que esta rigidez mejora el consenso grupal. En un hallazgo sorprendente, Gabriel y O’Connor (2023) encuentran que el sesgo de confirmación (la tendencia a rechazar evidencia que no encaja con la creencia actual) puede retardar el aprendizaje, aumentar la diversidad transitoria de creencias y, por lo tanto, mejorar el aprendizaje grupal.
Mayo-Wilson et al. (2011) utilizan resultados como estos para defender lo que llaman la “tesis de la independencia”: que la racionalidad individual y grupal a veces se separan en la ciencia. En el centro de su argumento está la observación de que algunas estrategias de aprendizaje funcionan muy bien en grupo pero mal por sí solas, y viceversa. Una implicación es que al pensar en métodos de inferencia ideales en ciencia, es necesario estar atentos a los fenómenos a nivel de grupo. Lo que parece irracional para un individuo (terquedad o sesgo de confirmación) puede ser racional para un grupo.
Sin embargo, tenga en cuenta que estos modelos apelan a rasgos psicológicos sobre los que no es necesariamente fácil intervenir. Además, existen daños que podrían derivarse de los intentos de aumentar la terquedad o el razonamiento sesgado en la ciencia (San tana, 2021). Por esta razón, estos mecanismos para la diversidad transitoria también son, posiblemente, difíciles de promover activamente.
4.2.3 Subvenciones para la diversidad transitoria
Otra sugerencia es que se podría coordinar la exploración en una comunidad a través de las opciones de las agencias que otorgan subvenciones. Si el dinero fluye directamente hacia quienes exploran una variedad de hipótesis, los organismos centralizados pueden ejercer cierto control sobre la diversidad transitoria de todo el grupo. Kummerfeld y Zollman (2020) utilizan modelos y sostienen que ésta es una forma de eludir los incentivos para que los científicos se centren en las teorías actuales más prometedoras. Wu y O'Connor (2023) revisan modelos de redes para considerar esta propuesta en profundidad y argumentan que es una de las formas más eficientes y éticas de promover la diversidad transitoria de la práctica científica (ver también Goldman [1999] y Viola [2015] ]). Volvemos a esto en la Sección 7.
4.2.4 Diversidad demográfica en la ciencia
Algunos modelos de redes consideran cómo las estructuras de comunicación impactan a subgrupos específicos, así como a toda una comunidad. Wu (2023b), por ejemplo, considera los efectos de red que surgen cuando los miembros de un grupo dominante ignoran o devalúan sistemáticamente las contribuciones epistémicas de los miembros de otro grupo. Este tipo de “injusticia epistémica” podría ser el resultado de discriminación racial o de género, prejuicios culturales o porque los economistas ignoran las otras ciencias sociales. Wu encuentra que esta devaluación tiene sorprendentes beneficios epistémicos para el grupo marginado. Tienden a aprender creencias correctas con más frecuencia y más rápido. Esto ocurre en parte porque reciben más información pero, más importante aún, porque el grupo dominante recibe menos. Como resultado, el grupo dominante dedica más tiempo a probar teorías menos prometedoras y a generar una diversidad transitoria de prácticas de las que el grupo devaluado puede aprender. Sostiene que escuchar las ideas de grupos tradicionalmente oprimidos en la ciencia puede ser valioso por esta razón.
Fazelpour y Steel (2022) consideran una situación más simétrica en la que dos grupos desconfían mutuamente. Encuentran, una vez más, que este tipo de desconfianza puede retardar el aprendizaje y, sorprendentemente, mejorar los resultados de la comunidad como resultado. Toman este resultado para apoyar la diversidad demográfica en la ciencia. La idea es que si hay más subgrupos en la comunidad, será menos probable que se decidan preventivamente por una teoría subóptima. Esto se relaciona con los argumentos de que la diversidad puede mejorar la deliberación al aumentar el escepticismo y la resistencia a argumentos deficientes (ver, por ejemplo, Sommers [2006]). Este conjunto de resultados sugiere que promover la diversidad demográfica puede mejorar la diversidad transitoria de la práctica. Este mecanismo particular para la diversidad de prácticas conlleva pocos riesgos negativos obvios, está respaldado por otro tipo de argumentos y podría decirse que es un bien ético. Por esta razón, Wu y O’Connor (2023) sostienen que, junto con la concesión de subvenciones, esta es otra forma prometedora de promover la diversidad transitoria en la ciencia.
4.3 Daños de la diversidad transitoria en la ciencia
Como se señaló, si bien la diversidad transitoria de creencias puede ser beneficiosa en la ciencia, demasiada diversidad de creencias es problemática. Con el tiempo, los científicos deberían abandonar las teorías subóptimas y adherirse a las que han demostrado ser más exitosas. Cuando los científicos dedican demasiado tiempo a una teoría deficiente, normalmente pensamos en ello como un fracaso epistémico. Varios modelos de redes han ilustrado el tipo de cosas que pueden salir mal cuando las comunidades exploran teorías durante demasiado tiempo, y qué puede conducir a esos fracasos.
4.3.1 Polarización científica
Un resultado de demasiada diversidad en la práctica científica es la polarización científica, donde una comunidad entra en un estado de desacuerdo persistente sobre cuestiones de hecho, a pesar de la presencia de evidencia que podría resolver el asunto. Se podría pensar ingenuamente que es poco probable que se produzca polarización en las comunidades científicas. Los científicos comparten evidencia y la utilizan para formar sus creencias.
¿Cómo, entonces, se quedarían atrapados en bandos opuestos? O’Connor y Weatherall (2018) sostienen que esto es, en realidad, relativamente común y describen un estudio de caso. Los investigadores que analizan la enfermedad de Lyme crónica están fuertemente polarizados y desconfían mucho de los del otro campo, a pesar de intereses aparentemente alineados en aprender sobre Lyme y tratar a los pacientes. Como se señaló, la terquedad puede aumentar beneficiosamente la diversidad transitoria, pero también puede conducir a la polarización en los modelos de red. Tanto en Zollman (2010) como en Gabriel y O’Connor (2023), los altos niveles de terquedad (o sesgo de confirmación) conducen a la polarización comunitaria. Cuando esto sucede, un número significativo de agentes nunca adoptan buenas creencias. Por lo tanto, las tendencias que son beneficiosas en el nivel adecuado pueden volverse perjudiciales cuando se llevan demasiado lejos.
Varios otros modelos de redes han investigado la posibilidad de polarización entre agentes científicos. Los seres humanos suelen ser más propensos a confiar en fuentes que comparten sus creencias e identidades. O’Connor y Weatherall (2018) consideran modelos de red en los que los agentes se actualizan con más fuerza sobre la evidencia de aquellos con creencias similares. En este modelo se pueden formar dos subgrupos, cada uno de los cuales apoya una teoría. Dado que cada grupo sólo confía en la información de sus propios compañeros en este subgrupo, aquellos con creencias falsas nunca aprenden cuál es la mejor opción. En los modelos de desconfianza grupal de Wu (2023b), descritos anteriormente, la polarización también puede surgir cuando un grupo ignora por completo la evidencia del otro.
Weatherall y O’Connor (2021a) encuentran que la conformidad también puede conducir a la polarización en los modelos de red (ver también Fazelpour y Rubin [2022]). Los agentes conformistas prefieren elegir la acción que consideran más prometedora, pero también prefieren hacer coincidir sus acciones con las de los vecinos de la red. Cuando esta preferencia es lo suficientemente fuerte, se pueden formar camarillas de actores, cada uno de los cuales prefiere teorías diferentes. Además, varios modelos de redes encuentran que la conformidad en general perjudica el aprendizaje social porque lleva a los actores a ignorar la buena información y a no transmitir sus conocimientos a otros en un grupo (Mohseni y Williams, 2021; Weatherall y O'Connor , 2021a; Fazelpour y Rubin, 2022; Fazelpour y Steel, 2022).
Esta literatura sugiere que la diversidad transitoria puede llegar demasiado lejos. Otra conclusión es que existen múltiples mecanismos por los cuales podría surgir la polarización científica, todos los cuales son al menos algo
psicológicamente realistas. Si los científicos no confían en quienes tienen creencias diferentes, si ellos (como el resto de nosotros) desean conformarse con sus pares, si se involucran en un sesgo de confirmación, si son irracionalmente tercos o si hacen alguna combinación de estas cosas, ellos también podrían caer en campos polarizados. Y cuando esto sucede, algunos científicos persistentemente no logran desarrollar creencias verdaderas.
4.3.2 Industria, formuladores de políticas y redes
Hasta este punto, hemos considerado modelos de red donde todos los actores tienen motivos epistémicos. Quieren descubrir la verdad y utilizar pruebas para hacerlo. Sin embargo, en muchos casos los científicos también se comunican con agentes que tienen motivos menos puros. A veces, por ejemplo, agentes con motivos industriales o políticos participarán en un disenso epistémicamente perjudicial, o un disenso puramente destinado a confundir la creencia pública (Oreskes y Conway, 2011; de Melo-Martín e Intemann, 2018). Al hacerlo, pueden crear una diversidad de prácticas que son estrictamente perjudiciales. Holman y Bruner (2015) consideran lo que sucede cuando un agente de la industria intenta influir en el consenso en una comunidad científica. En su modelo, un agente comparte persistentemente datos que empujan hacia una creencia inexacta. Esto podría representar, por ejemplo, a un científico financiado por el tabaco que comparte estudios fraudulentos que no encuentran ningún vínculo entre el tabaco y el cáncer. Muestran que en este tipo de casos, estos resultados engañosos pueden impedir que las redes de científicos confiados alcancen un consenso preciso. Weatherall et al. (2020) consideran las interacciones entre la ciencia, la industria y los responsables de la formulación de políticas. En su modelo, un actor de la industria selecciona deliberadamente evidencia de la comunidad científica para compartirla con los formuladores de políticas. Como muestran, incluso se puede utilizar evidencia real e imparcial para confundir a los formuladores de políticas. Exploran las condiciones que hacen que estos procesos sean más fáciles o más difíciles. Cada vez que hay más probabilidades de que los estudios estén equivocados, hay más pasto para los propagandistas. Sobre la base de este razonamiento, abogan por estándares de alta calidad en la ciencia, como exigir tamaños de muestra grandes.
Lewandowsky et al. (2019) desarrollan un modelo similar, pero en algunos aspectos más realista, de negacionismo del cambio climático. Consideran tres redes interconectadas de (1) científicos, (2) negacionistas de la industria y (3) el público. Los agentes observan datos reales de temperatura global y actualizan sus creencias sobre si el planeta se está calentando en base a ellos. Los negacionistas en su modelo pueden compartir tendencias breves, no representativas y estimulantes (cool) con el público en apoyo de la posición falsa, confundiendo así la creencia pública. En conjunto, estos tres modelos sugieren que los intentos de controlar el intercambio de información por parte de agentes motivados pueden ser efectivos. Al hacerlo, respaldan afirmaciones cualitativas sobre la eficacia de las estrategias de la industria para promover la disidencia perjudicial.
Wu (2023a) utiliza modelos de redes para plantear otra pregunta sobre la investigación industrial: ¿Pueden los científicos industriales obtener una ventaja al no adherirse a la norma comunista (en sentido mertoniano)? Si bien los científicos académicos comparten su trabajo libremente, la mayor parte de la investigación industrial es privada. En sus modelos, un grupo puede recibir toda la evidencia producida en la red pero no comparte su propia evidencia.
Ella encuentra que este grupo aprende con mayor rapidez y precisión. Si los investigadores académicos dedican más tiempo a explorar opciones posiblemente subóptimas, los investigadores industriales pueden aprender de su exploración y al mismo tiempo explotar el conocimiento actual para su propio beneficio. Ésta es una posibilidad poco explorada sobre cómo la industria podría explotar la ciencia en su beneficio. Sobre la base de esta investigación, Wu y O'Connor (2023) sugieren que se deberían implementar requisitos para compartir la industria.
4.4 Formación de redes científicas
Hemos visto cómo las estructuras de las redes científicas impactan de manera crucial en el aprendizaje grupal. Una pregunta natural es: ¿Cómo se forman las redes científicas? Y dados los principios de la formación de redes científicas, ¿qué tipo de estructuras sociales ocurren naturalmente en las comunidades científicas?
4.4.1 Adjunto preferencial
Barabâsi et al. (2002), en un artículo influyente, intentan responder a esta pregunta para las redes de coautoría donde cada vínculo representa una asociación de colaboración entre científicos. Comienzan con datos empíricos sobre redes de colaboración, que revelan ciertas estructuras características. En primer lugar, como la mayoría de las redes humanas, las redes de colaboración son “mundos pequeños”, es decir, tienen camarillas y caminos de corta duración entre individuos. En segundo lugar, las redes de colaboración siguen algo así como una ley de potencia, lo que significa que un pequeño número de científicos tiene un gran número de colaboradores, mientras que la mayoría tiene sólo unos pocos colaboradores. Barabasi et al. argumentan que este patrón surge como resultado del apego preferencial, lo que significa que los nuevos individuos en una disciplina tienen más probabilidades de colaborar con científicos que ya tienen más vínculos de colaboración. Utilizan sus resultados para desarrollar un modelo de vínculo preferencial para la formación de redes de colaboración y muestran cómo puede replicar los datos del mundo real.
Anderson (2016) analiza una explicación de por qué las redes de colaboración científica podrían mostrar patrones de apego preferenciales. Está interesada en cómo las habilidades y propiedades particulares de los científicos individuales podrían afectar las opciones de colaboración. En sus modelos, los científicos tienen diferentes conjuntos de habilidades y buscan otros con habilidades complementarias para colaborar. Ella muestra cómo las diferencias en habilidades pueden conducir a diferencias sorprendentemente marcadas en conectividad, donde individuos raros con combinaciones de habilidades útiles tienen un gran número de socios colaboradores.
En este panorama, el apego preferencial en la ciencia juega en realidad un papel funcional. (Aunque las explicaciones alternativas podrían resultar atractivas para las personalidades de algunos coautores, o su popularidad, lo que significa que el apego preferencial podría no surgir por ninguna razón obviamente epistémica).
4.4.2 Homofilia
Las redes sociales generalmente son sensibles a la identidad social. Por ejemplo, la mayoría de las redes sociales son homófilas en varios sentidos, lo que significa que las personas prefieren amigos, contactos y parejas que sean como ellos. ¿Cómo impacta la identidad en las redes de colaboración y comunicación en la ciencia? ¿Y qué impactos tiene esto en la equidad, la concesión de créditos y el progreso científico? Rubin y O’Connor (2018) utilizan modelos de redes para considerar si tales patrones podrían surgir como resultado de la discriminación en la negociación colaborativa. Si las mujeres o los académicos de color reciben menos crédito por trabajo realizado cuando colaboran con hombres o académicos blancos, pueden aprender a evitar dichas colaboraciones. En sus modelos, muestran que si surgen patrones injustos de colaboración, aquellos que están en desventaja tienden a evitar a los discriminadores. Esto conduce a redes homófilas donde los académicos marginados colaboran con aquellos de sus grupos internos con más frecuencia.
Schneider et al. (2022) consideran cómo revertir esta tendencia. Sostienen que, en algunos casos, la diversidad en grupos colaborativos tiene beneficios y que estos beneficios pueden perderse en redes científicas homófilas. Como señalan, los incentivos especiales pueden promover diversas colaboraciones pero, al hacerlo, pueden dar lugar a casos de discriminación al poner en contacto a diversos grupos.
• • •
Al pensar en cómo dar forma a las comunidades científicas, la estructura de comunicación es una característica clave, como hemos visto. En particular, los modelos ayudan a iluminar fenómenos emergentes a gran escala que surgen en las redes como resultado de patrones de comunicación, especialmente aquellos que rodean la diversidad de prácticas. La siguiente sección mantendrá este enfoque en los fenómenos emergentes en los grupos científicos, al tiempo que considerará más a fondo cómo los científicos seleccionan los problemas de investigación.
5 Paisajes epistémicos
Nicolas acaba de comenzar su primer trabajo docente. Está considerando en qué tipo de áreas de investigación avanzar mientras concluye su trabajo de tesis. En general es alguien a quien no le gusta seguir las tendencias. Sus amigos lo describen como un pensador innovador. Termina desarrollando un proyecto de investigación sobre la automutilación relacionada con el estrés en las relaciones: un tema que algunos de sus colegas encuentran extraño o desagradable pero que sin duda es algo que pocos se han molestado en investigar todavía. Liam también está organizando un programa de investigación en su primer trabajo docente. Aunque creativo y meticuloso, se inclina menos que Nicolas hacia proyectos de investigación arriesgados. Decide ampliar el trabajo de su asesor graduado, que estudia patrones políticos relacionados con el marxismo. Inicia un proyecto sobre los impactos del pensamiento marxista en la financiación de la ciencia.
• • •
Antes de que los científicos realicen experimentos, construyan modelos, comuniquen su trabajo o saquen inferencias, deben decidir en qué temas trabajar. Este proceso de decisión involucra muchos factores: su experiencia, la distribución del trabajo que se realiza actualmente en la comunidad, la financiación disponible, la disponibilidad de diversos recursos (máquinas FMRI, grupos de sujetos experimentales, telescopios costosos, colisionadores de hadrones, etc.), y también la intereses individuales y personalidades de los científicos involucrados. Ya hemos visto una serie de modelos que analizan cómo los científicos eligen temas de investigación. Los modelos de economía crediticia de la división del trabajo consideran cómo los incentivos prioritarios empujan a los científicos a elegir temas de estudio en función de su promesa y la distribución del trabajo en la comunidad. Los modelos selectivos consideran cómo los sesgos autopreferenciales podrían promover el estudio de temas o paradigmas actualmente populares. Los modelos de redes muestran cómo las estructuras de comunicación podrían cambiar las creencias de los científicos sobre diversos enfoques y, por tanto, moldear sus decisiones de investigación.
En esta sección, consideramos otro modelo de elección de problemas en ciencia: el modelo del paisaje epistémico. En este tipo de modelo, los científicos se mueven en un paisaje donde las ubicaciones representan diferentes problemas o enfoques científicos que pueden tener más o menos mérito epistémico. Como veremos, es un paradigma que nos permite considerar la forma en que las personalidades individuales y los rasgos interpersonales pueden moldear las decisiones de investigación. Hasta este punto, los paradigmas de modelización que hemos considerado tratan a los científicos como un grupo uniforme: maximizan las expectativas crediticias de manera similar, responden a presiones selectivas de manera similar o se comunican de manera similar. Los modelos de paisaje epistémico, por otra parte, se centran mucho más en la relevancia del estilo cognitivo individual para la elección de problemas. Además, como quedará claro, en comparación con los modelos discutidos hasta ahora, los modelos de paisaje epistémico se centran más en cómo los científicos podrían explorar nuevas posibilidades de investigación no probadas (en lugar de dividir su tiempo entre las actuales).
5.1 Exploración y paisajes epistémicos
Como se analiza a lo largo de este Elemento, la diversidad de diversos tipos puede afectar el funcionamiento de las comunidades científicas. Weisberg y Muldoon (2009) introdujeron un modelo de paisaje epistémico para pensar cómo la diversidad cognitiva, es decir, la diversidad en las preferencias y personalidades de los científicos, podría afectar la división del trabajo. Su modelo implica un paisaje bidimensional con varios picos. , incluido un máximo global. La Figura 2 muestra un ejemplo de cómo podría verse dicho paisaje. Se considera que diferentes lugares de este paisaje representan “enfoques” en ciencia. Weisberg y Muldoon consideran que los enfoques incluyen una pregunta de investigación, instrumentos y técnicas utilizados en la recopilación de datos, métodos de análisis de datos y teorías subyacentes utilizadas para interpretar los datos (228). Ubicaciones similares en el espacio representan enfoques similares. Señalan que, dadas las complejidades de los enfoques de investigación del mundo real, los paisajes más realistas serían altamente multidimensionales, aunque se centran sólo en dos por razones de simplicidad.
La altura del paisaje en cada lugar representa algo así como la calidad epistémica del enfoque: la capacidad de ese enfoque para contribuir a la generación de conocimiento. Weisberg y Muldoon suponen que los cambios de significación son suaves, es decir, que enfoques similares tienden a producir niveles similares de éxito epistémico. Los agentes en el modelo representan a científicos que buscan ideas en este espacio. Un agente ubicado en un parche está empleando actualmente ese enfoque. Las prácticas de búsqueda pueden variar en función de características personales, características del paisaje o en respuesta a lo que otros en la comunidad están haciendo.
Como se señaló, Weisberg y Muldoon desarrollan el modelo para investigar cómo la diversidad cognitiva entre académicos (diferentes preferencias, orígenes, estilos, etc.) podría promover la división del trabajo. Obsérvese que aquí la división del trabajo no es sólo un problema de elegir entre problemas existentes y bien entendidos que resolver (como ocurre con los modelos de economía crediticia), sino también un problema de búsqueda de temas de investigación nuevos e importantes. Sostienen que una combinación de diferentes tipos de académicos –“inconformistas” a quienes les gusta trabajar en enfoques nuevos e inusuales y “seguidores” a quienes les gusta repetir los enfoques de otros— exploran el panorama mejor que un grupo uniforme. Su trabajo ha sido criticado de manera convincente por no mostrar este resultado (Alexander et al., 2015; Thoma, 2015; Pöyhönen, 2017; Pinto y Pinto, 2018). En realidad, los grupos uniformes de inconformistas obtienen mejores resultados en su modelo, ya que logran explorar el espacio con mayor éxito. Pero su investigación sentó las bases para otros modelos que sí respalden este hallazgo. Thoma (2015) muestra precisamente esto. Ella analiza modelos de paisaje epistémico donde los académicos pueden utilizar estrategias de búsqueda de tipo “explorador” y “extractor” (similares a los inconformistas y seguidores). Sus exploradores prefieren hacer un trabajo muy diferente al de otros agentes, como Nicolas. Sus extractores prefieren trabajos similares a otros agentes pero aún novedosos, como Liam.
Ambos tipos de científicos también prefieren realizar investigaciones de mayor importancia e incorporar esta preferencia en su búsqueda. Además, asume que el “movimiento” en sus paisajes es semilocal. Los científicos se ven limitados por su capacitación, equipo y conocimiento a trasladarse a zonas demasiado distantes. Thoma encuentra que las comunidades hacen mejor si tienen alguna combinación de exploradores y extractores. Los exploradores trazan nuevas áreas de importancia, mientras que los extractores los siguen hasta esas áreas e investigan todo el espacio.
Pöyhönen (2017) respalda aún más esta afirmación en una variante del modelo de paisaje epistémico donde la importancia de un enfoque se “agota” a medida que los agentes lo visitan. La idea es que cada enfoque producirá una serie de hallazgos importantes, y el objetivo es que varios agentes empleen ese enfoque el tiempo suficiente para producirlos. Considera un tipo diferente de diversidad cognitiva, representada por reglas diferentes para el aprendizaje social. Los agentes prefieren escalar colinas en el paisaje, pero potencialmente se reorientarán si observan a sus pares que adoptan mejores enfoques. Los agentes difieren en cuán similar debe ser el enfoque del par y en cuánto mejor antes de imitarlo. Encuentra que en paisajes con muchos “callejones sin salida”, es decir, máximos pequeños y locales, una diversidad de estrategias de aprendizaje funciona mejor. Los individualistas exploran sus propias áreas del paisaje sin que todos se acerquen a los mismos problemas. Pero el aprendizaje social permite a los agentes escapar eventualmente de los máximos locales y encontrar áreas de mayor importancia.
En la última sección vimos cómo grupos desconectados pueden desempeñarse bien en la ciencia a fuerza de preservar una diversidad transitoria de prácticas. Grim et al. (2013) consideran un modelo de paisaje epistémico donde el espacio del problema puede variar en dificultad. Algunos espacios son suaves, con sólo unos pocos (o incluso solo uno) pico, mientras que otros son más accidentados y con múltiples picos. En estos últimos casos, la búsqueda es más difícil. Consideran la cuestión de cómo las estructuras de comunicación impactan la búsqueda, suponiendo que los científicos están situados tanto en el paisaje como en una red epistémica. Luego, los agentes pueden moverse por el paisaje copiando a aquellos con quienes se comunican. Reflejando los resultados sobre la diversidad de prácticas descritos en la Sección 4, encuentran que los grupos menos conectados son mejores para encontrar picos globales. Añadiendo solidez a todos estos hallazgos, Devezer et al. (2019) consideran un grupo de científicos que buscan en un espacio de modelos posibles el mejor ajuste a los datos que recopilan. Los grupos de científicos que emplean diferentes estrategias de búsqueda tienden a superar a los grupos uniformes (aunque los científicos exploratorios también prefieren realizar investigaciones de mayor importancia e incorporar esta preferencia en su búsqueda). Además, asume que el “movimiento” en sus paisajes es semilocal. Los científicos se ven limitados por su capacitación, equipo y conocimientos a no trasladarse a zonas demasiado distantes. Devezer encuentra que las comunidades hacen mejor si tienen alguna combinación de exploradores y extractores. Los exploradores trazan nuevas áreas de importancia, mientras los extractores los siguen a estas áreas e investigan todo el espacio.
Pöyhönen (2017) respalda aún más esta afirmación en una variante del modelo de paisaje epistémico donde la importancia de un enfoque se “agota” a medida que los agentes lo visitan. La idea es que cada enfoque producirá una serie de hallazgos importantes, y el objetivo es que varios agentes empleen ese enfoque el tiempo suficiente para producirlos. Pöyhönen considera un tipo diferente de diversidad cognitiva, representada por reglas diferentes para el aprendizaje social. Los agentes prefieren escalar colinas en el paisaje, pero potencialmente se reorientarán si observan a sus pares que adoptan mejores enfoques. Los agentes difieren en cuán similar debe ser el enfoque del par y en cuánto mejor antes de imitarlo. Pöyhönen encuentra que en paisajes con muchos “callejones sin salida”, es decir, máximos pequeños y locales, una diversidad de estrategias de aprendizaje funciona mejor. Los individualistas exploran sus propias áreas del paisaje sin que todos se acerquen a los mismos problemas. Pero el aprendizaje social permite a los agentes escapar eventualmente de los máximos locales y encontrar áreas de mayor importancia.
En la última sección vimos cómo grupos desconectados pueden desempeñarse bien en la ciencia a fuerza de preservar una diversidad transitoria de prácticas. Grim et al. (2013) consideran un modelo de paisaje epistémico donde el espacio del problema puede variar en dificultad. Algunos espacios son suaves, con sólo unos pocos (o incluso solo uno) pico, mientras que otros son más accidentados y con múltiples picos. En estos últimos casos, la búsqueda es más difícil. Consideran la cuestión de cómo las estructuras de comunicación impactan la búsqueda, suponiendo que los científicos están situados tanto en el paisaje como en una red epistémica. Luego, los agentes pueden moverse por el paisaje copiando a aquellos con quienes se comunican. Como reflejo de los resultados sobre la diversidad de prácticas descritos en la Sección 4, encuentran que los grupos menos conectados son mejores para encontrar picos globales.
Añadiendo solidez a todos estos hallazgos, Devezer et al. (2019) consideran un grupo de científicos que buscan en un espacio de modelos posibles el mejor ajuste a los datos que recopilan. Los grupos de científicos que emplean diferentes estrategias de búsqueda tienden a superar a los grupos uniformes (aunque los científicos exploratorios que buscan modelos muy diferentes del actual parecen ser los más importantes para el éxito del grupo, lo que refleja la importancia de los inconformistas en Weisberg y Muldoon [2009]).
En crítica de estos hallazgos que apoyan la diversidad cognitiva en la ciencia, Alexander et al. (2015) señalan que existen estrategias de búsqueda que son uniformes pero que funcionan muy bien en paisajes epistémicos. Uno de ellos es un "enjambre" donde bandadas de agentes responden tanto a la altura del paisaje como al éxito de los agentes cercanos. La sugerencia es que una estrategia de búsqueda especialmente buena puede encontrar significado epistémico sin necesidad de diferentes tipos de agentes. Pero puede ser que en comunidades epistémicas reales las estrategias de “enjambre” no sean particularmente realistas de emplear y, por lo tanto, aún puede valer la pena explorar las interacciones de diferentes personalidades científicas en la elección de problemas.
5.1.1 Loterías
Dado que los modelos de paisaje epistémico nos permiten representar la exploración de un amplio espacio de problemas en la ciencia, podríamos usarlos para preguntar: ¿Qué estrategias de financiación tienen éxito en la ciencia? Y, en particular, ¿qué estrategias de financiación promueven la cantidad adecuada de exploración en un paisaje epistémico?
Avin (2015, 2019) utiliza modelos de paisaje epistémico para abordar estas preguntas. Como se analizó en la Sección 4, los temas que se exploran en una comunidad científica suelen decidirse por los intereses de los científicos individuales y también por las decisiones de los organismos de financiación. En su modelo, los agentes reciben financiación de una agencia central para investigar una zona del paisaje durante un período de tiempo determinado.
Los agentes sin financiación ingresan a un grupo donde no exploran el paisaje sino que buscan una nueva subvención para investigar el parche más alto en su vecindad local. Además, los nuevos investigadores buscan financiación para explorar nuevas áreas de investigación elegidas al azar. Los financiadores pueden estimar la calidad epistémica de los enfoques que se aproximan a los ya explorados (y, por tanto, de los que hay información sobre proyectos similares), pero no de áreas nuevas. A partir de una variedad de supuestos diferentes, Avin descubre que cierta aleatoriedad en el proceso de financiación mejora significativamente la exploración comunitaria. En particular, una estrategia de financiación que elige algunos de los proyectos más prometedores y algunos proyectos aleatorios funciona muy bien. Esto se debe a que la financiación aleatoria promueve la exploración beneficiosa, de forma muy parecida a como lo hace la presencia de tipos de individuos exploratorios. De este modo, la financiación puede replicar los impactos de las estrategias de exploración y explotación utilizadas por científicos individuales. Basándose en esta investigación, Avin aboga por la financiación de la lotería en la ciencia. Harnagel (2019) construye un modelo más realista para probar esta idea. Utiliza datos de citas para construir su panorama epistémico. Las subdisciplinas (como la “ciencia de cultivos”) son nodos ubicados dentro de una red que rastrea la similitud de referencias.
La altura en esta red rastrea el recuento de citas. Sus agentes no se mueven en este paisaje, pero por lo demás su dinámica es similar a la de Avin: los nuevos investigadores y los que no tienen financiación solicitan subvenciones y realizan investigaciones en su ubicación. Sus resultados, al igual que los de Avin, sugieren que la aleatoriedad introducida por la financiación de la lotería mejora el rendimiento de la comunidad.
La sugerencia en la Sección 4 fue que la financiación mediante subvenciones podría utilizarse para promover deliberadamente la diversidad de la práctica científica. La sugerencia aquí es que la aleatoriedad en la financiación de subvenciones podría provocar lo mismo. Nótese, sin embargo, que aquí el foco está más en cómo los científicos encuentran nuevos temas para la exploración, que en cómo deberían dividir el tiempo entre diferentes teorías en competencia.
5.1.2 Interpretación de paisajes epistémicos
Aunque no he entrado en muchos detalles, estos diferentes usos del modelo de paisaje epistémico no están de acuerdo sobre cuál es la mejor manera de interpretarlo. ¿Debería cada enfoque representar un problema detallado en el que solo un científico pueda trabajar (Thoma, 2015) o un tema más general que varios científicos puedan abordar (Weisberg y Muldoon, 2009; Pöyhönen, 2017)? ¿El objetivo de una comunidad es descubrir el área de máxima importancia (Weisberg y Muldoon, 2009; Grim et al., 2013), descubrir todas las áreas importantes (Weisberg y Muldoon, 2009; Thoma, 2015), o ¿minar Diferentes áreas para los hallazgos en función de sus niveles de significancia (Pöyhönen, 2017; Avin, 2019)? ¿Deberían los científicos poder moverse solo localmente (Weisberg y Muldoon, 2009; Avin, 2019), semilocalmente (Thoma, 2015), o con distintos niveles de flexibilidad (Pöyhönen, 2017) o ampliamente a través del paisaje (Grim et al., 2013)? )? ¿El paisaje mantiene su forma (Weisberg y Muldoon, 2009) o cambia a medida que se investiga (Pöyhönen, 2017; Avin, 2019)?
Una preocupación acerca de este tipo de modelo es que este desacuerdo refleja una falta de claridad sobre qué se está modelando exactamente y cómo. Si bien los modelos a menudo se emplean de manera flexible en diferentes ámbitos, en este caso los modelos se aplican al mismo ámbito pero sin desacuerdo sobre a qué corresponden los elementos. Por esta razón, tiene sentido tratar los hallazgos de esta literatura con especial atención, prestando especial atención a las estructuras e interpretaciones del modelo particular.
Otra preocupación, planteada por Alexander et al. (2015) y Bedessem (2019), es que el enfoque del paisaje bidimensional no logra capturar las complejidades e interdependencias de la mayoría de los espacios de teoría científica. Por ejemplo, a veces múltiples aspectos de un enfoque pueden ser sinérgicos de maneras sorprendentes. También es una preocupación para Harnagel (2019) quien, como se señaló, la aborda utilizando datos empíricos para dar forma a su modelo de paisaje de modo que un pequeño movimiento en una dimensión podría provocar grandes cambios en la calidad general del enfoque. A veces, los enfoques tienen beneficios sorprendentes para futuras investigaciones que inicialmente no son obvios. Por estas razones, paisajes más complejos podrían proporcionar mejores modelos de algunas disciplinas científicas.
5.2 Paisajes epistémicos accidentados
¿Cómo podríamos representar el espacio de la teoría científica con un panorama más complejo? Alejandro y col. (2015) sostienen que, en particular, faltan dos cosas en los modelos de paisaje epistémico:
(1) el hecho de que a menudo es difícil dejar “óptimos locales” en la ciencia, y
(2) a menudo existen interdependencias complejas entre aspectos de un enfoque (como se señaló anteriormente).
Por esta razón, sugieren que los modeladores deberían representar la ciencia con modelos de paisaje NK. Como se señaló en la Sección 4, los paisajes de NK son similares a los bidimensionales en que tienen ubicaciones cada una de las cuales está asociada con algún valor, donde el objetivo generalmente es encontrar áreas de mayor valor. Sus características clave son que son altamente multidimensionales y “afinablemente resistentes”. Al variar los parámetros, se puede moldear la cantidad de interdependencia entre diferentes dimensiones del paisaje y crear características suaves o rugosas. La Figura 3 muestra tres esquemas destinados a demostrar la diferencia entre paisajes NK más suaves y más accidentados. Es importante destacar que los paisajes accidentados tienen muchos óptimos locales de los que es difícil escapar. Podemos pensar que esto corresponde a problemas en los que el éxito local puede llevar a los investigadores por un camino que luego tiende a cortar el acceso a enfoques aún mejores.
Alexander et al. (2015) utilizan estos modelos para argumentar que todo el programa de investigación descrito anteriormente –en el que la influencia social entre agentes es una parte importante de la elección de problemas en ciencia– depende del supuesto de que el panorama epistémico es algo fluido. Si es así, los agentes pueden encontrar áreas de importancia observando a sus pares. Los extractores pueden seguir a los explotadores hacia temas nuevos e interesantes. Sin embargo, si el panorama es demasiado accidentado, este aprendizaje social no será útil porque el éxito de un compañero no lleva al agente a temas cercanos que valgan la pena. Sin embargo, en la mayoría de las disciplinas científicas, se puede decir que el panorama epistémico es lo suficientemente “fluido” como para que la información social sobre la elección de problemas sea relevante y útil. Sin embargo, los modelos paisajísticos de NK no sólo se han utilizado para proyectos escépticos.
Algunos trabajos sobre estos paisajes respaldan aún más la afirmación principal anterior: que la diversidad es crucial para la exploración científica. En la Sección 4, discutimos el trabajo de Lazer y Friedman (2007) y Fang et al. (2010). Implementan modelos en los que agentes en red exploran paisajes de NK y descubren que los grupos menos conectados tienden a tener más éxito. Asimismo, Boroomand y Smaldino (2021) y Wu (de próxima publicación) encuentran que la aleatoriedad en las estrategias de búsqueda en paisajes de NK puede mejorar los resultados del grupo, al permitir que los actores escapen de los óptimos locales. Todos estos modelos analizan mecanismos que introducen variedad en las estrategias exploratorias que emplean los agentes y muestran que esta variedad ayuda a la exploración. Téngase en cuenta, sin embargo, que estos artículos interpretan los paisajes de NK de una manera diferente. El paisaje representa un problema único y complejo que un grupo intenta resolver (en lugar de lugares que representan diferentes opciones de problemas en ciencia). Por esta razón, podría decirse que sus resultados son más pertinentes para pensar en la diversidad transitoria entre teorías en competencia en el mismo dominio. Sin embargo, también podrían reinterpretarse para sugerir demasiada influencia social. Véase también Barkoczi y Galesic (2016) y Yahosseini y Moussaïd (2020) entre diferentes grupos de investigación podrían llevar a centrarse en los mismos temas, en lugar de explorar otros nuevos.
5.3 La diversidad triunfa sobre la capacidad
Hay otras formas de modelo de paisaje que se han utilizado para defender el caso de la diversidad cognitiva. Hong y Page (2004), en un trabajo muy influyente, consideran un modelo de paisaje epistémico altamente simplificado: un anillo donde cada ubicación está asociada con un valor epistémico aleatorio. Cada agente consta de una lista de pequeños números enteros que representan sus "heurísticas" de búsqueda. Un individuo con la lista <4,7,12>, por ejemplo, puede ver las ubicaciones 4, 7 y 12 pasos delante de su lugar actual. Viajan por el anillo, utilizando estas heurísticas, y avanzan siempre que pueden acceder a una posición de mejor calidad. Los agentes se detienen cuando no hay ninguna opción visible que mejore su ubicación actual.
Después de generar aleatoriamente un conjunto de agentes, Hong y Page prueban su éxito promedio en todas las posiciones iniciales posibles. Esto produce una métrica de éxito para los individuos y genera un grupo de “expertos”: aquellos individuos que obtienen mejores resultados en promedio. Su hallazgo central implica comparar el éxito de grupos de expertos con el de grupos más "diversos". (Un grupo resuelve el problema utilizando sus heurísticas en secuencia hasta que no pueden mejorar su posición). Encuentran que, en promedio, a los grupos diversos les va mejor porque los expertos tendían a tener mucha superposición en sus heurísticas. (Por ejemplo, 3 podría ser una heurística importante en un paisaje particular, y todos los expertos podrían tener 3). Esto significa que los grupos de expertos tienden a tener menos formas de explorar el espacio que los grupos diversos. Sus hallazgos se han utilizado ampliamente para defender los beneficios de la diversidad, e incluso la importancia de la democracia (Landemore, 2012). Ha habido más desarrollos de este modelo y debates sobre su aplicabilidad. Una preocupación general es que este modelo y sus reglas de búsqueda son incluso más simples que los discutidos hasta ahora. Por esta razón, podría decirse que no tiene suficiente estructura para representar los factores relevantes para determinar cómo la diversidad es importante para el aprendizaje grupal. No analizamos esta literatura en profundidad aquí. Sin embargo, vale la pena señalar que estos modelos generalmente se consideran para respaldar aún más la idea de que la diversidad cognitiva, es decir, la diversidad en el enfoque de los problemas, es importante en los grupos epistémicos.
• • •
Hasta este punto en el Elemento, hemos visto muchas variaciones sobre un tema relacionado con la promoción de la diversidad de la práctica en la ciencia. Los modelos de paisaje abordan las mejores formas de explorar nuevos temas de investigación y cómo dividir el trabajo entre este tipo de exploración y el trabajo en profundidad de explorar enfoques conocidos. Los mecanismos considerados apelan principalmente a la diversidad cognitiva (pero también a reglas de financiación y reglas para el aprendizaje social). Si bien la conclusión general de este grupo de modelos sobre la importancia de la diversidad cognitiva probablemente sea correcta, hemos visto que existen algunas preocupaciones sobre la adecuación representacional de estos modelos para respaldar esta afirmación. En la siguiente sección, nos alejamos del enfoque en la elección del problema para observar la crisis de replicación, la práctica metodológica y las intervenciones destinadas a mejorar la investigación.
6 La crisis de replicación y la reforma metodológica
Tres casos supuestos:
Como estudiante de posgrado, Firenze aprendió de su asesor que cuando su hipótesis original no estaba respaldada por los datos, el siguiente paso era analizar los datos en busca de hallazgos alternativos. Examinaría cada factor demográfico en la población de su estudio para ver si su hipótesis se cumpliría en algún subgrupo. Buscaría explicaciones alternativas para sus datos. Después de encontrar inevitablemente algo, Firenze escribía un artículo dando a entender que la hipótesis original en realidad coincidía con el hallazgo post hoc. Firenze no vio nada malo en esto; después de todo, sus hallazgos estaban, de hecho, respaldados por sus conjuntos de datos y no estaba cometiendo fraude. Al convertirse él mismo en investigador privado, Firenze capacitó a sus alumnos para que hicieran lo mismo.
Isobel fue una de varios investigadores privados que buscaban un vínculo entre la genética y la orientación sexual. Su equipo consideró miles de posibles vínculos en este sentido en un gran conjunto de datos. Encontró una serie de asociaciones estadísticamente significativas y las informó en un artículo publicado. Al igual que Firenze, trató sus hallazgos como si fueran hipótesis ex ante, en lugar de conexiones ex post extraídas de un gran conjunto de datos. La prensa se divirtió mucho y compartió ampliamente sus hallazgos.
Yolanda recopiló un conjunto de datos sobre si los bebés miraban más tiempo las caras atractivas que las no atractivas. Su análisis inicial no arrojó ningún hallazgo; así que decidió abordar algunos temas más. Comprobó la significancia cada cinco bebés a los que examinó. Después de obtener un hallazgo importante, dejó de realizar pruebas y publicó sus resultados.
Es difícil exagerar el impacto de la crisis de replicación en las ciencias. Esta “crisis” comenzó con una serie de fracasos muy publicitados a la hora de replicar una gran cantidad de hallazgos destacados, especialmente en psicología y ciencias biomédicas (Begley y Ellis, 2012; Open Science et al., 2015; Baker, 2016; Eklund et al. , 2016; Camerer et al., 2018). Ha trastornado la autoconcepción de muchas disciplinas, ha derribado prácticas metodológicas comunes, ha llevado a reformas generalizadas e iniciado un enorme giro hacia el estudio de la metaciencia.
En línea con este movimiento, muchos autores han utilizado modelos para preguntarse qué tipos de prácticas son más perjudiciales para la inferencia y cuáles serían mejores. Muchas de las prácticas cuestionables que han llamado la atención son similares a aquellas en las que participaron Firenze, Isobel y Yolanda: no un fraude absoluto, sino una manipulación de datos que aumenta ilegítimamente las posibilidades de producir un hallazgo positivo y publicable.
Esta sección del Elemento analiza la literatura desarrollada principalmente en respuesta a la crisis de replicación sobre prácticas cuestionables, mejores prácticas y optimización en la inferencia a partir de datos. Aquí me desvío del resto del Elemento al organizarme en torno a un tema, en lugar de un paradigma de modelado. Por esta razón, incluyo más trabajo que es teórico incluso si no presenta resultados novedosos de modelización. Además, los modelos en esta sección del Elemento tienden a centrarse menos en aspectos grupales emergentes de la ciencia y más en cómo inferir Las prácticas especiales impactan los hallazgos individuales. Pero, como veremos, muchas características de las estructuras de incentivos comunitarios desempeñan papeles clave en estos modelos de prácticas de investigación individuales y las propuestas para mejorar las prácticas se centran principalmente en cambios en las normas y reglas comunitarias. Como en el resto del Elemento, los modelos suponen correctamente que las características humanas dan forma de manera crucial a la producción de conocimiento científico.
6.1 ¿Son falsos la mayoría de los hallazgos?
Ioannidis (2005), basándose en literatura previa, presenta un modelo de descubrimiento científico muy influyente y sostiene que la mayoría de los hallazgos de la investigación en campos científicos son falsos. Comienza analizando la probabilidad de que una afirmación en una literatura científica refleje un hecho verdadero, dadas las prácticas estadísticas actuales (y especialmente la NHST. Más sobre esto en breve). Esto depende de algunos factores.
En primer lugar, depende de la probabilidad previa de que la afirmación sea cierta, es decir, su probabilidad sin información sobre los hallazgos del estudio. Ioannidis señala que varios campos tendrán diferentes probabilidades, o tasas base, de hipótesis verdaderas dependiendo de una serie de factores que incluyen cómo generan hipótesis y el tipo de temas en los que trabajan.
En segundo lugar, la probabilidad de que un hallazgo sea cierto depende del poder estadístico del estudio, es decir, de la capacidad de la prueba para identificar correctamente una afirmación como verdadera.
Y, en tercer lugar, la probabilidad también depende del nivel del umbral de significación estadística (es decir, la propensión de una prueba a identificar erróneamente una afirmación falsa como significativa). Ioannidis construye un modelo muy simple que evalúa las probabilidades de que las pruebas científicas identifiquen correctamente hechos verdaderos o falsos, teniendo en cuenta estos tres factores.
Identifica una serie de implicaciones de este modelo simple.
(1) Es más probable que los estudios pequeños, que tienen un poder estadístico menor en promedio, califiquen una afirmación falsa como significativa (un punto que también se ha mencionado extensamente en otros lugares).
(2) Los campos con tamaños de efecto pequeños tendrán más resultados falsos porque en estos campos es más difícil desambiguar las afirmaciones verdaderas y falsas.
(3) Los campos con más margen de sesgo, es decir, con menos restricciones en las prácticas de investigación estándar, tendrán más hallazgos falsos. En estos casos, los investigadores incentivados a publicar tienen más flexibilidad para utilizar prácticas de investigación que les permitan encontrar asociaciones positivas, sean reales o no.
(4) Los campos con muchas hipótesis de baja probabilidad, en lugar de menos hipótesis de alta probabilidad, también tendrán más hallazgos falsos.Este papel de la probabilidad previa de las hipótesis en los resultados de los estudios ha sido particularmente subestimado. Muchos científicos piensan que la generación de hipótesis puede ser muy flexible, siempre y cuando las hipótesis se enfrenten a pruebas rigurosas. El modelo de Ioannidis refuta contundentemente esta idea.
(5) Ioannidis considera además la posibilidad de que varios equipos prueben la misma hipótesis. Si al menos uno arroja un hallazgo positivo, se informará en la literatura, lo que aumentará las posibilidades de que cualquier hallazgo informado sea falso. Suponiendo un fuerte sesgo de publicación, cuanto más se centre la literatura en una pregunta, más probable será que algún equipo obtenga un hallazgo positivo independientemente de la verdad.
Sobre la base de este análisis, Ioannidis considera las características de varias disciplinas y concluye que, sorprendentemente, sus probabilidades de que un hallazgo informado sea cierto son a menudo muy bajas, a veces menos del 1 por ciento. Esto es especialmente notable en campos con bajas tasas de base de hipótesis verdaderas, como la investigación biomédica exploratoria.
Autores posteriores han argumentado que algunas de las suposiciones de Ioannidis son demasiado fuertes, pintando así una imagen demasiado negativa de la investigación científica (Goodman y Greenland, 2007). El mensaje general, sin embargo, se mantiene. Aunque ninguna forma de inferencia estadística será correcta en todos los casos, la mayoría de los científicos confían en las prácticas estadísticas para limitar adecuadamente los hallazgos. Pero, como muestra Ioannidis, la estructura de nuestro método principal de inferencia no siempre funciona como tradicionalmente hemos asumido.
En un trabajo complementario, Ioannidis (2008) sostiene que la mayoría de las asociaciones verdaderas descubiertas en las ciencias están infladas, es decir, que el tamaño de sus efectos está exagerado. Utiliza una simulación simple para mostrar que esto sucederá cuando
(1) los científicos deban alcanzar un umbral de significancia para informar los resultados y
(2) los estudios generalmente no tengan suficiente poder estadístico.
En estas condiciones, aquellas pruebas que alcanzan significancia también tenderán a tener tamaños de efecto mayores, lo que lleva a una sobreestimación general en la literatura. Muestra que la situación se agrava cuando los investigadores tienen flexibilidad en la elección del análisis que puede afectar el tamaño del efecto. En tales casos, los estudios con los mayores tamaños de efecto estimados tienden a ser los que se publican y comparten, lo que potencialmente lleva a los científicos a sobreestimar fuertemente los tamaños de efecto.
6.2 Autocorrección y sesgo de publicación
Los consumidores inteligentes de datos científicos normalmente no dan por sentado que un hallazgo positivo establece la verdad de una afirmación. En muchos casos, está justificado creer firmemente en una afirmación científica sólo después de que se haya replicado adecuadamente y se haya realizado un metanálisis sobre los resultados. (Recuerde que esta es la razón por la que vimos varias propuestas de incentivos crediticios para aumentar la replicación en la Sección 2.)
Este enfoque de la inferencia supone que las ciencias se autocorrigen. Si bien un estudio puede ser erróneamente engañoso o mientras que una literatura puede ir temporalmente por un camino equivocado, eventualmente, a medida que se recopilan más datos, la comunidad corrige para lograr una mejor comprensión. Moonesinghe et al. (2007) desarrollan un modelo basado en el de Ioannidis (2005), pero cuando un estudio se realiza varias veces, n ; y r representa el número mínimo de éstas para alcanzar significancia. Como señalan, cuanto mayor sea r, mayores serán las posibilidades de que la afirmación sea cierta. Concluyen que un poco de replicabilidad contribuye en gran medida a establecer la verdad de una afirmación científica.
Señalan que es probable que las replicaciones exitosas solo funcionen cuando los estudios son de calidad suficientemente alta, es decir, el poder (capacidad de detectar con precisión un resultado verdadero) es lo suficientemente alto, y cuando la producción sesgada no es un problema significativo. Su modelo supone que es posible observar todos los éxitos y fracasos de alguna prueba científica. De esta manera, se pueden calcular correctamente tanto r como n y obtener algunas ideas sobre la probabilidad de que una afirmación sea cierta. Pero debido al sesgo de publicación hacia hallazgos novedosos y positivos, rara vez es posible evaluar cuántas pruebas de una hipótesis se han realizado. Esto a veces se denomina efecto “cajón de archivos”: los científicos realizan estudios y, si obtienen resultados nulos, los datos van al cajón de archivos (Rosenthal, 1979). Esto se debe a que las revistas no tienden a aceptar resultados nulos y a que los científicos, anticipándose a esto, no tienden a presentarlos para su revisión. En esta línea, Fanelli (2012) estima que más del 80 por ciento de los artículos publicados reportan hallazgos positivos.
A partir de los modelos que acabamos de comentar, Nissen et al. (2016) consideran un proceso mediante el cual los científicos prueban y vuelven a probar una afirmación varias veces para establecer su exactitud. Suponen que los miembros de una comunidad recurren a la inferencia bayesiana para sacar conclusiones basadas en resultados publicados, y preguntan cuándo y cómo las afirmaciones falsas pueden “canonizarse” o entenderse como tan probables que ya no se someten a prueba. De manera similar, Romero (2016) presenta una simulación simple donde los científicos replican repetidamente un estudio. Ambos artículos consideran cómo el sesgo de publicación afectará las creencias en este tipo de escenario. Sin sesgos de publicación, y con suficiente repetición de pruebas, la comunidad científica de Romero siempre se “autocorregirá”, es decir, eventualmente desarrollará una imagen precisa de la magnitud de algún efecto científico. La comunidad en Nissen et al. (2016) eventualmente deja de probar afirmaciones que parecen muy probables o improbables, por lo que no se garantiza que alcancen creencias precisas, pero generalmente lo hacen sin sesgo de publicación. Sin embargo, ambos modelos encuentran que el sesgo de publicación daña gravemente la capacidad de una comunidad para desarrollar creencias precisas. En el modelo de Romero, el sesgo de publicación conduce a una sobreestimación persistente de los tamaños del efecto. En Nissen et al. (2016), encuentran que en una variedad de condiciones, las creencias falsas se canonizan como un hecho a menos que se publiquen regularmente resultados nulos. Por lo tanto, estos dos modelos muestran cómo incluso el trabajo de replicación puede no identificar asociaciones falsas cuando existe un sesgo de publicación. (Aunque Bruner y Holman [2019] señalan que en el modelo de Romero, el uso de herramientas estadísticas para identificar y dar cuenta del sesgo de publicación puede permitir la autocorrección frente al sesgo de publicación).
De manera aún más pesimista, Devezer et al. (2019) desarrollan un modelo donde grupos de científicos comparan posibles modelos del mundo. Rechazan aquellos modelos que se ajustan peor a los datos que recopilan. Algunos científicos replican comparaciones recientes, mientras que otros prueban otras nuevas. Estos autores encuentran que incluso sin sesgo de publicación, la replicación no garantiza que la red llegue a un consenso adecuado sobre la mejor versión. En cambio, las replicaciones exitosas de pruebas de un modelo decente, si no ideal, pueden significar que la comunidad pasa mucho tiempo concentrada en una teoría subóptima. En conjunto, estos resultados dan más peso a las preocupaciones planteadas por Ioannidis.
6.3 Prácticas de investigación cuestionables (QRP)
Un enfoque del modelo de Ioannidis (2005) y sus seguimientos es la flexibilidad del investigador. Una preocupación clave acerca de este tipo de flexibilidad es que permite a los investigadores utilizar QRP (Questionable Research Practices). Estas son prácticas que facilitan a los investigadores la publicación de hallazgos positivos, incluso en los casos en que estos hallazgos no reflejan la realidad subyacente. Una parte central de la respuesta a la crisis de replicación ha sido identificar estas prácticas e intervenir para prevenirlas. La literatura sobre estas intervenciones incluye tanto trabajos de modelización como argumentos técnicamente fundamentados. Esta sección analizará ambos tipos de trabajo, aunque por razones de espacio será una revisión muy selectiva. Muchos de los QRP más preocupantes implican algún tipo de flexibilidad en la forma en la que los investigadores manipulan datos y pruebas estadísticas. A través de estas manipulaciones, aumentan sus posibilidades de obtener resultados positivos significativos (Simmons et al., 2016). Estas manipulaciones no son necesariamente fraudulentas en el sentido de que los investigadores las empleen intencionadamente para beneficiar sus carreras a costa de la integridad de la investigación. En muchos casos, los investigadores informan haber aprendido a emplear QRP de sus asesores y pares (como lo hizo Firenze en el caso supuesto más arriba), sin tener la sensación de que las técnicas que estaban aprendiendo pudieran ser problemáticas. Antes de discutir posibles respuestas a los QRP, tomemos un poco más de espacio para comprenderlas.
6.3.1 P- Hackeo
P-hacking abarca un conjunto de prácticas mediante las cuales los científicos realizan una gran cantidad de pruebas estadísticas sobre datos y luego informan solo aquellas que son significativas (Selvin y Stuart, 1966; Smith y Ebrahim, 2002; Head et al., 2015). Supongamos que un investigador plantea la hipótesis de que las vacunas causan autismo. Supongamos también que, al igual que Firenze, sus datos no terminan apoyando esta hipótesis. Una opción es abandonar el estudio o intentar (quizás sin éxito) publicar un resultado nulo. Pero estas opciones no son buenas para un investigador que busca crédito. En lugar de ello, podrían buscar una asociación en los datos entre niños sólo de sexo femenino o sólo de sexo masculino. Si no encuentran ninguna, podrían buscar una asociación entre sólo niñas con padres ricos, sólo niños con padres ricos, sólo niñas con padres más pobres y sólo niños con padres más pobres. Supongamos que encuentran una asociación entre vacuna y autismo entre mujeres de alto nivel socioeconómico y lo reportan como un hallazgo positivo de su trabajo.
Este es sólo un ejemplo de cómo puede funcionar el p-hacking, pero ilustra cómo realizar suficientes pruebas casi puede garantizar que un investigador encuentre un resultado significativo, aunque es probable que este resultado sea un falso positivo. El paraguas del p-hacking abarca múltiples prácticas específicas (Head et al., 2015), que incluyen, entre otras,
(1) analizar la importancia de los datos a lo largo de un estudio y detenerse selectivamente cuando se alcanza la significancia, como lo hizo Yolanda (John et al., 2012),
(2) modificar los datos o “tocar” cuando un hallazgo es marginalmente significativo, es decir, descartar valores atípicos (Gadbury y Allison, 2012),
(3) decidir después del análisis estadístico combinar o dividir grupos de datos, y
(4) hacer esto hasta que se encuentre un resultado significativo (como en el ejemplo anterior) o “pescar”.
En relación con esto, Gelman y Loken (2013) utilizan un modelo simple para describir lo que llaman “el jardín de senderos que se bifurcan”. Esto implica que los investigadores modifiquen sus pruebas según el tipo de datos que observan de manera que aumenten las posibilidades de obtener significancia. Esto no implica necesariamente realizar múltiples pruebas estadísticas como en el p-hacking, sino que implica seleccionar la prueba estadística más clara para el tipo de datos recopilados, aumentando así las posibilidades de producir resultados positivos.
6.3.2 HARKing
Otro QRP ampliamente discutido es HARKing, o formular hipótesis después de conocer los resultados (Kerr, 1998). Esto incluye un conjunto de comportamientos en los que los investigadores descubren una asociación inesperada en sus datos pero la informan como una hipótesis previa en el artículo, como lo hicieron Isobel y Firenze (Rubin, 2017; Murphy y Aguinis, 2019). Al hacerlo, pueden publicar resultados positivos, incluso si la hipótesis original no estaba respaldada. Rubin (2017) informa que el 43 por ciento de los investigadores en encuestas recientes a psicólogos, y algunos otros, informaron HARKing al menos una vez (un número que puede subestimar su prevalencia real). El HARKing es problemático por varias razones.
En primer lugar, al cambiar de hipótesis, los investigadores a menudo no informan resultados nulos o negativos relacionados con la hipótesis original. Esto obstaculiza la falsificación y elimina indebidamente los datos no confirmatorios del conjunto de investigaciones publicadas (Rubin, 2017).
En segundo lugar, si un investigador puede publicar cualquier asociación que sus datos respalden, es probable que obtenga un hallazgo positivo, aunque es probable que esta asociación sea falsa. Esto no es necesariamente problemático si los lectores del artículo entienden el contexto de la reclamación que se hace y puede ajustar su respuesta en consecuencia. Pero al ocultar detalles del proceso de investigación, los autores impiden que los lectores evalúen adecuadamente la relevancia y el impacto de sus hallazgos.
En tercer lugar, los investigadores pueden ocultar prácticas como el p-hacking haciendo que parezca que las asociaciones encontradas de esta manera eran a priori (y por lo tanto no es el producto de múltiples pruebas).
De hecho, las condiciones bajo las cuales HARKing es problemático, y hasta qué punto, son algo sutiles. Algunos investigadores han defendido que algunos tipos de HARKing no son problemáticos. Rubin (2017) sostiene que el daño no surge de formular hipótesis después de que se conocen los resultados, sino de formular hipótesis sobre la base de resultados conocidos, es decir, de eliminar la independencia de los hallazgos de la hipótesis. Varios autores utilizan modelos para explorar estas cuestiones. Murphy y Aguinis (2019) presentan una simulación que considera los efectos de varios tipos de HARKing en las estimaciones del tamaño del efecto y la acumulación de conocimiento. A los investigadores en su modelo se les presentan correlaciones muestrales entre dos variables. Luego eligen cuál informar, ya sea con algún método HARKing o basándose en una hipótesis previa. Encuentran que HARKing es especialmente pernicioso cuando los investigadores también realizan p-hack buscando en los datos las asociaciones estadísticas más fuertes posibles. Esto conduce a tamaños de efecto sobreestimados. Mohseni (2023a) utiliza un modelo simple para ilustrar las condiciones bajo las cuales HARKing daña las creencias actualizadas. Como señala, HARKing sólo es problemático cuando las hipótesis posteriores, o HARKed, desarrolladas tienen una base de verdad más baja que las hipótesis anteriores. Por lo tanto, un problema es que los científicos tienden a desarrollar buenas hipótesis, basadas en teoría relevante, a priori. Pero los hallazgos a posteriori a menudo se basan en asociaciones aleatorias y, por lo tanto, tienen una tasa base de verdad más baja. En este panorama, podría haber casos en los que HARKing sea realmente algo bueno porque es más probable que las hipótesis ex post sean correctas que las ex ante. Un teórico muy pobre, por ejemplo, puede mejorar los resultados de su estudio haciendo HARKing (aunque esto probablemente no sea realista para la mayoría de las ciencias).
6.4 Respuestas a la crisis de replicación
En respuesta a la crisis de replicación, y especialmente a la identificación de muchos QRP en comunidades científicas reales, muchos científicos han propuesto intervenciones para mejorar los estándares científicos. Aquí hablaremos de modelar un trabajo teórico destinado a evaluar el éxito potencial de estas intervenciones. Un tema que estará presente en esta discusión es la importancia de las consideraciones estratégicas al pensar en la intervención. Los investigadores responden a incentivos y, como hemos visto, a veces esas respuestas son contraproducentes. Las reglas destinadas a prevenir QRP, sin cambiar los incentivos perversos, pueden no ser efectivas si los investigadores encuentran formas de eludir las nuevas reglas. Así, aunque esta sección se centra menos en los aspectos comunitarios de la ciencia, veremos que atender a estos aspectos es importante. La regulación de la ciencia es una teoría de juegos (los reguladores responden a los científicos que responden a los reguladores) y las propuestas efectivas de intervención deberían tener esto en cuenta.
6.4.1 Cambiar el umbral de significancia
Los métodos estadísticos frecuentistas estándar, que involucran NHST (Null Hypothesis Significance Test, o Test de Significación de la Hipótesis Nula), requieren que para probar una afirmación, los investigadores deben comparar los resultados con un modelo nulo en el que esa afirmación sería falsa. Si los resultados son improbables dado este modelo nulo, se rechaza el modelo nulo. El estándar tradicional es rechazar el modelo nulo si los resultados cruzan algún umbral de improbabilidad, que se ha fijado en 0,05. Entonces, si hay un porcentaje de probabilidad o menos de que los datos se observen dado el resultado nulo, un hallazgo se declara significativo y a menudo se toma para respaldar una afirmación positiva.
Una respuesta a la crisis de replicación ha sido proponer un estándar de significancia más estricto. En un artículo influyente y con numerosos autores, Ben Jamin et al. (2018) sugieren que el nuevo nivel de significancia debería ser 0,005.
Señalan que incluso en ausencia de QRP, el umbral de 0,05 significará que muchas afirmaciones de las investigaciones son falsas, por lo que un estándar más alto debería mejorar la reproducibilidad de los resultados. Parte de su argumento implica señalar que incluso si uno prefiere las estadísticas bayesianas (más sobre ellas en breve), un umbral de significancia más estricto tenderá a asociarse con hallazgos que tienen factores Bayes más altos. También utilizan un modelo estadístico simple para mostrar cómo este cambio debería reducir la tasa de falsos positivos. Y, por último, señalan las tasas de reproducibilidad relativamente altas de los hallazgos psicológicos donde p < 0,005 en comparación con aquellos donde p < 0,05.
Algunos teóricos cuestionan la sabiduría de esta estrategia. En primer lugar, como se señaló, Ioan Nidis y otros han demostrado que los umbrales de significancia contribuyen a sobreestimaciones de los tamaños del efecto, y cuanto más estricto es el umbral, mayor es la sobreestimación esperada. (Esto, nuevamente, se debe a que los estudios que encuentran efectos mayores tienden a ser los más significativos. Los estudios que alcanzan un umbral muy estricto tenderán a encontrar efectos muy sobreinflados). Esto puede afectar negativamente la capacidad de una comunidad para estimar correctamente el tamaño del efecto en presencia de sesgo de publicación (Bruner y Holman, 2019).
En segundo lugar, Mohseni (2023a) utiliza un modelo para ilustrar cómo, en presencia de HARKing, reducir el umbral de significancia podría, paradójicamente, conducir a una mayor tasa de falsos descubrimientos. Esto sucede cuando los investigadores se involucran en un “HARKing alternativo”. Primero seleccionan una hipótesis con una probabilidad previa relativamente alta y la prueban. Si esta prueba es insignificante, examinan los datos en busca de una asociación significativa que informar. Estas asociaciones imprevistas tienen probabilidades previas más bajas. El problema es que un umbral de significancia más estricto significa que menos investigadores obtendrán apoyo para sus tesis originales, más plausibles. Luego eligen nuevas hipótesis de un grupo con una tasa base de verdad más baja.
Mohseni (2023b) plantea otra preocupación: que un umbral de significancia muy estricto pueda filtrar papeles de diferente calidad de diferentes maneras. Los investigadores que utilizan QRP para lograr importancia aún pueden utilizar métodos creativos para hacerlo, incluso con requisitos más estrictos. Por otro lado, los investigadores que se adhieren a prácticas de alta calidad pueden tener menos probabilidades de alcanzar importancia y, por lo tanto, menos probabilidades de publicar. El resultado puede ser que los umbrales estrictos, paradójicamente, disminuyan la replicabilidad de los resultados publicados porque impactan más severamente a los buenos investigadores.
6.4.2 Reformar el NHST (Null Hypothesis Significance Test)
Otros rechazan la sugerencia de reducir el umbral de significancia porque prefieren eliminarlo por completo. McShane y cols. (2019) sostienen que los p-valores deberían ser solo una herramienta entre muchas (incluidas la evidencia previa, la plausibilidad de los hallazgos y la calidad del diseño del estudio) para juzgar la importancia y relevancia de los hallazgos. Como argumentan, un umbral de p-valor para la publicación:
(1) enfatiza de manera inapropiada modelos nulos de evidencia específicos,
(2) dicotomiza arbitrariamente un continuo de apoyo a una hipótesis,
(3) alienta de manera inapropiada a los investigadores a tomar los hallazgos significativos como verdaderos y viceversa, y
(4) fomenta los QRP diseñados para alcanzar importancia.
En general, alientan un enfoque holístico de la inferencia y rechazan la idea de que la “alquimia estadística” pueda resolver la cuestión de si un efecto es de interés o no. Estos autores reconocen una cuestión importante en su propuesta. Como se analiza a lo largo de este Elemento, los científicos están motivados por el crédito, y el crédito proviene de la atención. Esto desincentiva directamente cualquier enfoque en el que los científicos hagan afirmaciones silenciosas o cautelosas sobre la base de un razonamiento holístico, e incentiva enfoques en los que el cumplimiento de algún estándar arbitrario permite a los científicos hacer afirmaciones inequívocas.
Otra respuesta sugiere abandonar por completo el NHST y adoptar alguna versión de los métodos estadísticos bayesianos (o alguna otra alternativa). De hecho, muchos autores del artículo 0,005 prefieren algo parecido, pero consideran que reducir el umbral de significancia es una reforma más realista. El debate sobre qué métodos estadísticos generales son mejores para la ciencia es controvertido y, en ocasiones, acalorado. No tenemos espacio para abordar adecuadamente esta literatura. Sin embargo, existe poca literatura que utilice simulaciones para comparar el éxito de varios métodos de inferencia estándar a corto plazo.
Radzvilas et al. (2021) utilizan simulaciones para argumentar que tanto el bayesianismo como varios tipos de frecuentismo funcionan bastante bien y, por lo tanto, son pruebas científicas aceptables. Romero y Sprenger (2021), por otro lado, desarrollan un modelo más situado en los detalles de las comunidades científicas, y especialmente los precursores de la crisis de replicación, como el sesgo de publicación. Comparan NHST con usos graduados de factores Bayes para etiquetar los hallazgos como más o menos significativos. Los factores de Bayes son el método bayesiano estándar para calcular el grado en que un conjunto de datos elimina la ambigüedad entre dos hipótesis potenciales y, por lo tanto, respalda alguna afirmación positiva. Su modelo supone que los científicos extraen datos de una distribución normal con algún tamaño de efecto preespecificado (o ningún efecto). Con el tiempo, los científicos publican estos resultados, los replican y estiman el tamaño del efecto basándose en el metanálisis. Los autores consideran tanto condiciones ideales como casos en los que
(1) los tamaños de muestra son pequeños,
(2) existe un sesgo de publicación contra resultados nulos y
(3) existe un sesgo de publicación en alguna dirección.
Encuentran que NHST tiende a sobreestimar el efecto tamaño con más frecuencia que el análisis bayesiano. Esto se debe a que
(1) cuando los efectos son pequeños o inexistentes, los métodos bayesianos no suprimen evidencia sólida para el modelo nulo como lo hace el NHST y
(2) cuando hay tamaños de muestra pequeños, el NHST requiere un efecto muy fuerte para alcanzar el umbral de significancia , lo que distorsiona las estimaciones del efecto.
Esto proporciona cierto apoyo para el uso del análisis bayesiano en presencia de sesgo de publicación. Dicho esto, Romero y Sprenger (2021) reconocen que los factores de Bayes pueden usarse indebidamente y también ser engañosos. El panorama desarrollado por McShane et al. (2019), donde una buena inferencia debe ser holística y específica del contexto, sigue siendo relevante. No existe ningún truco estadístico fácil que reemplace el razonamiento cuidadoso en la ciencia.
6.4.3 Informes Registrados, Diarios de Resultados Nulos y Prerregistro
Una forma de reducir los incentivos perversos creados por el sesgo de publicación es publicar resultados nulos o negativos. De esta manera, todos los hallazgos reciben crédito y hay menos incentivos para cometer fraude o utilizar QRP. Además, esto crea incentivos para el trabajo de replicación. En esta línea, algunas revistas utilizan ahora informes registrados, que se envían antes de realizar la investigación (Chambers, 2013; Nosek y Lakens, 2014). Los revisores juzgan la calidad metodológica de la investigación propuesta. A partir de esta revisión, las revistas deciden si publican el trabajo, independientemente del resultado del estudio. Luego, los científicos realizan la investigación y escriben sus resultados. Siempre que sus métodos se ajusten al informe registrado, se publican sus financiaciones. Allen y Mehler (2019) encontraron que los informes registrados mostraban una tasa de publicación de hallazgos nulos mucho mayor que la literatura general. Recordemos de la Sección 2 que Gross y Bergstrom (2021) plantean la preocupación de que una revisión previa de este tipo contribuya al conservadurismo en la ciencia a medida que los autores intentan complacer al revisor promedio. Pero si esta revisión se basa en la calidad metodológica, en lugar de en hipótesis específicas probadas, esto es menos preocupante.
Un enfoque alternativo es la creación de revistas y espacios para publicar y compartir resultados nulos y negativos (Munafò et al., 2017). Los ejemplos actuales incluyen la colección "Missing Pieces" de PLOS One o el Journal of Negative Results in Biomedicine. Idealmente, ambas reformas deberían disminuir los impactos negativos del sesgo de publicación. Nosek et al. (2012), sin embargo, argumentan que tales mecanismos son relativamente ineficaces, ya que simplemente consagran aún más el bajo estatus asociado con los hallazgos nulos. Por lo tanto, es posible que no generen crédito por resultados nulos de la manera correcta.
Los informes registrados garantizan la publicación de resultados negativos o nulos, pero también desempeñan otro papel importante al limitar las prácticas de investigación antes de que sucedan. El prerregistro es una intervención ampliamente implementada que solo hace lo último (Nosek et al., 2018; Lakens, 2019). Los investigadores envían planes de investigación detallados a sitios de acceso abierto, como Open Science Foundation. Luego realizan su investigación según lo planeado e incluyen su preinscripción en la publicación. Esto reduce los grados de libertad del investigador al evitar el p-hacking, HARKing y bifurcaciones. Cuando son necesarios cambios de estudio, la preinscripción requiere transparencia con respecto a qué se cambió y por qué. Sus defensores señalan que el registro previo en estudios clínicos redujo drásticamente los resultados positivos informados (Kaplan e Irvin, 2015).
Sin embargo, ha habido una serie de críticas al prerregistro, incluida la preocupación de que impedirá la investigación exploratoria o el descubrimiento de novedades, y que todavía permite a los investigadores grados de libertad pero sólo crea una apariencia de credibilidad. (No reviso esta literatura, pero véase Szollosi et al. (2020) y Rubin (2020), como ejemplos). Por esta razón, Hitzig y Stegenga (2020) abogan por un prerregistro flexible. Los científicos pueden desviarse de los planes de investigación pero, al hacerlo, deben ser transparentes sobre cómo y por qué lo hacen.
Mohseni (2023b) modela el éxito de intervenciones como el prerregistro en el contexto social de las comunidades científicas. Como señala, puede haber formas en que el prerregistro pueda conducir a respuestas que sean contraproducentes. Por ejemplo, si los investigadores eligen preinscribirse sólo en los casos en los que tienen mucha confianza en los resultados, pero no en otros casos, la intervención puede terminar restringiendo solo aquellos con las tasas base más altas de hipótesis verdaderas, disminuyendo así la confiabilidad de los hallazgos en general. Pero tenga en cuenta que su análisis se aplica sólo a la preinscripción opcional. Si el registro previo es un estándar generalmente requerido, esta preocupación no existe.
6.4.4 Transparencia en la práctica
Una tendencia general destinada a abordar la crisis de replicación es mejorar la transparencia en la práctica científica (Schofield et al., 2009; Nosek et al., 2012; Nosek y Bar-Anan, 2012). El prerregistro logra esto, al igual que las iniciativas que exigen el intercambio de datos, en lugar de solo resultados analizados. Muchas revistas ahora exigen que los autores publiquen sus datos, códigos u otros materiales en un foro como la Open Science Foundation (OSF). Esta práctica significa que otros investigadores pueden potencialmente identificar errores, fraudes o desviaciones del prerregistro.
Este tipo de transparencia también está relacionado con el movimiento de Ciencia Abierta, cuyo objetivo es garantizar que los datos y hallazgos científicos se compartan lo más ampliamente posible. Esta iniciativa tiene como objetivo mejorar la equidad y también alinear más perfectamente la práctica con la norma comunista. La proliferación de servidores de preimpresión, donde los autores pueden compartir borradores iniciales así como artículos listos para su publicación, refleja este movimiento. Un beneficio adicional es que los autores pueden obtener comentarios críticos de una gama más amplia de académicos y en una etapa más temprana del proceso de investigación (Bourne et al., 2017).
Si bien estas reformas cuentan con un amplio apoyo, una pequeña preocupación se relaciona con los resultados descritos en la Sección 4 sobre el intercambio y la diversidad transitoria. Una forma de garantizar la diversidad de prácticas es preservar la diversidad de creencias. Si los datos y los hallazgos se comparten de manera demasiado amplia y rápida, esto a veces puede reducir dicha diversidad.90 Sin embargo, en conjunto, los beneficios de un comunismo de este tipo probablemente superen este costo.
6.4.5 Mejora de la teoría
Como se señaló, la tasa de descubrimientos falsos de una disciplina está fuertemente determinada por la tasa base de hipótesis verdaderas probadas. Por esta razón, algunos teóricos han sugerido que deberían realizarse intervenciones importantes mucho antes de que comencemos a limitar la flexibilidad de los métodos o mejorar las pruebas estadísticas. En particular, la ciencia debería tomar medidas para garantizar que los investigadores prueben más y mejores hipótesis siempre que sea posible. En algunos casos, como en investigaciones altamente exploratorias, esto no será posible. En estas áreas, no hay suficiente comprensión teórica de un fenómeno para limitar las hipótesis a las buenas. En otras áreas, como la investigación biomédica, hay tantas hipótesis posibles que probar que no es posible crear tasas base muy altas.
Sin embargo, cuando es posible, Smaldino (2019a) sostiene que es necesaria una buena teoría para mejorar la tasa base de hipótesis verdaderas en las disciplinas científicas. Como señala, los estudios en psicología cognitiva se han replicado a un ritmo aproximadamente dos veces mayor que los de psicología social, posiblemente porque se basan en fundamentos teóricos más sólidos (Open Science et al., 2015). Sin una buena teoría, las hipótesis están relativamente libres y no necesitan encajar con nuestras mejores comprensiones del funcionamiento del mundo.91 Tenga en cuenta que esta intervención en particular encaja con los incentivos actuales. Los investigadores quieren generar hipótesis precisas para poder publicarlas.
6.4.6 Múltiples laboratorios y colaboraciones adversas
En colaboraciones adversas, varios científicos o equipos que no están de acuerdo con alguna hipótesis trabajan juntos para desarrollar un programa de investigación diseñado para probarla (Latham et al., 1988; Nuzzo, 2015). La idea es evitar las tendencias psicológicas que podrían empujar a un investigador a tomar decisiones que acaben confirmando sus creencias. Alternativamente, en los enfoques de laboratorios múltiples, varios equipos que no necesariamente son antagonistas trabajan juntos para realizar los mismos experimentos. Colaboran para garantizar la uniformidad de los enfoques y luego pueden evaluar si los resultados son similares durante un único intervalo de tiempo. El proyecto “muchos laboratorios” utilizó esta técnica para evaluar la replicabilidad de hallazgos anteriores (Klein et al., 2014, 2018). Protzko et al. (2023) utilizan la técnica para mostrar cómo, con una metodología suficientemente buena, los hallazgos novedosos en las ciencias sociales pueden ser altamente replicables. Aunque los enfoques de múltiples laboratorios son más difíciles y costosos de coordinar y llevar a cabo que la investigación estándar, apuntan a una manera de mejorar la calidad metodológica en áreas donde la replicabilidad ha sido un problema.
• • •
En conjunto, podemos ver que el trabajo de modelización está desempeñando un papel central tanto en (1) identificar las causas de la crisis de replicación como (2) explorar los costos y beneficios de diversas intervenciones destinadas a mejorar la calidad de la investigación. Este trabajo amplía argumentos puramente teóricos añadiendo restricciones lógicas al razonamiento sobre ellos. Si bien suele ser problemático pasar directamente del trabajo de modelización a las intervenciones políticas, los modelos aquí presentados son extremadamente útiles para identificar posibles resultados de diversas intervenciones y dirigir el trabajo empírico futuro sobre las mejores estructuras para la ciencia. De esta manera, son herramientas importantes en el conjunto de herramientas de la metaciencia. Los intentos de intervenir en las comunidades científicas hacen bien en basarse tanto en modelos como en otros tipos de trabajo para identificar las mejores maneras de hacerlo.
7. Conclusión
Este Elemento revisó una amplia gama de modelos destinados a iluminar el funcionamiento de las comunidades científicas. Como hemos visto, hay una serie de formalismos y enfoques que ayudan a lograrlo.
Los modelos de economía crediticia consideran los impactos de las estructuras de incentivos en la toma de decisiones de primer orden de los científicos y otros agentes científicos, como las revistas y los organismos que otorgan subvenciones.
Los modelos selectivos consideran cómo las fuerzas relacionadas con la persistencia y la copia en las comunidades científicas pueden dar forma a los métodos y prácticas. En lugar de considerar los efectos del crédito en la toma de decisiones, consideran los efectos del crédito sobre qué tipos de prácticas se replican y quiénes permanecen en una comunidad.
Los modelos de red destacan la comunicación y la forma en que las creencias e ideas se difunden en las comunidades epistémicas. Esta difusión, a su vez, afecta las opciones de investigación y, por tanto, el progreso de la investigación.
Los modelos de paisaje epistémico dan una idea de la elección de problemas y de cómo una serie de factores (personalidades de los científicos, políticas de concesión de subvenciones e interacciones comunitarias) dan forma a los tipos de temas que se exploran en la ciencia.
Y los modelos de práctica estadística han contribuido a la exploración de la crisis de replicación, los QRP, la mejora de la práctica y la metaciencia en general.
Para concluir este Elemento, haré dos cosas. En primer lugar, creo que será útil repasar algunas de las sugerencias de políticas descritas en este Elemento. Muchas de las sugerencias de los diferentes modelos encajan o se interrelacionan, y vale la pena discutirlas todas juntas y extraer temas. En segundo lugar, quiero volver a la cuestión de qué deberíamos sacar de modelos como los descritos, especialmente en lo que respecta a las políticas. Probablemente el tema de política más fuerte a lo largo del Elemento se centró en mejorar la calidad de los métodos científicos y la replicabilidad de los hallazgos. En este sentido, en las Secciones 2 y 3 vimos varias propuestas destinadas a aumentar el trabajo de replicación, con el objetivo de probar mejor la replicabilidad de los hallazgos (Stewart y Plotkin, 2021). Esto implicó exigir replicaciones en artículos que informaran sobre nuevos hallazgos (Begley y Ellis, 2012) y crear comunidades de científicos incentivados únicamente para realizar trabajos de replicación (Romero, 2018, 2020).
En relación con esto estaban las propuestas para mejorar los incentivos para la detección del fraude, ya que estos incentivos deberían, de la misma manera, mejorar la autovigilancia científica (Bruner, 2013). Las propuestas de la Sección 6 sobre la transparencia en la ciencia encajan con estas propuestas (Schofield et al., 2009; Nosek y Bar-Anan, 2012; Nosek et al., 2012). La transparencia en la práctica permite a otros investigadores evaluar exactamente lo que se ha hecho, comprobar si hay signos de fraude y repetir experimentos con éxito. Una preocupación acerca de estas propuestas es que las replicaciones requieren mucho trabajo. No es particularmente eficiente realizar muchos estudios de baja calidad y luego repetirlos muchas veces en un esfuerzo por descubrir cuáles hallazgos son buenos.
Alternativamente, vimos muchas propuestas, especialmente en las Secciones 3 y 6, destinadas en primer lugar a mejorar la calidad de los estudios. Estas intervenciones incluyeron mejorar la teoría para aumentar la tasa base de hipótesis verdaderas probadas (Smaldino, 2019a; Bird, 2021; Stewart y Plotkin, 2021), cambiar las prácticas estadísticas (como cambiar al bayesianismo o reducir el umbral de significancia) (Benjamin et al. al., 2018; McShane et al., 2019; Romero y Sprenger, 2021), que requieren un registro previo (Nosek et al., 2018; Lakens, 2019) y avanzan hacia más colaboraciones entre muchos laboratorios.92 En términos de evidencia, mejorar la tasa base de hipótesis verdaderas (cuando sea posible) parece una idea indiscutiblemente buena. Las otras políticas tienen algunas posibles desventajas, como costos de tiempo y dinero (muchos laboratorios) y restricciones a la exploración (prerregistro), aunque ya se están realizando pruebas naturales de ellas a medida que algunas disciplinas adoptan estas prácticas. Asimismo, vale la pena probar más a fondo los cambios en los estándares estadísticos.
Muchas de las propuestas que acabamos de enumerar tienen como objetivo revertir los efectos de los incentivos crediticios perversos. Mientras los científicos obtengan crédito por realizar rápidamente descubrimientos positivos, se les incentivará a utilizar prácticas que realicen rápidamente descubrimientos positivos. Como vimos, esto puede llevar a los científicos a elegir prácticas descuidadas, cuestionables o fraudulentas, y también puede generar presiones de selección para prácticas de baja calidad (Higginson y Munafò, 2016; Smaldino y McEl Reath, 2016; Bright, 2017b; Heesen, 2018, 2021; Zollman, 2023).
El problema, por supuesto, es que muchas de estas prácticas no conducen particularmente a la verdad. Esto podría hacernos pensar que en lugar de dedicar mucho tiempo y energía a la replicación, o implementar barreras post hoc que impidan la publicación de trabajos deficientes, deberíamos cambiar la estructura de incentivos que los impulsa. Esta idea parece especialmente pertinente, dadas algunas cosas.
Primero, vimos modelos que ilustran que incluso con mucha replicación, podemos no formar buenas creencias en presencia de sesgo de publicación (Nissen et al., 2016; Romero, 2016; Devezer et al., 2019). Esto sucede cuando sólo se publican resultados positivos, en lugar de una muestra representativa de estudios. De ser así, los intentos de aumentar la replicación pueden no sólo ser ineficaces sino también infructuosos.
Y, en segundo lugar, vimos preocupaciones generales de que mientras existan incentivos perversos, los científicos encontrarán formas creativas de eludir las intervenciones destinadas a mejorar la calidad del trabajo (Mohseni, 2023a, 2023b).
Algunas de las propuestas de política descritas están orientadas a cambiar las propias estructuras de incentivos crediticios. Los informes registrados, por ejemplo, ayudan a incentivar la producción de investigaciones de alta calidad (en lugar de resultados positivos) (Chambers, 2013; Nosek y Lakens, 2014). Y las revistas con resultados nulos y negativos pueden hacer lo mismo (Munafò et al., 2017). Las colaboraciones adversas también cambian los esquemas de incentivos, ya que llaman la atención sobre el trabajo que desarrolla pruebas de la más alta calidad posible (Latham et al., 1988; Nuzzo, 2015). La protección exclusiva tiene como objetivo proteger el trabajo lento y de alta calidad de los incentivos prioritarios (Tiokhin et al., 2021). Podría decirse que las políticas de transparencia también cambian los incentivos: por lo general, para recibir crédito, al menos se debe percibir que los científicos utilizan métodos de alta calidad. Las intervenciones que facilitan la observación de la calidad metodológica presionan a los investigadores para que realicen un buen trabajo (Smaldino et al., 2019).
Sin embargo, existen tensiones respecto de los intentos de cambiar los incentivos crediticios. En primer lugar, el crédito no se asigna únicamente como resultado de una política científica. Como hemos visto, a menudo se acumula poco a poco, a través de un proceso de citación, atribución y respuesta de una comunidad. En particular, el crédito se deriva en parte de las preferencias humanas por la novedad. Aunque podemos crear revistas para resultados nulos, no podemos hacer que esos resultados sean interesantes. En segundo lugar, como se analiza en la sección 2, las estructuras crediticias como la regla de prioridad desempeñan papeles importantes en la promoción del comunismo y la productividad, los cuales son cruciales para el progreso científico. Dicho eso, la eliminación del sesgo de publicación y los umbrales de significancia debería preservar los impactos positivos de la regla de prioridad, al tiempo que elimina algunos de los incentivos perversos para generar hallazgos positivos.
Otro tema de política que vimos a lo largo del Elemento, y especialmente en las secciones 4 y 5 están relacionadas con la promoción de la diversidad transitoria de prácticas. Para funcionar bien, las comunidades científicas deben realizar una cantidad significativa de exploración. La pregunta es: ¿Cómo promovemos esta exploración? En la Sección 4, vimos modelos que apuntan a beneficios potenciales de una mayor comunicación en la ciencia (Zollman, 2010). Si los científicos se comunican menos, podrían mantener una mayor diversidad de opiniones, suposiciones e intereses. Si bien es probable que esta propuesta en particular tenga desventajas riesgosas, hay otras formas de producir efectos positivos similares. El uso de organismos de financiación centralizados para coordinar la exploración entre grupos de investigación puede promover la diversidad de prácticas sin crear ineficiencias al cortar el flujo de información (Goldman, 1999; Viola, 2015; Kummerfeld y Zollman, 2020; Wu y O’Connor, 2023).
De manera relacionada, Zollman (2009) aboga por estrategias en las revistas para compartir diversos hallazgos con el fin de promover la diversidad transitoria, especialmente mediante el uso de la aleatorización para seleccionar los artículos a publicar. Y en la sección 5, Avin (2019) y Harnagel (2019) argumentaron que los elementos aleatorios en los esquemas de financiamiento podrían desempeñar el mismo papel que las estrategias altamente exploratorias y podrían ser beneficiosos por esa razón. (La financiación de loterías también recibió apoyo en otras partes del Elemento por sus beneficios para la eficiencia y la selección natural de métodos) En conjunto, parecen prometedoras por varias razones).
Varios modelos indican que se puede generar una diversidad beneficiosa de prácticas incluyendo diferentes tipos de personas en la ciencia. La diversidad demográfica en los modelos de red puede actuar como impulsor de una diversidad transitoria de prácticas y un mejor aprendizaje (Fazelpour y Steel, 2022; Wu, 2023b). Y cualquier política que promueva la diversidad cognitiva en términos más generales puede ser útil a la luz de los resultados del modelo de paisaje, lo que indica que los individuos con diferentes estilos cognitivos pueden buscar con más éxito un paisaje de ideas (Thoma, 2015; Pöyhönen, 2017; Devezer et al., 2019; Hong y Page, 2004). Con respecto a cuál de estos mecanismos es mejor para fomentar la diversidad transitoria en la ciencia, promover la diversidad demográfica parece una opción obvia.
Con respecto a cuál de estos mecanismos es mejor para fomentar la diversidad transitoria en la ciencia, promover la diversidad demográfica parece una victoria obvia. En cualquier caso, vale la pena abordar las desigualdades históricas, y este tipo de intervención entraña pocos riesgos negativos.
Otro tema de política que abarcó todo el Elemento está relacionado con el aumento de la eficiencia de las comunidades científicas. El tiempo que los científicos pierden revisando, redactando propuestas de subvenciones, etc., es tiempo que no dedican a hacer descubrimientos importantes. Gross y Bergstrom (2019) abogaron por sistemas de revisión de subvenciones que dependan parcialmente de loterías para liquidar la financiación. Esto podría ahorrar tiempo tanto a los revisores como a quienes presentan subvenciones. También Heesen y Bright (2020) y Arvan et al. (2020) abogan por poner fin por completo a la revisión por pares previa a la publicación, en parte por razones de eficiencia. Hacer únicamente una revisión posterior a la publicación aceleraría la difusión de nuevos hallazgos y ahorraría tiempo a los revisores, editores y autores. Si bien ambas propuestas parecen prometedoras, existen posibles desventajas (en relación con las influencias sociales, el conservadurismo y la inequidad), y parece justificado realizar pruebas antes de una implementación generalizada. Naturalmente, estas pruebas ya están en marcha a medida que algunos organismos de subvenciones, algunas revistas y algunas disciplinas experimentan con nuevas estructuras de revisión.
Un último tema, especialmente presente en la Sección 4, se refería a las respuestas a la influencia industrial en la ciencia. Holman y Bruner (2015), Lewandowsky et al. (2019) y Weatherall et al. (2020) sugieren que las estrategias de influencia industrial, que van desde la fabricación de datos hasta la selección selectiva, pueden funcionar para influir en el consenso científico y la comprensión pública. Sobre la base de este trabajo, O’Connor y Weatherall (2019) abogan por intentar eliminar la influencia de la industria en la ciencia, tal vez canalizando el dinero de la investigación de la industria a través de agencias centralizadas que determinan quién hace la investigación y cómo. Weatherall y cols. (2020) abogan por controles de calidad de las investigaciones publicadas para evitar la selección selectiva.
Y Holman y Bruner (2015) recomiendan métodos de detección para los actores industriales. Dados los enormes daños históricos que la industria ha causado al progreso científico y a la creencia pública, este tipo de intervenciones justifican más investigaciones. En general, la metaciencia y la filosofía de la ciencia deberían centrarse más en reinventar las estructuras de financiación para proteger la ciencia de los daños de la industria. El recuerdo de Wu (2023a) se centra en otro aspecto de la ciencia industrial: que la industria puede beneficiarse de la norma comunista sin, a su vez, tener que compartir su propia investigación. Sobre la base de esta investigación, Wu y O’Connor (2023) abogan por la necesidad de compartir la investigación de la industria. Obviamente, esta política necesita más pruebas y evaluaciones, pero puede tener importantes beneficios para el progreso científico.
A lo largo del Elemento, los modelos revisados son en su mayoría simples. Idealizan y abstraen detalles de las comunidades que representan. Esto permite la manejabilidad. Muchos de estos modelos también iluminan de manera útil las causas y efectos en las comunidades científicas de maneras que podrían no ser posibles en modelos más complicados. Pero, como siempre, los modelos sencillos deben tratarse con cuidado. No se debe interpretar que simplemente revelan verdades sobre cómo funciona la ciencia. Dicho esto, los modelos analizados pueden desempeñar con éxito muchas y variadas funciones en la investigación del funcionamiento de la ciencia. Pueden ayudar a los investigadores a explorar posibilidades, identificar causas plausibles de diversas enfermedades, determinar qué podrían lograr ciertas intervenciones, sugerir trabajos empíricos adicionales, arrojar dudas sobre las afirmaciones teóricas, actuar como versiones más restringidas de experimentos mentales o razonamientos teóricos. etcétera. Hemos visto modelos desempeñar todo este tipo de roles a lo largo de este Elemento.
Los modelos son un conjunto importante de herramientas en nuestros intentos de comprender y mejorar el funcionamiento de las comunidades científicas. Como se señaló en la introducción, la mayor parte de las veces es mejor utilizarlos junto con herramientas empíricas para mejorar nuestra comprensión de la ciencia. Y como hemos visto, en muchos casos, esto es exactamente lo que está sucediendo en diversas disciplinas científicas mientras prueban intervenciones o políticas destinadas a mejorar la práctica científica.