Condicionamiento operante

El condicionamiento operante es un tipo de proceso de aprendizaje desarrollado por el psicólogo norteamericano B. F. Skinner. A diferencia del condicionamiento clásico donde el sujeto aprende tras la asociación de dos estímulos que aparecen juntos de forma repetida, el condicionamiento operante actúa por medio del afianzamiento o extinción de una respuesta tras la introducción de un reforzador (positivo o negativo) tras la aparición de la misma. Esto es, tras la aparición de la respuesta deseada esta se afianza por medio de un refuerzo positivo y la/as respuesta/s no deseada/s se extinguen por medio de la introducción de un refuerzo negativo. 

El condicionamiento operante actúa pues sobre las consecuencias que se derivan de llevar a cabo, o no, una acción y no sobre la mera asociación refleja de estímulos. Para el desarrollo de su teoría, Skinner parte de la conocida como Ley del efecto propuesta por  E. Thorndike y de la teoría del reforzamiento.

Thorndike y la Ley del efecto.

A finales del siglo XIX, el psicólogo de origen norteamericano E. Thorndike comenzó un estudio sobre el aprendizaje utilizando un recurso diseñado por él que conocemos como "cajas problema". Estas eran cajas de madera en el interior de las cuales situaba, generalmente, un gato hambriento (también utilizó perros) y el animal tenía que aprender qué respuesta era la más adecuada para que se abriera la puerta de la caja y pudiera acceder al plato de comida del exterior que tenía a su vista. En el interior de la caja, el animal se encontraba con diferentes mecanismos como palancas, cuerdas o baldas que, al ser correctamente accionados, permitían la apertura de la caja. Thorndike registraba la latencia, es decir, el tiempo que tardaba el gato a hacer la respuesta correcta y volvía a cerrar al animal dentro de la caja. Este investigador observó que la duración de la latencia disminuía gradualmente a lo largo de los ensayos sucesivos; así, si en la primera ocasión que el animal se encontraba en la caja tardaba casi diez minutos en poder abrir la puerta, en el ensayo cuarenta podía resolver en menos de dos minutos. 

Thorndike interpretó esta disminución gradual de las latencias como un aprendizaje de ensayo y error en el que no participaba el razonamiento, dado que la curva del tiempo empleado no caía drásticamente una vez que el animal encontraba la respuesta correcta. Así pues, en el aprendizaje por ensayo y error, el animal enjaulado realizaba una serie de respuestas típicas de su especie entre las cuales una de ellas, por azar, daba lugar a la apertura de la puerta; las consecuencias satisfactorias de esta respuesta (poder acceder a la comida) servirían para fortalecer, gradualmente, una hipotética asociación entre el estímulo del interior de la caja-problema y la respuesta correcta. 

Fue así como Thorndike propuso la teoría de que los animales aprenden por ensayo y error. Cuando algo funciona satisfactoriamente, el animal establece una conexión o asociación entre el comportamiento y el resultado positivo. Esta asociación constituye la base para el comportamiento posterior. Pero cuando el animal comete un error o el resultado que obtiene es negativo, no se forma esta asociación entre el comportamiento y el resultado, por lo que el comportamiento ineficaz es menos probable que se repita. Así, aunque inicialmente Thorndike estableció paralelismos entre los resultados positivos, que se denominan refuerzos en conductismo, y los resultados negativos, que se conocen como castigos, tras sus estudios acabó por afirmar que el castigo era ineficaz en la eliminación de la conexión entre el comportamiento y el resultado. 

El reforzamiento y las conductas.

El desarrollador principal de la teoría sobre el condicionamiento operante, B. F. Skinner, mantenía que los procesos mentales fundamentales para comprender y explicar la conducta de los sujetos ya que estos adquieren, aprenden y modifican sus conductas por medio de la conexión ente estímulos y respuestas. Partiendo de esta base, Skinner distingue entre dos tipos de conducta fundamentales:

Skinner cree que la mayor parte de la conducta es operante: andar escribir… donde no es fácil identificar el estímulo que la produce. En este sentido, quizá cabría añadir que las conductas operantes no es que carezcan totalmente de estímulo, sino que encontrarlo y vincularlo a la respuesta es prácticamente imposible. En cualquier caso, lo que caracteriza a las respuestas operantes es que son espontáneas y no reactivas.

Partiendo de esta diferenciación de conductas,  se plantea también una clasificación de estímulos como desencadenante de una respuesta. Hablamos así dos tipos de estímulos  diferenciados por las consecuencias que la respuesta que provoque pueden tener para el organismo.

El condicionamiento operante.

Skinner desarrolla su teoría sobre el condicionamiento que denominará instrumental u operante postulado que este tipo de condicionamiento supone un procedimiento de aprendizaje basado en que la probabilidad de que se dé una respuesta determinada depende de las consecuencias que el organismo espera al desarrollarla. En el condicionamiento operante la conducta es controlada por estímulos discriminativos (con la aparición de reforzadores) que han estado presentes durante el proceso de aprendizaje y que informan al organismo sobre las consecuencias probables que tendrá la respuesta que dicho organismo realice ante la aparición del estímulo

El esquema básico de este tipo de condicionamiento es es el siguiente. En primer lugar se plantea una meta conductual, que consistirá en el aumento o la reducción de comportamientos determinados o en el hecho de que el organismo ofrezca una respuesta concreta. En función de esto se reforzarán positivamente las conductas que se persiguen como objetivo y se reducirán los incentivos, esto es, se reforzarán negativamente,  las conductas que se pretende inhibir.

En general la retirada de reforzadores es más deseable que el castigo puesto que genera menos rechazo y hostilidad por parte del sujeto. No obstante el castigo puede ser útil en casos en que la conducta que se pretende inhibir es muy disruptiva y requiere una rápida extinción, por ejemplo si en dicha respuesta encontramos altos componentes violentos.