En un artículo anterior titulado La Estadística intenté caracterizar algunos elementos fundamentales del pensamiento estadístico, a fin de prevenir contra el uso engañoso de la misma por parte de sujetos y empresas interesadas.
Hoy en día, en cualquier carrera científica, o con pretensión de serlo o de aparentarlo, se imparten conocimientos para el manejo de la estadística. Se introduce al alumno en el concepto de variable aleatoria, se le explica lo que es una distribución de una variable, se le enseña lo que es la media, la moda, la mediana, la varianza y la desviación típica de una variable, se le introduce en la distribución normal y, lo más rápido posible, se le adiestra en el uso de diferentes tests para que los aplique. De esta forma se consigue que carreras como la psicología, la sociología, la pedagogía y muchas otras se vean dotadas de todo un aparataje que reafirme su dudoso carácter científico.
La estadística también se usa en física, y en las ingenierías, pero el carácter científico de estos estudios estaba ya muy asentado antes del uso generalizado de la estadística y, por otra parte, la preparación matemática que exigen éstos les permite una comprensión mucho más cabal de lo que he dado en llamar la trastienda de la estadística.
Todo el meollo de la estadística reside en la posibilidad de obtener información sobre una población que se quiere estudiar a partir de una muestra aleatoria de la misma.
Lo que quiero explicar en este corto artículo es por qué es posible lo anterior.
Todos hemos oído hablar de la curva de Gauss, y todos sabemos que se trata de una curva muy importante y de uso muy frecuente en estadística. También sabemos todos que tiene forma de campana más o menos ancha, e incluso que muchas variables de las poblaciones se distribuyen siguiendo una curva con aproximadamente esa forma. Se nos ha dicho que eso ocurre con la altura de los individuos de un país, o con las notas que obtienen los alumnos de una facultad, etc.
Aparte de esto, los alumnos de las carreras con pretensiones científicas saben pasar los parámetros que definen una curva de Gauss ( media y desviación típica ) a unidades tipificadas, para luego consultar una tabla y así obtener una probabilidad.
La verdadera importancia de esa curva con forma de campana viene dada por el teorema del límite central, que es donde reside todo el secreto de la estadística. Este teorema, que relaciona la distribución de cualquier variable aleatoria con la curva de Gauss – también llamada distribución normal -, constituye la verdadera trastienda de toda la estadística.
La curva de Gauss no es importante en estadística porque tenga forma de campana, ni porque muchas variables sigan esa distribución, sino por ese aparentemente complicado teorema – de hecho es complicado – cuyo significado tratamos de desvelar en este escrito.
Daremos la versión del teorema que afecta a lo que es toda la inferencia estadística, a la posibilidad de obtener conclusiones acerca de una población, con un alto nivel de probabilidad de que sean verdaderas, estudiando tan solo una muestra aleatoria.
Supongamos que en una población se está estudiando una variable X cuya distribución en la misma tiene por media m y por desviación típica d. Si obtuviéramos todas las muestras aleatorias de tamaño n de esa población y calculáramos las medias de todas las muestras podríamos obtener, a su vez, una distribución de medias de las muestras.
El teorema central del límite establece que:
1º La distribución de medias muestrales es una distribución de tipo “normal” ( una curva de Gauss) siempre que la población de origen de las muetras lo sea, o incluso aunque no lo sea, siempre que n sea de tamaño al menos 30.
2º La media de la distribución de medias muestrales coincide con la media de la población.
3º La desviación típica de la distribución de medias muestrales es igual a la desviación típica de la población dividida por la raíz cuadrada del tamaño de la muestra. Por tanto, a medida que aumenta el tamaño muestral n más concentradas están las medias muestrales en torno a la media poblacional, que es la que nos interesaría conocer.
Hemos visto que lo más importante de este teorema es que, aunque la distribución de la variable en la población no sea normal, sí lo es la distribución de medias muestrales para n igual o mayor que 30. Ésta es la clave, la trastienda, de toda la inferencia estadística, incluyendo la teoría de la estima y el contraste de hipótesis.