Detodounpoco

mayo 3, 2007

La trastienda de la estadística

Archivado en: divulgación,enseñanza,estadística,matemáticas — Ernesto Sánchez de Cos Escuin @ 11:04 am

En un artículo anterior titulado La Estadística intenté caracterizar algunos elementos fundamentales del pensamiento estadístico, a fin de prevenir contra el uso engañoso de la misma por parte de sujetos y empresas interesadas.

Hoy en día, en cualquier carrera científica, o con pretensión de serlo o de aparentarlo, se imparten conocimientos para el manejo de la estadística. Se introduce al alumno en el concepto de variable aleatoria, se le explica lo que es una distribución de una variable, se le enseña lo que es la media, la moda, la mediana, la varianza y la desviación típica de una variable, se le introduce en la distribución normal y, lo más rápido posible, se le adiestra en el uso de diferentes tests para que los aplique. De esta forma se consigue que carreras como la psicología, la sociología, la pedagogía y muchas otras se vean dotadas de todo un aparataje que reafirme su dudoso carácter científico.

La estadística también se usa en física, y en las ingenierías, pero el carácter científico de estos estudios estaba ya muy asentado antes del uso generalizado de la estadística y, por otra parte, la preparación matemática que exigen éstos les permite una comprensión mucho más cabal de lo que he dado en llamar la trastienda de la estadística.

Todo el meollo de la estadística reside en la posibilidad de obtener información sobre una población que se quiere estudiar a partir de una muestra aleatoria de la misma.

Lo que quiero explicar en este corto artículo es por qué es posible lo anterior.

Todos hemos oído hablar de la curva de Gauss, y todos sabemos que se trata de una curva muy importante y de uso muy frecuente en estadística. También sabemos todos que tiene forma de campana más o menos ancha, e incluso que muchas variables de las poblaciones se distribuyen siguiendo una curva con aproximadamente esa forma. Se nos ha dicho que eso ocurre con la altura de los individuos de un país, o con las notas que obtienen los alumnos de una facultad, etc.

Aparte de esto, los alumnos de las carreras con pretensiones científicas saben pasar los parámetros que definen una curva de Gauss ( media y desviación típica ) a unidades tipificadas, para luego consultar una tabla y así obtener una probabilidad.

La verdadera importancia de esa curva con forma de campana viene dada por el teorema del límite central, que es donde reside todo el secreto de la estadística. Este teorema, que relaciona la distribución de cualquier variable aleatoria con la curva de Gauss – también llamada distribución normal -, constituye la verdadera trastienda de toda la estadística.

La curva de Gauss no es importante en estadística porque tenga forma de campana, ni porque muchas variables sigan esa distribución, sino por ese aparentemente complicado teorema – de hecho es complicado – cuyo significado tratamos de desvelar en este escrito.

Daremos la versión del teorema que afecta a lo que es toda la inferencia estadística, a la posibilidad de obtener conclusiones acerca de una población, con un alto nivel de probabilidad de que sean verdaderas, estudiando tan solo una muestra aleatoria.

Supongamos que en una población se está estudiando una variable X cuya distribución en la misma tiene por media m y por desviación típica d. Si obtuviéramos todas las muestras aleatorias de tamaño n de esa población y calculáramos las medias de todas las muestras podríamos obtener, a su vez, una distribución de medias de las muestras.

El teorema central del límite establece que:

1º La distribución de medias muestrales es una distribución de tipo “normal” ( una curva de Gauss) siempre que la población de origen de las muetras lo sea, o incluso aunque no lo sea, siempre que n sea de tamaño al menos 30.

2º La media de la distribución de medias muestrales coincide con la media de la población.

3º La desviación típica de la distribución de medias muestrales es igual a la desviación típica de la población dividida por la raíz cuadrada del tamaño de la muestra. Por tanto, a medida que aumenta el tamaño muestral n más concentradas están las medias muestrales en torno a la media poblacional, que es la que nos interesaría conocer.

Hemos visto que lo más importante de este teorema es que, aunque la distribución de la variable en la población no sea normal, sí lo es la distribución de medias muestrales para n igual o mayor que 30. Ésta es la clave, la trastienda, de toda la inferencia estadística, incluyendo la teoría de la estima y el contraste de hipótesis.

abril 4, 2007

La Estadística

Archivado en: estadística,matemáticas,pensamiento — Ernesto Sánchez de Cos Escuin @ 10:29 am

La estadística ha sido definida de muchas maneras, una de las cuáles es ésta: existen tres clases de mentiras, las mentiras a secas, las malditas mentiras y las estadísticas; otra es aquella que la define como la ciencia que demuestra que si usted tiene dos autos, y yo no tengo ninguno, los dos tenemos uno. Esta última, tan ilustrativa, se la debemos a Bernard Shaw. En cierta ocasión se pasó una encuesta a los 10000 habitantes de un pueblo para valorar sus aptitudes matemáticas y se encontró una correlación directa entre la habilidad para esta ciencia y el tamaño de los pies; ni que decir tiene que los niños menores de dos años también respondieron la encuesta, y hemos de suponer que sus pies no serían muy grandes.

Bromas aparte hemos de decir que la estadística es una rama de las Ciencias Exactas, y como tal goza de la misma exactitud que la geometría y el álgebra; asunto diferente es la aplicación de esta rama de las matemáticas a otras ciencias o materias. En este pequeño artículo me propongo caracterizar la estadística como ciencia, sin ocuparme del uso que políticos, periodistas, sociólogos y empresas interesadas puedan querer hacer de ella.

La estadística trata de poblaciones y establece afirmaciones sobre parámetros de las mismas, no ocupándose de lo que ocurre con individuos concretos de la población. Una afirmación estadística tipo puede afirmar, por ejemplo, que la mortalidad global tras una intervención de by-pass coronario es del 3%, pero no se ocupa para nada de qué le pasará a fulanito de tal que se va a operar, tiene una fracción de eyección normal, una prueba de esfuerzo negativa y una edad de 30 años. Obviamente, esto es lo que le interesaría saber a este señor particular – pues de ello depende su vida – pero la estadística no se ocupa de él. Cuando la estadística afirma que el tratamiento A es superior al tratamiento B para tratar una enfermedad determinada, esto significa que la probabilidad de que esto que afirmamos se deba al azar tiene una probabilidad inferior al 5%. Lo del 5% es algo convencional, de tal forma que admitimos que cuando un suceso ocurre y la probabilidad de que ocurra es menor de un 5% esto no se debe al azar

¿Qué poblaciones estudia la estadística? ¿Qué parámetros o características estudia en la población objeto del estudio?. Cualquier población puede ser objeto de estudio estadístico, ya se trate de piezas de una fábrica, de leucocitos, de seres humanos o de moléculas de un gas en un recipiente; en cuanto a los parámetros a estudiar, pueden ser asimismo cualesquiera, trátese de piezas defectuosas, del tamaño medio de un leucocito o de la confesión religiosa de una población determinada.

La estadística, como hemos dicho antes, se pronuncia sobre poblaciones, y nunca lo hace sobre individuos concretos pues no sabe a ciencia cierta lo que va a ocurrir con estos; es por esto que la estadística estudia habitualmente un subconjunto de la población, y luego generaliza sus conclusiones a la población completa. Si estudiara la población completa no estaríamos hablando de estadística, pues entonces sí se podría pronunciar sobre cualquier individuo y, además, sus conclusiones serían ciertas, con probabilidad 1.

 El subconjunto de la población que se estudia no es un subconjunto cualquiera, sino que ha de ser representativo de la población a estudiar y, para no introducir variación alguna – a esto en estadística se le conoce con el nombre de sesgo –, se escoge al azar. Este subconjunto escogido al azar se llama muestra.

Es curioso que sea la aleatoriedad, o el azar al elegir la muestra, lo que garantiza que la muestra es representativa de la población. La forma y el nº de elementos de la muestra pertenecen a la técnica estadística y no constituyen el objeto del presente artículo.

De todo esto se desprende que al estudiar una muestra de una población, los resultados no pueden ser absolutamente ciertos, y se deben expresar como una probabilidad; es decir, las afirmaciones de la estadística son probabilísticas.

La estadística como ciencia no explica fenómenos ni establece relaciones causales, sino tan sólo asociaciones estadísticas. Esto, requiere alguna explicación adicional: existe una asociación entre las manchas amarillas de los dientes ocasionadas por el tabaco y el cáncer de pulmón, pero esto no significa que estas manchas sean la causa del cáncer. Cuando estudiamos o comparamos la efectividad de dos tratamientos A y B sobre una enfermedad puede que no tengamos idea en absoluto de la forma de actuación de los tratamientos, pero constatamos una asociación estadística más favorable con el tratamiento A que con el B, y esto lo hacemos con una probabilidad de error inferior al 5%, por lo que convenimos que dicha asociación no es azarosa. Si acudimos a un médico que desconozca las limitaciones del método estadístico y que conoce que el tratamiento A es superior al B para nuestra enfermedad y nos sustituye el B que estábamos tomando por el A, bien pudiera suceder que a nosotros nos resultara más efectivo el B porque nos encontramos en ese 5%, y sin embargo el médico puede considerar que esto se debe a un efecto psicológico, negándose a prescribirnos el tratamiento B.

No podemos prescindir de la estadística porque ésta nos ayuda a estudiar poblaciones completas acudiendo a una pequeña muestra, ahorrando así recursos y tiempo; asimismo, nuestro desconocimiento de realidades muy complejas nos permite al menos establecer asociaciones estadísticas, que nos pueden proporcionar pistas sobre posibles interpretaciones causales que posteriormente serán experimentadas.

Por último, la mecánica cuántica y el principio de incertidumbre establecen que la propia naturaleza de la materia a nivel corpuscular nos impide el conocimiento exacto, pudiendo expresarnos tan sólo a nivel probabilístico. Estas son las razones por las que la estadística invadirá de forma inevitable cada día más nuestras vidas, y espero que este corto artículo haya servido a su propósito: caracterizar la estadística y vislumbrar su esencia, conociendo sus alcances y limitaciones, evitando así que nos puedan vender gato por liebre. He escrito este artículo porque la gran mayoría de libros de estadística para estudiantes inician su estudio mediante una definición de la estadística descriptiva – la media, la mediana, la moda, la desviación estándar – y de la estadística inferencial – distribución binomial, distribución de Gauss, de Poisson, muestra y demás técnicas -, consiguiendo que el estudiante se vea abrumado por tantos métodos que aplica sin comprender que, al final, los árboles le impiden ver el bosque. Espero que esta modesta aproximación conceptual corrija lo anterior en alguna medida.

Tema Rubric. Blog de WordPress.com.

Seguir

Get every new post delivered to your Inbox.