Menú Cerrar

Distribución muestral de la media y la proporción

¿Qué es una distribución muestral?

Una distribución muestral es una distribución de probabilidad de un estadístico (ej. media muestral, proporción muestral) obtenido de varias muestras del mismo tamaño. La distribución muestral representa cómo varía un estadístico de muestra en muestra.

Consideremos que la administración de una universidad ha tomado una muestra aleatoria simple de tamaño n=30 de una población de 2,000 estudiantes universitarios. Las estimaciones de interés son el promedio de horas de estudio por semana y la proporción de estudiantes que estudian y trabajan. Si no se cuenta con el presupuesto y tiempo para consultar a los 2,000 estudiantes, se estima la media poblacional μ de las horas de estudio semanales mediante un estadístico muestral, es decir, con la media muestral. Del mismo modo, se estima la proporción poblacional p de los estudiantes que estudian y trabajan con la proporción muestral. Los estimadores puntuales son los siguientes:

La media muestral es igual a 14.75, lo que significa que los estudiantes dedican, en promedio, 14.75 horas de estudio a la semana. La proporción muestral indica que 71% de los estudiantes estudian y trabajan. Supongamos que los administradores toman una segunda muestra de tamaño igual a 30, obteniendo los siguientes resultados:

Es de esperar que la media y la proporción muestrales difieran ligeramente entre muestras. Si el proceso de muestro se repite varias veces, es posible construir la distribución de frecuencias, tanto para la media muestral como para la proporción muestral. La media y la proporción muestrales son variables aleatorias de este experimento, en consecuencia, tienen un valor esperado, una desviación estándar y una distribución de probabilidad conocida como distribución muestral.

Consideremos que los administradores de la universidad toman 100 muestras de tamaño n=30, la siguiente tabla muestra la distribución de frecuencias de la media muestral de las horas de estudio por semana:

Con la distribución de frecuencias se construye el siguiente histograma:

Distribución de la media muestral

La distribución de la media muestral es la distribución de probabilidad de todos los valores de la media muestral, que, como variable aleatoria, tiene una media, la cual es su valor esperado, mismo que es igual a la media poblacional cuando se utiliza el muestreo aleatorio simple. Consecuentemente, el valor esperado de la media muestral es un estimador insesgado de la media poblacional.

Para calcular la desviación estándar de la media muestral, se tienen dos casos, cuando la población es finita se utiliza la siguiente fórmula:

La siguiente fórmula corresponde al caso de una población infinita, aunque también se utiliza cuando la población es finita y el tamaño de la muestra es menor o igual al 5% del tamaño de la población:

Es importante notar que en ambos casos se da por hecho que se conoce la desviación estándar poblacional. La diferencia entre ambas fórmulas se conoce como factor de corrección para una población finita, el cual es casi igual a 1 cuando la población es finita y muy grande, mientras que el tamaño de la muestra es pequeño. En tales casos, la diferencia entre los resultados que se obtienen con ambas fórmulas es despreciable. Luego, la desviación estándar de la media muestral para poblaciones infinitas es una buena aproximación cuando se trabaja con poblaciones finitas.

A la desviación estándar de la media muestral se le conoce como error estándar. En otras palabras, el error estándar es la desviación estándar de un estimador puntual, en este caso la media muestral. Si los administradores de la universidad saben que la desviación estándar poblacional es igual a 3.3 y el tamaño de la muestra es igual a 30, tenemos:

Teorema del límite central

El teorema del límite central establece que, al seleccionar muestras aleatorias simples de tamaño n de una población, la distribución de la media muestral se aproxima a una distribución normal conforme el tamaño de la muestra aumenta.

¿Qué tan grande debe ser el tamaño de la muestra para suponer que la distribución en cuestión se aproxima a la normal? En general, podemos suponer que una muestra de tamaño 30 o mayor se aproxima a una distribución normal. No sabemos si los datos del ejemplo que se ha desarrollado en los párrafos anteriores están distribuidos normalmente, pero si los administradores de la universidad realizan un muestreo aleatorio simple, en el cual el tamaño de la muestra es igual a 30, podemos suponer una distribución normal. No obstante, cuando hay observaciones atípicas, se requieren muestras más grandes.

Hemos calculado el error estándar de la media muestral, el cual es igual a 0.6, supongamos que la media poblacional es igual 12.08 (μ=12.08) horas de estudio semanales. La administración de la universidad piensa que una buena estimación debe estar a más o menos media hora de estudio semanal de la media poblacional. ¿Cuál es la probabilidad de que la media muestral cumpla con el criterio de la administración de la universidad? Calculamos los valores z para los extremos del intervalo:

Después de consultar tablas, tenemos que P(z≤0.83)=0.8 y P(z≤-0.83)=0.2, y calculamos P(-0.83≤z≤0.83):

Existe una probabilidad de 0.6 de que con una muestra aleatoria simple de tamaño igual a 30 se obtenga una media muestral que difiera cuando mucho media hora de la media poblacional, lo que implica que la probabilidad de que la media muestral difiera de la media poblacional en más de media hora es igual a 0.4 (1-0.6=0.4).

Una muestra de tamaño mayor a 30 proporcionará una mejor estimación de la media poblacional. El error estándar de la media muestral disminuye cuando el tamaño de la muestra aumenta. Calculemos el error estándar de la media muestral, considerando que el tamaño de la muestra es igual a 100:

Al aumentar el tamaño de la muestra de 30 a 100, el error estándar de la media muestral disminuye de 0.6 a 0.33. La distribución muestral con el error estándar más pequeño presenta menos variación entre los valores de la media muestral, por lo que estarán más cerca de la media poblacional. Dicho de otro modo, la distribución muestral con el error estándar más pequeño se relaciona con un estimador puntual más eficiente que aquellos con un error estándar más grande.

Considerando el nuevo tamaño de la muestra, calculamos la probabilidad de que la media muestral esté a más o menos media hora de estudio semanal de la media poblacional. Primero, determinamos los valores z:

Después de consultar tablas, tenemos que P(z≤1.52)=0.94 y P(z≤-1.52)=0.06, luego calculamos P(-1.52≤z≤1.52):

Existe una probabilidad de 0.88 de que con una muestra aleatoria simple de tamaño igual a 100 se obtenga una media muestral a no más de media hora de la media poblacional, lo que implica que la probabilidad de que la media muestral difiera de la media poblacional en más de media hora es igual a 0.12 (1-0.88=0.12). La probabilidad de que la media muestral cumpla con el criterio de la administración de la universidad aumentó de 0.6 a 0.88 después de aumentar el tamaño de la muestra de 30 a 100 elementos.

Distribución muestral de la proporción muestral

La distribución de la proporción muestral es la distribución de probabilidad de todos los posibles valores de la proporción muestral. La proporción muestral se calcula dividiendo el número de elementos x de la muestra que cumplen algún criterio (ej. estudiantes que trabajan y estudian) entre el tamaño n de la muestra.

El valor esperado de la proporción muestral es igual a la proporción poblacional p, lo que implica que es un estimador insesgado de p.

Para calcular la desviación estándar de la proporción muestral, se tienen dos fórmulas, la primera se utiliza para poblaciones finitas:

La siguiente se utiliza para poblaciones infinitas:

La única diferencia entre las dos fórmulas es el factor de corrección que, como ya se ha explicado para la media muestral, es igual a casi 1 cuando el tamaño de la población es grande en comparación con el tamaño de la muestra, en tal caso la diferencia entre los resultados que se obtienen con ambas fórmulas es despreciable, por lo que es posible utilizar la segunda fórmula si la población es finita y el tamaño de la muestra es igual o menor al 5% del tamaño de la población.

El error estándar de la proporción es la desviación estándar de la proporción muestral. Dado que para nuestro ejemplo n/N=30/2,000=0.015, el error estándar de la proporción se puede calcular con la segunda fórmula, ignorando el factor de corrección y considerando que la proporción poblacional p es igual a 0.65:

La distribución de la proporción muestral se aproxima mediante la distribución normal cuando np≥5 y n(1-p)≥5. En nuestro ejemplo, tenemos que n=30 y p=0.65:

La administración de la universidad desea conocer la probabilidad de obtener una proporción muestral entre 0.6 y 0.7. Calculamos los valores z:

Consultamos tablas y tenemos que P(z≤0.57)=0.72 y P(z≤-0.57)=0.28, y calculamos P(-0.57≤z≤0.57):

Hay una probabilidad de 0.44 de que con una muestra aleatoria simple de tamaño igual a 30 se obtenga una proporción muestral a no más de 0.05 de la proporción poblacional, lo que implica que la probabilidad de que la proporción muestral difiera de la proporción poblacional en más de 0.05 es igual a 0.56 (1-0.44=0.56).

Repetimos el procedimiento considerando que el tamaño de la muestra aumenta a 100: calculamos el error estándar de la proporción muestral, los valores z, la probabilidad acumulada de los valores z y la probabilidad de que z se encuentre entre los valores calculados:

La probabilidad de que la proporción muestral no difiera en más de 0.05 de la proporción muestral aumenta de 0.44 a 0.7 debido a que el tamaño de la muestra aumentó de 30 a 100.

Cómo citar

García, Miguel. (27 abril 2025). Distribución muestral de la media y la proporción. Celeberrima.com. Última actualización el 27 abril 2025.