top of page

Tamaño de la muestra

Estimación del tamaño óptimo de la muestra

Tamaño de la muestra en función del IC y alpha.

Tamaño de la muestra en función del IC y alpha.

El tamaño de la muestra es un factor crucial en cualquier estudio estadístico, ya que influye directamente en la precisión y la potencia de nuestras conclusiones.


¿Por qué es importante el tamaño de la muestra?

  • Precisión: A mayor tamaño de muestra, menor es el margen de error y más precisa será nuestra estimación de un parámetro poblacional (por ejemplo, la media o la proporción).

  • Potencia: Como ya hemos visto, un mayor tamaño de muestra aumenta la potencia de una prueba, es decir, la probabilidad de detectar una diferencia real cuando existe.

  • Representatividad: Una muestra más grande tiende a ser más representativa de la población, lo que reduce el sesgo en los resultados.


Factores influyen en el cálculo del tamaño de la muestra

El cálculo del tamaño de la muestra depende de varios factores, entre ellos:

  • Nivel de confianza: El grado de certeza que deseamos tener en nuestros resultados. Por ejemplo, un nivel de confianza del 95% significa que estamos seguros en un 95% de que el verdadero valor del parámetro poblacional se encuentra dentro del intervalo de confianza.

  • Margen de error: La precisión deseada en nuestra estimación. Un margen de error más pequeño requiere un tamaño de muestra mayor.

  • Desviación estándar: La variabilidad de la variable que estamos estudiando. Una mayor desviación estándar requiere un tamaño de muestra mayor.

  • Tamaño del efecto: La magnitud de la diferencia que queremos detectar. Cuanto más pequeña sea la diferencia que queremos detectar, mayor será el tamaño de muestra requerido.

  • Potencia estadística: La probabilidad de rechazar correctamente una hipótesis nula falsa. Una mayor potencia requiere un tamaño de muestra mayor.


Calculo del tamaño de la muestra

El cálculo del tamaño de la muestra puede ser complejo y depende del tipo de estudio que se esté realizando (por ejemplo, una prueba de hipótesis, una estimación de una proporción). Existen fórmulas específicas para cada caso, y también se pueden utilizar software estadístico para realizar estos cálculos.


Factores a considerar al calcular el tamaño de la muestra:

  • Tipo de análisis: ¿Se realizará una prueba t, una ANOVA, una regresión logística, etc.?

  • Diseño del estudio: ¿Es un estudio experimental, observacional, longitudinal, etc.?

  • Hipótesis nula y alternativa: ¿Cuál es la diferencia mínima que se desea detectar?

  • Distribución de los datos: ¿Los datos siguen una distribución normal o no?

Ejemplo

Queremos realizar un estudio para comparar la eficacia de dos tratamientos para una enfermedad. Queremos detectar una diferencia de 5 puntos en una escala de 100 puntos con un nivel de confianza del 95% y una potencia del 80%. Para calcular el tamaño de muestra necesario, tendríamos que conocer la desviación estándar de la variable y utilizar una fórmula o un software estadístico adecuado.


¿Qué pasa si el tamaño de la muestra es demasiado pequeño o demasiado grande?

  • Tamaño de muestra demasiado pequeño:

  • Baja potencia: Es menos probable detectar una diferencia real si existe.

  • Mayor margen de error: Las estimaciones serán menos precisas.

  • Resultados no generalizables: Los resultados pueden no ser representativos de la población.

  • Tamaño de muestra demasiado grande:

  • Costoso: Requiere más tiempo y recursos.

  • Ético: Puede ser innecesario exponer a más participantes de lo necesario.


Estimación del tamaño muestral o tamaño de la muestra

Suponga que queremos reunir datos muestrales con el objetivo de estimar alguna proporción de la población. ¿Cómo sabemos cuántos elementos muestrales deben obtenerse? Si tomamos la expresión para el margen de error E, y luego despejamos n, obtenemos la fórmula del tamaño de la muestra, la cual requiere que pˆ sea un estimado de la proporción poblacional p; pero si no se conoce un estimado como éste (como suele ser el caso), reemplazamos pˆ por 0.5 y reemplazamos qˆ por 0.5, con el resultado que se da en la fórmula también expresada arriba.

No es importante recordar perfectamente la formula pero si es interesanste y útil recordar el significado y concepto de la misma. La formula expresa que el tamaño de la muestra se determina en función no solo de la proporción, sino también del intervalo de confianza. Y decimos esto porque se ve que el tamño n depende de:

que son los aspectos que como se ve en las formulas definen el tamaño de la muestra para una determinada proporción o media.


Muchas personas creen de manera errónea que el tamaño de la muestra debe ser algún porcentaje de la población; sin embargo, la fórmula indica que el tamaño de la población suele ser es irrelevante. 

En realidad, el tamaño de la población se utiliza algunas veces, pero sólo en casos en los que ha cemos un muestreo sin reemplazo de una población relativamente pequeña. 


Construcción de una muestra

Ahora examinaremos esta importante pregunta: cuando planeamos reunir una muestra aleatoria simple de datos que se usarán para estimar una media poblacional µ,

¿cuántos valores muestrales deben obtenerse? Por ejemplo, suponga que queremos estimar el peso medio de pasajeros de líneas aéreas (un valor importante por razones de seguridad). ¿Cuántos pasajeros deben seleccionarse al azar y pesarse? La determinación del tamaño de una muestra aleatoria simple es un aspecto muy importante, puesto que muestras que son innecesariamente grandes desperdician tiempo y dinero, en tanto que muestras muy pequeñas conducen a resultados deficientes.

La fórmula es relevante puesto que indica que el tamaño muestral no depende del tamaño de la población (N); el tamaño muestral depende del nivel de confianza deseado, del margen de error deseado y del valor de la desviación estándar. 

El tamaño muestral debe ser un número entero, ya que representa el número de valores muestrales que deben encontrarse. Sin embargo, suele dar un resultado que no es un número entero, de manera que debe redondearse hacia arriba para que sea al menos adecuadamente grande en oposición a un tamaño ligeramente más pequeño.


Dilema de construcción de la muestra:

Cuando se aplica la fórmula existe un dilema práctico: la fórmula requiere que sustituyamos algún valor de la desviación estándar poblacional, pero en realidad ésta suele desconocerse. 

Cuando se determina un tamaño muestral requerido (sin construir un intervalo de confianza), existen algunos procedimientos que pueden funcionar para este problema:

1. Usar la regla práctica del intervalo para estimar la desviación estándar como el rango sobre 4. (Con una muestra de 87 valores o más, seleccionada al azar de una población normalmente distribuida, el rango/4 nos da un valor que es mayor que o igual a s al menos el 95% de las veces. Véase “Using the Sample Range as a Basis for Calculating Sample Size in Power Calculations”, de Richard Browne, American Statistician, vol. 55, núm. 4).

2. Realizar un estudio piloto empezando por el proceso de muestreo. Comience el proceso de muestreo y, utilizando los primeros valores, calcule la desviación estándar muestral s y úsela en lugar de s. Entonces, el valor estimado de s puede mejorar conforme se obtienen más datos muestrales, y de este modo es posible refinar el tamaño muestral. Esto no es otra cosa que tomar una muestra controlar y controloar su calidad como se muestra en el apartado de estimadores y su estudio. Luego revisar y replantear el tamaño.

3. Estimar el valor de s utilizando los resultados de algún otro estudio hecho con anterioridad. Es decir, en base a experiencias previas. En cualquier caso conviente luego revisar. (Ver revisión de una muestra)

Asimismo, algunas veces podemos ser creativos en nuestro uso de otros resultados conocidos. Por ejemplo, por lo regular las pruebas de CI están diseñadas para que la media sea 100 y la desviación estándar sea 15. Los profesores y profesionales en general tienen puntuaciones de CI con una media mayor que 100 y una desviación estándar menor que 15 (puesto que son un grupo más homogéneo que las personas seleccionadas al azar de la población general). No conocemos el valor específico de desvío estadandar para los profesores, pero podemos calcular con seguridad usando 𝞂= 15. Utilizar un valor de s que sea mayor que el valor real producirá un tamaño muestral mayor del necesario, pero utilizar un valor de  𝞂 que sea muy pequeño daría por resultado un tamaño muestral inadecuado. 


En definitiva, al calcular el tamaño inicial de una muestra:

Cuando se calcula el tamaño muestral n, cualquier error siempre debe ser conservador, en el sentido de que haga a n muy grande y no muy pequeña.


Revisión de una muestra

Ejemplo:

Tamaños de las muestras para el uso de aplicaciones de comunicación.

Las formas en las que nos comunicamos se han visto afectadas drásticamente por el uso de máquinas contestadoras telefónicas, máquinas de fax, correo de voz y correo electrónico. Veamos entonces dos casos de investigación que se hicieron para analizar el uso de aplicaciones de telecomunicación: e-mail y whatssap.

Para ambos casos se muestra el resultado de la investigación y se analiza cual es el tamaño de la muestra necesario para que ese resultado sea confiable.


1. Tamaño muestral para una encuesta por correo electrónico  

En 1997, un sociólogo  determino que el porcentaje de hogares en Estados Unidos que utilizaban el correo electrónico. era 17% aprosimadamente. ¿Cuántos hogares deben encuestarse para tener una confianza del 95% de que el porcentaje muestral es erróneo por no más de 4 puntos porcentuales?

a.  Utilice el siguiente resultado de un estudio pionero: en 1997, el 16.9% de los hogares estadounidenses usaban correo electrónico (según datos de The World Almanac and Book of Facts).

b.  Suponga que no tenemos información previa que sugiera un posible valor de pˆ.


Solución:

Los calculos que se muestran a continuación están compartidos en jupyter notebook en mi github.

a.  El estudio previo sugiere que pˆ=0.169, entonces qˆ =0.831 (calculado de qˆ= 1=0.169). Con un nivel de confianza del 95%, tenemos a=0.05, entonces za/2=1.96. Además, el margen de error es E=0.04 (el equivalente decimal de “cuatro puntos porcentuales”). 

Puesto que tenemos un valor estimado de pˆ, usamos la fórmula como sigue:

n=(([Za/2]**2) pˆ qˆ)/ E**2

[1.96]**2 (0.169)(0.831)/(0.042**2)

337.194 = 338 (redondeado)

Debemos encuestar al menos 338 hogares seleccionados al azar.

b.  Como en el inciso a), nuevamente utilizamos Za/2= 1.96 y E=0.04, pero sin conocimiento previo de pˆ (o qˆ), usamos el valor pˆ=qˆ=0.5

n=(([1.96]**2) * 0.25)/(0.042**2)

600.25 = 601 (redondeado)

Interpretación:

Para tener una confianza del 95% de que nuestro porcentaje muestral está dentro de cuatro puntos porcentuales del porcentaje verdadero para todos los hogares, debemos seleccionar al azar y encuestar 601 hogares. Comparando este resultado con el tamaño muestral de 338 calculado en el inciso a), podemos ver que si no tenemos conocimiento de un estudio previo, se requiere una muestra más grande para obtener los mismos resultados que cuando se puede estimar el valor de pˆ. Pero ahora recurramos al sentido común: sabemos que el uso del correo electrónico está creciendo tan rápidamente que el estimado de 1997 es muy antiguo para ser de utilidad. En la actualidad, mucho más del 16.9% de los hogares estadounidenses utilizan correo electrónico. Siendo realistas, necesitamos una muestra mayor que 338 hogares. Suponiendo que en realidad no conocemos la tasa actual de uso de correo electrónico, deberíamos seleccionar al azar 601 hogares. Con 601 hogares, tendremos una confianza del 95% de que estamos dentro de cuatro puntos porcentuales del porcentaje verdadero de hogares que usan correo electrónico.


2. Whatssap

 Para realizar un análisis similar al del correo electrónico en 1997, pero enfocado en el uso de WhatsApp en la actualidad, podemos utilizar los datos recientes disponibles.

En 2024, se estima que WhatsApp tiene 3.031 mil millones de usuarios activos mensualmente, lo que representa alrededor del 52% de los usuarios de Internet a nivel global (What's The Big Data?) (BankMyCell).

Ahora, procederemos a calcular el tamaño de muestra necesario para tener un 95% de confianza en que el porcentaje muestral no se desvía más de 4 puntos porcentuales del porcentaje real de usuarios que utilizan WhatsApp. Además veamos como varía el porcentaje si quermos mayor o menor margen de error que un 4%.

Solución:

Al realizar los cálculos para este escenario con statsmodels.stats.proportion, se observa lo siguiente en jupiter notebook.

  • Tamaño de muestra necesario: 599 para un IC 95% de alpha 0.05 y un margen de error E 0.04

  • Se elabora la grafica de todos los valores posibles para los IC de 95% (alpha 0.05) y 99% alpha 0.01)

  • En ambos casos el margen de error varía de 0 a 10% (ver gráfico aquí o en github)

Interpretación de los resultados y la gráfica

  1. Margen de Error y Tamaño de Muestra: A medida que el margen de error disminuye, el tamaño de muestra necesario aumenta considerablemente. Esto se debe a que una mayor precisión (menor margen de error) requiere una mayor cantidad de datos para asegurar que el estimado sea confiable.
    La relación no es lineal; conforme el margen de error se hace muy pequeño (por ejemplo, menos del 1%), el tamaño de muestra requerido aumenta de manera exponencial.

  2. Comparación entre diferentes niveles de confianza: Para un nivel de confianza del 95% (alpha=0.05), el tamaño de muestra es menor comparado con un nivel de confianza del 99% (alpha=0.01).
    Esto es intuitivo, ya que un mayor nivel de confianza implica que queremos estar más seguros de que el intervalo de confianza contiene el parámetro poblacional verdadero, lo cual requiere una muestra más grande.

  • Comparar ambos niveles de confianza en diferentes márgenes de error puede proporcionar una visión clara de cómo influye el nivel de confianza en el tamaño de la muestra.

  • Los puntos en los que ambas curvas se muestran más divergentes resaltan las áreas donde el incremento en la necesidad de tamaño de muestra es más pronunciado.

Conclusión:

  • El análisis y la gráfica proporcionan una herramienta valiosa para entender cómo el tamaño de muestra necesario cambia con el margen de error y el nivel de confianza. 

  • Esto es fundamental en la planificación de estudios y encuestas, permitiendo a los investigadores asegurarse de que su muestra sea lo suficientemente grande como para proporcionar resultados confiables y precisos.

Errores comunes 

Al calcular el tamaño muestral, se debe cuidar de evitar los siguientes dos errores comunes: 

1. Utilizar E=4 como el margen de error correspondiente a cuatro puntos. Debe utilizarse un porcentaje de puntos porcentuales, por ejemplo E=0.04.

2. -Sustituir la puntuación z crítica por za>2. Por ejemplo, si se trabaja con una con fianza del 95%, se debe  reemplazar za>2 por 1.96. No cometer el error de reemplazar za>2 por 0.95 o 0.05


Otros ejemplos de aplicaciones:

El tamaño de la muestra se suele usar tanto al inicio de un trabajo de estadística (por ejemplo una encuesta, como para revisar un trabajo de estadística. Es por esto que este concepto se encuentra presente en todos o casi todos los proyectos de estadística.

En este sentido, puede ser util para el lector, recordar un caso muy conocido en sociología, medicina y estadística, como es el caso de Emily Rosa, quien a muy corta edad, realizó un trabajo estadístico sorprendende. Este trabajo está docuentado y compartido tanto en un jupiter notebook de github, como en mi blog.


Referencias:

bottom of page