Lugar para compartir información interesante con mis amigos.

Thursday, March 23, 2017

Test de Hipótesis

La prueba de hipótesis es una habilidad básica en estadística. La prueba de hipótesis se usa para evaluar datos y determinar si o no una hipótesis puede ser soportada por el conjunto de datos.

Prueba de Hipótesis y Valores P


Una prueba de hipótesis usa estadística para responder una pregunta cuya respuesta es un sí o un no acerca de un conjunto de datos, y el resultado te dice si rechazar una hipótesis nula (la cual aveces representa la opinión de que las condiciones no han cambiado) en favor de una hipótesis alternativa ( la cual representa una forma de ver distinta de los datos que la hipótesis nula). Por ejemplo, suponga que una pastelería vende pasteles de chocolate y vainilla. Usted podría sospechar que cada cliente va a tener una inclinación por un sabor particular, y que que más clientes podrían preferir un sabor (por ejemplo el chocolate) sobre el otro (vainilla). La hipótesis nula (cuya notación es H0) para la prueba es que los clientes van a seleccionar chocolate o vainilla en iguales proporciones ( en otras palabras hay un 50% de probabilidad de que el cliente seleccione vainilla , y  un 50% de probabilidad que su preferencia va a ser chocolate). La hipótesis alternativa (H1) es que hay una preferencia no igual en la selección de un sabor, es decir que hay una probabilidad distinta al 50% de seleccionar uno de los dos sabores.

La Hipótesis puede ser expresada como:

H0: P = 0.5
H1: P ≠ 0.5


Dada una muestra de datos adecuadamente grande, puede determinar que el numero actual de pasteles de chocolate vendidos comparados con el total de ventas, y trabajar sobre la probabilidad que el resultado de la hipótesis nula es verdadero. Por ejemplo, suponga que la muestra de datos incluya 100 ventas; 70 de las cuales fueron pasteles de chocolate, y 30 fueron pasteles de vainilla. Si cada pastel vendido tiene incluso 50% de probabilidad  de ser de chocolate o de vainilla (como establece la hipótesis nula), entonces basados en una distribución binomial, la probabilidad de que 70 de 100 pasteles vendidos sean de chocolate, es de aproximadamente 0.0023%. Note que la hipótesis es siempre acerca de la población, y no acerca de la muestra. (La media de la población es desconocida, pero la media de la muestra no, así que no necesitamos crear hipótesis acerca de la muestra).

La probabilidad de observar lo que hicimos (o albo más extremo) bajo la hipótesis nula es conocido como Valor-P. Basados en en un límite predeterminado conocido como nivel de significancia que usted decide; usted puede rechazar la hipótesis nula o no. En la mayoría de casos, un valor al rededor de 0.05 (o 5%) es seleccionado como el nivel de significancia, y en éste caso el valor P es mucho más bajo que éste; así que la hipótesis nula puede ser rechazada en favor de la hipótesis alternativa. Si el valor P es más bajo que el nivel de significancia, nosotros rechazamos la hipótesis nula.

Tipos de Test 

Hay numerosos tipos de prueba de hipótesis que se pueden aplicar, dependiendo de el tipo de datos y la hipótesis alternativa que está intentando validar. Muchas pruebas se enfocan en validar la media de un conjunto de datos y compararla con un valor esperado.

Prueba T y prueba Z de Muestra única.

Suponga que nuestra tienda de pasteles espera vender un promedio de 75 pasteles o más por día. Usted podría almacenar las ventas actuales sobre un periodo de tiempo y practicar una prueba para determinar si la media de las ventas es mayor a 74. Dependiendo del tamaño de la muestra de datos disponible, usted puede aplicar una Prueba Z (que se puede usar para distribuciones normales con una desviación estándar de la población conocida, o con conjuntos de datos mayores  a 30 observaciones independientes -- en tal caso la desviación estándar de la muestra está suficientemente cerca a la de la población ) o una Prueba T (la cual puede ser usada con pequeños conjuntos de observaciones y cuando la desviación estándar de la población es desconocida) .

El resultado de la Prueba Z o la Prueba T incluye un valor P, el cual puede usar para determinar si o no rechaza la hipótesis nula. En éste caso, la hipótesis nula es que la cantidad media de las ventas va a ser 75 o más, y la hipótesis alternativa es que la media diaria de ventas va a ser menos de 75. Esto puede ser expresado así:

H0: P >= 75
H1: P < 75

Este es un ejemplo de una prueba de una cola, en el cual estamos probando si o no la media de la población podría ser mayor que un valor especificado. También podría practicar una prueba de una cola para determinar si o no la media de la población es menor que un valor esperado, o podría practicar una prueba de dos colas para determinar si o no la media varía de un valor esperado en ambas direcciones.

Pruebas de dos muestras

Además de las pruebas de muestra única , se puede practicar pruebas que comparan dos muestras. Por ejemplo, suponga que se quiere probar la hipótesis que en promedio, los pasteles de chocolate pesan más que los de vainilla. Para probar ésta hipótesis, usted puede pesar individualmente un conjunto de pasteles de chocolate y uno de vainilla, y entonces aplicar un test T que compare la media del peso de cada conjunto. El resultante valor P va a indicar la significancia de la diferencia en la media de los pesos.

Comparando la media de pesos de dos pasteles de sabor diferente, es un ejemplo de una prueba sin par. Las observaciones individuales (la medida de los pesos de cada pastel) son independientes — Usted podría incluso incluir más pasteles de vainilla que de chocolate ( o viceversa ) sin afectar la salida de la prueba. Sin embargo, algunas pruebas de dos muestras son pruebas de pares en las cuales hay una dependencia entre las observaciones de los dos conjuntos de datos. Por ejemplo, suponga que quiere probar la hipótesis que la media diaria de venta de pasteles de chocolate es mayor que la de pasteles de vainilla. En éste caso, los dos conjuntos de observaciones deben ser apareados de tal forma que la primera observación en cada muestra es el total de ventas de cada sabor en específico del primer día, la segunda observación es el total de ventas de cada sabor en específico del segundo día y así sucesivamente.

Intervalos de Confianza.

Sin tener acceso a el total de la población de datos, usted necesita ser capaz de determinar si la media de la muestra ( x̄ ) es probablemente aproximada a la media de la población (μ). Un intervalo de confianza  es un camino para expresar la probabilidad que una parámetro verdadero de la población caiga dentro de un intervalo de la estadística de los datos. El intervalo de confianza para la media  μ debería estar centrado en  , y el tamaño del intervalo de confianza debería depender de la muestra de la desviación estándar de puntos y el número total de puntos de muestra.


Traducción personal del material del curso de datos de Microsoft: Data Science Essentias

Popular Posts

Pedro Rozo. Powered by Blogger.