17 mar 2008

Estadística

Definición:
La estadística es una ciencia matemática que se refiere a la recolección, estudio e interpretación de los datos obtenidos en un estudio. Es aplicable a una amplia variedad de disciplinas, desde la física hasta las ciencias sociales, ciencias de la salud como la Psicología y la Medicina, y usada en la toma de decisiones en áreas de negocios e instituciones gubernamentales.

La Estadística se divide en dos ramas:

La estadística descriptiva, que se dedica a los métodos de recolección, descripción, visualización y resumen de datos originados a partir de los fenómenos en estudio. Los datos pueden ser resumidos numérica o gráficamente. Ejemplos básicos de descriptores numéricos son la media y la desviación estándar. Resúmenes gráficos incluyen varios tipos de figuras y gráficos.

La inferencia estadística, que se dedica a la generación de los modelos, inferencias y predicciones asociadas a los fenómenos en cuestión teniendo en cuenta lo aleatorio e incertidumbre en las observaciones. Se usa para modelar patrones en los datos y extraer inferencias acerca de la población de estudio. Estas inferencias pueden tomar la forma de respuestas a preguntas si/no (prueba de hipótesis), estimaciones de características numéricas (estimación), pronósticos de futuras observaciones, descripciones de asociación (correlación) o modelamiento de relaciones entre variables (análisis de regresión). Otras técnicas de modelamiento incluyen ANOVA, series de tiempo y minería de datos.

Ambas ramas (descriptiva e inferencial) comprenden la estadística aplicada. Hay también una disciplina llamada estadística matemática, la cual se refiere a las bases teóricas de la materia. La palabra estadísticas también se refiere al resultado de aplicar un algoritmo estadístico a un conjunto de datos, como en estadísticas económicas, estadísticas criminales, etc.
Comentario: la estadística nos sirve para hacer una recolección de datos, luego estudiarlos y por ultimo interpretarlos y, se puede usar en varias disciplinas,también tiene como finalidad facilitar la solucion de problemas en los cuales necesitamos conocer algunas caracteristicas sobre el comportamiento de algun suceso o eventose divide también en las ramas ya vistas las dos relacionadas en la recolección de datos

Variables


Variables cuantiitativas
Las variables, también suelen ser llamados caracteres cuantitativos, son aquellos que pueden ser expresados mediante números. Son caracteres susceptibles de medición. Como por ejemplo, la estatura, el peso, el salario, la edad, etc.

Variable cualitativa ordinal: La variable puede tomar distintos valores ordenados siguiendo una escala establecida, aunque no es necesario que el intervalo entre mediciones sea uniforme, por ejemplo, leve, moderado, grave.

Variable cualitativa nominal: En esta variable los valores no pueden ser sometidos a un criterio de orden como por ejemplo los colores o el lugar de residencia.

Variables cualitativas
Los atributos también llamados caracteres cualitativos, son aquellos que no son susceptibles de medición, es decir que no se pueden expresar mediante un número.

Variable discreta: Es la variable que presenta separaciones o interrupciones en la escala de valores que puede tomar. Estas separaciones o interrupciones indican la ausencia de valores entre los distintos valores específicos que la variable pueda asumir. Un ejemplo es el número de hijos.

Variable continua: Es la variable que puede adquirir cualquier valor dentro de un intervalo especificado de valores. Por ejemplo el peso o la altura, que solamente limitado por la precisión del aparato medidor, en teoría permiten que siempre existe un valor entre dos cualesquiera.

Comentario:La variable es una caracteristica que puede ser medida, adoptando un valor diferente es los estudios que realizamos. Las variables se dividesn en cuantitativas, como lo indica su nombre son como cantidades que pueden ser medidas y, las cualitativas, que son como atributos que no se pueden medir a ecepcion de las cuantitativas.


Distribución de Frecuencias

Definición:
Lista de valores de datos (ya sea de manera individual o por grupos de intervalos), junto con sus frecuencias (o conteos) correspondientes.

La siguiente tabla es una distribución de frecuencia que resume los niveles medidos de cotinina de los 40 fumadores que se muestran a continuación:

La frecuencia de una clase particular es el número de valores originales que caen dentro de esta clase. Por ejemplo en la primera clase de la tabla anterior tiene una frecuencia de 11, lo que indica que 11 de los valores originales de los datos están entre 0 y 99.

Las distribuciones de frecuencias se construyen por las siguientes razones:
1.- es posible resumir conjuntos grandes de datos.
2.- se logra cierta comprensión respecto de la naturaleza de los datos.
3.- se llega a tener un avance para construir graficas importantes.


Comentario: Cuando se trabajo con conjuntos de datos, con frecuencia es útil organizarlos y resumirlos por medio de la construcción de una tabla que liste los distintos valores posibles de los datos (ya sea de forma individual o por grupos), junto con las frecuencias correspondientes, es decir, el número de veces que ocurres dichos valores.

La Decodificación

Definición:
Su objetivo consiste en realizar una codificación en la fuente para obtener códigos tales que la longitud media de los datos codificados sea menor que la obtenida con códigos de longitud fija. Por este motivo, para la construcción de estos códigos es necesario tener un conocimiento previo de la frecuencia de ocurrencia de cada uno de los caracteres del código original. Se usarán codificaciones más cortas para representar los caracteres con mayor frecuencia de aparición.
Ejemplo:

Comentario:La codificació nos sirve para facilitar el procesamiento de los datos cuado, cuando un dato tienga decimales, nos ayuda a ahorrar espacio entre los caracteres.

Grafica de Tallo y Hojas

Definición:
Una grafica de tallo y hojas representa datos que separan cada valor en dos partes: el tallo (el digito ubicado en el extremo izquierdo) y la hoja (el digito del extremo derecho).


La ilustración anterior muestra una grafica de tallo y hojas de las mismas duraciones de películas de dibujos animados para niños. Dichas duraciones (en minutos), si se acomodan en orden creciente son 64, 64, 69, 70, 71, 71, 71, 72, 73,…, 120. Es fácil de ver como el primer valor de 64 se separo en su tallo de 6 y su hoja de 4. Cada uno de los valores restantes, lo hace de una manera similar. Note que las hojas se ordenaron en forma creciente y no en el orden en que aparecen en la lista original.

Los renglones de datos de una grafica de tallo y hojas son similares en naturaleza a las barras de un histograma. Uno de los lineamientos para la construcción de histogramas es que se incluyan entre 5 y 20 clases, lo cual se aplica a la grafica de tallo y hojas por las mismas razones. Por lo general obtenemos mejores graficas de tallo y hojas si redondeamos primero los valores de los datos originales.

Comentario: Una gran ventaja que encontré en el diagrama de tallo y hojas radica en que nos permite ver la distribución de datos y, al mismo tiempo, retener toda la información de la lista original. También en la construcción de este diagrama implica una forma fácil y rápida de ordenar datos.


Notación Sumatoria

Definición:

En estadística se requiere la suma de grandes masas de datos y es pertinente tener una notación simplificada para indicar la suma de estos datos. Así, si una variable se puede denotar por X, entonces las observaciones sucesivas de esta variable se escriben:

En general, la i-ésima observación se escribe X; i=1,..., n. La letra griega sigma mayúscula (S) se emplea para indicar la suma de estas n observaciones.

La notación se lee:
Suma de X sub-i (ó sigma sub-i) donde i asume todos los valores de 1 hasta n, ó simplemente suma de X sub-i donde i va de 1 a n.

La letra debajo del operador S se llama índice de la suma; en la expresión
Note que el índice de la suma es i. Por lo general después de una sumatoria aparece una variable con un suscrito representado por la letra i (ΣXi). Este suscrito indica qué valores de la variable se deben sumar, Para determinar cuáles valores es necesario sustituir la i por los valores que se indican arriba y debajo de la sumatoria

Las sumatorias se pueden representar bajo dos tipos de notaciones:

Notación suma abierta.- Esta notación va de una representación de sumatoria a cada uno de los elementos que la componen.

Notación suma pertinente.- Esta notación es al contrario de la suma abierta, va de la representación de cada uno de los elementos de una sumatoria a su representación matemática resumida.

Comentario: en estadística se emplean grandes sumas de datos, la sumatoria nos ayuda a resumir todos esos datos obteniendo el resultado que queremos atraves de una tabla de distribución de frecuencias simples.


Medidas de Tendencia Central


Definición:
Valor que se encuentra en el centro o a la mitad de un conjunto de datos.

Hay muchas formas de determinar el centro; por lo tanto, tenemos diferentes definiciones de las medidas de tendencia central, incluyendo media, mediana y moda. Comenzaremos con la media.

Media:
La media (aritmética) generalmente es la más importante de todas las medidas numéricas utilizadas para describir datos; constituye lo que la mayoría de la gente denomina Promedio.

Media aritmética (de un conjunto de puntajes): medida de tendencia central que se obtiene sumando los puntajes y dividiendo el total entre el número de puntajes. Tal medida de tendencia central se utilizara de manera frecuente, nos referimos a ella simplemente como la media.
Utiliza la letra griega ∑ (sigma mayúscula) para indicar que los valores de los datos deben sumarse. Esto es, ∑x representa la sumatoria de todos los valores de los datos. El símbolo n denota el tamaño de la muestra, que es el número de puntajes en el conjunto de datos.
La media se denota como (se denomina “x barra”), si el conjunto de datos es una muestra de una población mas grande; si se utilizan todos los puntajes de la población, entonces la media se simboliza con µ (mu minúscula).

Nota:
Denota la sumatoria de un conjunto de valores.
x Es la variable que suele utilizarse para representar los valores de datos individuales

n Representa el numero de valores un una muestra.
N Representa el número de valores de un población.
Es la media de un conjunto de valores muestrales.

Es la media de todos los valores de una población.




Media de una distribución de Frecuencias:
Cuando los datos se resumen en una distribución de frecuencias es probable que no conozcamos los valores exactos de una clase en particular. Para hacer que los cálculos sean posibles, pretendemos que todos los valores muestrales sean iguales a la marca de clase. Ya que cada marca de clase se repite un numero de veces igual a la frecuencia de clase, la sumatoria de todos los valores muestrales es∑(f.x), donde denota la frecuencia y representa la marca de clase. El numero total de valores muestrales es la sumatoria de frecuencias ∑f. La formula siguiente se utiliza para calcular la media cuando los datos muestrales se resumen en una distribución de frecuencias. Esta formula en realidad no es un concepto nuevo, sino una variación de la formula de la media.

Mediana:
Mediana (de un conjunto de datos): medida de tendencia central que implica el valor que está en medio, cuando los valores originales de los datos se presentan en orden de magnitud creciente (o decreciente). La mediana suele denotarse con
(se pronuncia “x con tilde”).
Para calcular la mediana, primero clasifique los valores (acomódelos en orden), luego sega uno de estos dos procedimientos:
1.- si el número de valores es impar, la mediana es el número que se localiza exactamente a la mitad de la lista.
2.- si el número es par, la mediana se obtiene calculando la media de los dos números que están a la mitad.

Moda:
Moda (de un conjunto de datos, que suele denotarse como M): valor que ocurre con mayor frecuencia.

· Cuando dos valores ocurren con la misma frecuencia y esta e la mas alta, ambos valores son modas, por lo que el conjunto de datos es bimodal.
· Cuando mas de dos valores ocurren con la misma frecuencia y esta es la mas alta, todos los valores son modas, por lo que el conjunto de datos es multimodal.
· Cuando ningún valor se repite, se dice que no hay moda.

Ejemplo: calcule las modas de los siguientes conjuntos de datos.
a. 5.40 1.20 0.42 0.73 0.48 1.10
b. 27 27 27 55 55 55 88 88 99
c. 1 2 3 6 7 8 9 10

Solución:
a. el numero 1.10 es la moda, ya que es el valor que ocurre con mayor frecuencia.
b. los números 27 y 55 son modas, ya que ambos ocurres con la frecuencia más alta. Este conjunto de datos es bimodal, porque tiene dos modas.
c. no hay moda, ya que ningún valor se repite.

La media Armónica:
Se utiliza a menudo como una medida de tendencia central para conjuntos de datos que consisten en tasas de cambios, como la velocidad. Para calcularla, se divide el número de valores entre la suma de los recíprocos de todos los valores, de la siguiente forma:
La media Geométrica:
Suele utilizarse en negocios y economía para calcular las tasas de cambio promedio, las tasas de crecimiento promedio o tasas promedio. Dados valores (todos positivos), la medio geométrica es la -esima raíz de su producto.

La media Cuadrática:
Suele utilizarse en aplicaciones físicas. Por ejemplo, en los sistemas de distribución de energía, los montajes y las corrientes suelen referirse en términos de sus valores de CMR. La media cuadrática de un conjunto de valores se obtiene elevando al cuadrado cada valor, sumando los resultados, dividiendo el número de valores y después sacando la raíz cuadrada del resultado, el cual se expresa como:
Comentario: Hasta ahora he considerado la media, mediana y moda como medidas de tendencia central, pero las diferentes medidas de tendencia ofrecen diversas ventajas y desventajas. Ejemplo:Media, promedio mas conocido, siempre existe, funciona bien con muchos métodos estadísticos. Mediana, valor en medio, de uso común, siempre existe, suele ser un buena opción se hay algunos valores extremos. Moda, valor mas frecuente, se usa en ocasiones, es apropiada para datos en el nivel nominal. Otras medidas de tendencia central son la Media armónica, geométrica y, cuadrática, pero casi no son muy utilizadas.


Medidas de Posición

Cuartiles y Percentiles:
Recordemos que la mediana de un conjunto de datos es el valor que esta a la mitad, de modo que 50% de los valores son iguales o menores a la mediana y el 50% de los valores son mayores o iguales a la mediana. Tal como la mediana divide los datos en dos partes iguales, los tres cuartiles, denotados por , dividen los valores ordenados en cuatro partes iguales. (Los valores están ordenados cuando se acomodan en orden).

He aquí descripciones de los tres cuartiles.


(Q1 Primer Cuartil):Separa el 25% inferior de los valores ordenados, del 75% superior. (Para ser mas precisos, al menos el 25% de los valores ordenados son menores o iguales que , y al menos el 75% de los valores son mayores o iguales que )

(Q2 Segundo Cuartil): Igual a la mediana: separa el 50% inferior de los valores ordenados, del 50% superior.

(Q3 Tercer Cuartil): Separa el 75% inferior de los valores ordenados, del 25% superior. (Para ser mas precisos, al menos el 75% de los valores ordenados son menores o iguales que , y al menos el 25% de los valores son mayores o iguales que ).

Así como hay tres cuartiles que separan un conjunto de datos en cuatro partes, también hay 99 percentiles, que se denotan los cuales separan los datos en 100 grupos, con aproximadamente el 1% de los valores en cada grupo. (Los cuartiles y percentiles son ejemplos de cuantiles y fractiles, que separan los datos en grupos con casi el mismo número de valores).
El proceso para calcular percentiles, que corresponde a un valor particular , es bastante sencillo, tal como se indica en la siguiente expresión:

Comentario: Los cuartiles también nos ayudan al igual que la mediana divide en dos partes iguales, los cuartiles nos ayudan a ordenar los datos en cuatro partes iguales, pero también existes 99 percentiles que separan 100 datos en grupos.


Medidas de Variación

Desviación estándar de una Muestra:

La desviación estándar es, por lo general, la medida de variación más importante y útil.
Desviación estándar (de un conjunto de valores muestrales) medida de variación de los valores con respecto a la media. Es un tipo de desviación promedio de los valores con respecto a la media, que se calcula utilizando las formulas:


· La desviación estándar es una media de variación de todos los valores con respecto a la media.
· El valor de la desviación estándar s suele ser positivo. Solo es igual a cero cuando todos los valores de los datos son el mismo número. Además, valores grandes de s indican mayores cantidades de variación.
· El valor de la desviación estándar s se puede incrementar de manera drástica con la inclusión de uno o más datos distantes (valores de datos que se encuentran muy lejos de los demás).
· Las unidades de la desviación estándar s (como minutos, pies, libras, etcétera) son las mismas de los datos originales.

Desviación estándar de una Población:
En nuestra definición de la desviación estándar nos referimos a datos muestrales. Para calcular la desviación estándar σ (sigma minúscula) de una población, se utiliza un formula ligeramente diferente: en lugar de dividir entre , se hace entre el tamaño de la población, como en la siguiente expresión:

Calculo de la desviación estándar a partir de una distribución de frecuencias:
En ocasiones necesitamos calcular la desviación estándar de un conjunto de datos que se resume en una distribución de frecuencias. Si se dispone de la lista original de valores muestrales, se utilizan las formulas:

De modo que el resultado es más exacto.


Desviación estándar para una distribución de frecuencias.



Interpretación y comprensión de la Desviación estándar:
Primero debemos comprender con claridad que la desviación estándar mide la variación entre los valores, los valores cercanos producirán una desviación estándar pequeña, mientras que los valores muy dispersos producirán una desviación estándar más grande.
Ya que la variación es un concepto tan importante y que la desviación estándar es una herramienta tan útil para medir la variación, consideraremos tres formas diferentes para lograr una apreciación de los valores de las desviaciones estándar. La primera es la regla práctica del intervalo, que se basa en el principio de que para muchos conjuntos de datos, la vasta mayoría (tanto como el 95%) de los valores muestrales se ubican dentro de dos desviaciones estándar de la media. (Es posible mejorar la precisión de tal regla si tomamos en cuenta factores como el tamaño de la muestra y la naturaleza de la distribución, aunque preferimos sacrificar precisión en aras de la sencillez. Además, podríamos usar tres o, incluso, cuatro desviaciones estándar en lugar de 2, lo cual constituye una decisión un poco arbitraria. Sin embargo, deseamos una regla sencilla que nos ayude a interpretar los valores de las desviaciones estándar; métodos posteriores producirán resultados mas precisos)

Regla practica del intervalo:
Para estimar el valor de la desviación estándar s: para obtener un estimado burdo de la desviación estándar; utilice
Donde el rango = (valor máximo)-(valor mínimo).

Para interpretar el valor conocido de la desviación estándar: si se conoce la desviación estándar s, utilice para calcular estimados burdos de los valores muestrales mínimos y máximos “comunes” por medio de:

Valor mínimo “común” ≈ (media) – 2 x (desviación estándar)
Valor máximo “común”≈ (media) + 2 x (desviación estándar)

Ejemplo: circunferencias de la cabeza de niñas, resultados anteriores del National Health Survey sugieren que las circunferencias de las cabezas de niñas de dos meses de edad tienes una media de 40.05 cm y una desviación estándar de 1.64 cm. Utilice la regla practica del intervalo para calcular el mínimo y el máximo “comunes” de las circunferencia de las cabezas. Después, determine si una circunferencia de 42.6 cm seria considerada “infrecuente”.

Solución: Con una media de 40.5 cm y una desviación estándar de 1.64 cm, empleamos la regla práctica del intervalo para calcular las circunferencias mínima y máxima comunes, de la siguiente manera:


Mínimo ≈ (media) – 2 x (desviación estándar)
= 40.05 – 2(1.64) = 36.77 cm
Máximo ≈ (media) + 2 x (desviación estándar)
= 40.05 + 2(1.64) = 43.33 cm

Con base en estos resultados, esperamos que, generalmente, las niñas de dos meses de edad tengan una cabeza cuya circunferencia mida entre 36.77 cm y 43.33 cm. Como 42.6 cm esta dentro de estos límites, se consideraría una niña normal.

Regla empírica para datos con distribución normal (o 68-95-99.7): Esta es otra regla para interpretar los valores de una desviación estándar. Esta regla establece que las siguientes propiedades se aplican a conjuntos de datos que tienen una distribución aproximadamente normal.
· Aproximadamente el 68% de todos los valores están dentro de una desviación estándar de la media.
· Aproximadamente el 95% de todos los valores están dentro de dos desviaciones estándar de la media.
· Aproximadamente el 99.7% de todos los valores están dentro de tres desviaciones estándar de la media.

Teorema de Chevishev: es un tercer concepto para comprender el valor de una desviación estándar. La regla empírica anterior se aplica solo a conjuntos de datos con una distribución normal. El teorema de Chevishev, en lugar de limitarse a conjuntos de datos con distribuciones normales se aplica a cualquier conjunto de datos, pro sus resultados son muy aproximados.
La proporción (o fracción) de cualquier conjunto de datos que esta dentro de K desviaciones estándar de la media es siempre al menos 1 – 1/K2 , donde K es cualquier numero positivo mayor que 1. Para K=2 y K=3, tenemos los siguientes enunciados:
· Al menos 3/4 (o 75%) de todos los valores están dentro de dos desviaciones estándar de la media.
· Al menos 8/9 (u 89%) de todos los valores están dentro de tres desviaciones estándar de la media.

Ejemplo: puntuaciones de CI, las puntuaciones de CI de adultos normales tomadas de la prueba Weschler tienen una media de 100 y una desviación estándar de 15. ¿Qué podemos concluir a partir del teorema de Chevishev?

Solución: al aplicar el teorema de Chevishev, con una media de 100 y una desviación estándar de 15, llegamos a las siguientes conclusiones.

· Por lo menos 3/4 (o 75%) de todos los adultos tienen puntuaciones de CI que están dentro de dos desviaciones estándar de la media (entre 70 y 130).
· Al menos 8/9 (u 89%) de todos los adultos tienen puntuaciones de CI que están dentro de tres desviaciones estándar de la media (entre 55 y 145).

Comentario: Cuando intente darle un significado a un valor de una desviación estándar, debo usar uno o más de los tres conceptos anteriores. Cuando calcule una desviación estándar por medio de las formulas de la desviación estándar de la muestra y su otra formula abreviada, la regla empírica resulta útil para verificar el resultado, pero debo estar consciente de que, aun cuando la aproximación nos acerca a la respuesta, puede tener un erro considerable. También debo tener cuidado con el Teorema de Chevishev ya que resulta un poco complicado.

Graficas de Cuadro (Diagrama de Cajas)


Definición:
Una grafica de cuadros es otro tipo de grafica que se utiliza a menudo. Las graficas de cuadro son útiles para revelar la tendencia central de los datos, su dispersión, su distribución y la presencia de datos distantes. La construcción de una grafica de cuadro requiere que primero se obtenga el valor mínimo, el valor máximo y los cuartiles, tal como se define en el resumen de los cinco números.

Para el conjunto de datos, el resumen de los cinco numero consiste en el valor mínimo; el primer cuartil,Q1; la mediana (o segundo cuartil,Q2); el tercer cuartil,Q3; y el valor máximo.

Presentación visual que describe al mismo tiempo varias características importantes de un conjunto de datos, tales como el centro, la dispersión, el alejamiento de la simetría, y la identificación de valores extremos (puntos atípicos), es decir, de valores que se alejan de una manera poco usual del resto de los datos.

Rango intercuartílico = RIC = 92.2-88.25 = 3.95 Þ Paso = 5.925


Cercas interna inferior = 88.25 - 5.925 = 82.325


Cerca interna superior = 92.20 + 5.925 = 98.125


Cerca externa inferior = 82.325 - 5.925 = 76.40


Cerca externa superior = 98.125 + 5.925 = 104.0


Comentario:Este diagrama es una manera visual de mostrar cinco numeros en este casa los cuartiles y las cercas, es un diagrama muy simple y facil de interpretar.

Diagrama de Puntos


Definición:
Una grafica de puntos consiste en una grafica en donde se marca cada valor de un dato como un punto a lo largo de una escala de valores. Los puntos que representan valores iguales se amontonan.


Duración de película (minutos)

Observe la figura anterior, que representa la duración de películas de dibujos animados para niños. Por ejemplo, los dos puntos que aparecen a la izquierda representan el valor de 64 minutos, que ocurre dos veces en el conjunto de datos 7. En esta grafica de puntos vemos que la duración de 120 minutos difiere mucho de las demás.

Comentario: Una grafica de puntos muestra cada elemento de un conjunto de datos numericos por encima de una recta numerica, o eje horizontal. La graficas de puntos nos facilitan ver los espacios vacios y los agrupamientos en un conjunto de datos, asi como la manera en que se distribuyen los datos a lo largo del eje