jueves, 15 de abril de 2010

Estadistica Descriptiva.

1. INTRODUCCIÓN 1
1.1. CONCEPTOS BÁSICOS DE LA ESTADÍSTICA 1
1.2. CLASIFICACIÓN DE LA ESTADÍSTICA 2
1.3. TIPOS DE INFORMACIÓN Y GRAFICAS 2
1.4. ORGANIZACIÓN DE DATOS. 4
2. MEDIDAS DE TENDENCIA CENTRAL Y DE DISPERSION 4
2.1. MEDIA 4
2.2. MODA 4
2.3. MEDIANA 5
2.4. VARIANZA Y DESVIACIÓN ESTÁNDAR 5
3. PROBABILIDAD 6
3.1. ENFOQUES DE LA PROBABILIDAD 6
3.2. LEYES DE LA PROBABILIDAD 7
4. DISTRIBUCIÓN DE PROBABILIDAD 8
4.1. DISTRIBUCIÓN BINOMINAL 8
4.2. DISTRIBUCIÓN DE POISSON 9
4.3. DISTRIBUCIÓN NORMAL 9
5. NÚMEROS ÍNDICE Y SERIES DE TIEMPO 10
5.1. NÚMEROS ÍNDICE 10
5.2. SERIES DE TIEMPO 11






1. Introducción
1.1. Conceptos básicos de la estadística

En general se podía decir que las pruebas estadísticas resuelven problemas en tres grandes tipos de situaciones:


a) - Cuando se trata de resumir o describir un conjunto de datos.

b) - Cuando tratamos de "conocer o estimar alguna característica de las poblaciones o situaciones de donde proceden nuestros datos muestrales.

c) - Finalmente cuando tratamos de decidir entre dos opciones o hipótesis de trabajo.

Analizamos la información muestral mediante técnicas de Contraste de hipótesis (pruebas estadísticas) decidimos que hipótesis es la más compatible con los datos experimentales.

No importa lo complicada que sea la metodología estadística que se emplee, esencialmente estará incluida en una de las categorías anteriores.

1.2. Clasificación de la Estadística

El estudio de la estadística se divide clásicamente en dos, la estadística descriptiva y la estadística inferencial.

La estadística inferencial o inductiva sirve extrapolar los resultados obtenidos en el análisis de los datos y a partir de ello predecir acerca de la población, con un margen de confianza conocido.

La estadística descriptiva o deductiva se construye a partir de los datos y la inferencia sobre la población no se puede realizar, al menos con una confianza determinada, la representación de la información obtenida de los datos se representa mediante el uso de unos cuantos parámetros y algunas graficas planteadas de tal forma que den importancia los mismos datos.


1.3. Tipos de Información y Graficas
Generalmente se parte de la información representada en tablas antes de de poder llevar a cabo el aspecto gráfico. La representación más común utilizada en la estadística descriptiva se encuentra la siguiente:

Diagramas de barras. Se utiliza para representar datos cualitativos y cuantitativos, con datos de tipo discreto. En el eje x se representan los datos ordenados en clases mientras que en el eje y se pueden representar frecuencias absolutas o relativas.

Histogramas. Los histogramas de frecuencias son gráficas que representan un conjunto de datos que se emplean para representar datos de una variable cuantitativa. En el eje horizontal o de las abscisas se representan los valores tomados por la variable, en el caso de que los valores considerados sean continuos la forma de representar los valores es mediante intervalos de un mismo tamaño llamados clases. En el eje vertical se representan los valores de las frecuencias de los datos. Las barras que se levantan sobre la horizontal y hasta una altura que representa la frecuencia. Un punto importante en el manejo de la información bajo el uso de histogramas es el hecho de poder comparar, bajo un proceso en control, que a medida que se crecen las clase tiene aproximadamente la forma de una campana centrada, que como veremos posteriormente, es la de una de las distribuciones mas importantes conocidas como frecuencia normal o gaussiana.

Polígono de frecuencias Alternativo al histograma de frecuencias podemos representar la información a través de los llamados polígonos de frecuencias. Estos se construyen a partir de los puntos medios de cada clase. La utilización de los puntos medios o marcas de clase son llevados al escenario gráfico mediante la utilización de los polígonos de frecuencias. Se construye uniendo los puntos medios de cada clase localizados en las tapas superiores de los rectángulos utilizados en los histogramas de las gráficas. Su utilidad se hace necesaria cuando desean destacarse las variables de tendencia central, como son media, modas y medianas.

Diagrama de sectores. Este tipo de diagramas puede ser de dos tipo, se puede considerar una figura geométrica en la que la información se distribuye dentro de la figura como puede ser una dona o un anillo en el que cada porción dentro de la figura representa la información porcentual del total de datos. La segunda opción es la utilización de pasteles en los que una porción del pastel determinada por sectores individuales la información para ese sector especifico.

Cartogramas. Son gráficos en los que se puede agrupar para una misma clase diferentes frecuencias, por lo que se hace apropiado su uso cuando se desea analizar tres diferentes resultados obtenidos, con diferentes frecuencias pero con una misma clase.

Pirámides de población. Este gráfico se construye utilizando pirámides para construir la representación de los datos bajo cierta clase, la diferencia de información considerada entre cada clase será dada por el tamaño de la pirámide. En ocasiones la frecuencia de cada clase se coloca en el extremo superior de cada clase, sin embargo también, al igual que en las anteriores puede resultar útil colocar información, como el porcentaje de información en la punta de cada pirámide.

Diagramas lineales. El diagrama lineal representa la información comparando las clases y frecuencias. En cierta forma el polígono de frecuencias corresponde a un diagrama lineal, esto debido a que se utilizan este tipo de diagramas para obtener la gráfica de la información. En otras ocasiones la comparación de las clases son números con respecto a números, como el ejemplo que se muestra a continuación. Los diagramas lineales suelen utilizarse para destacar la dependencia entre dos variables, como veremos en le tema de dependencia lineal.

Pictogramas. El pictograma consiste en la utilización de símbolos utilizados para representar un conjunto de datos, en el caso de la representación de datos individuales a través de barras hemos utilizado los pictogramas, sin embargo en áreas especificas convendría analizar el conjunto de datos.

1.4. Organización de Datos.

FILA DE DATOS: consiste en datos recolectados que no han sido organizados numéricamente por ejemplo las alturas de 100 estudiantes por letra alfabética.

ORGANIZACION U ORDENACION DE DATOS: Una ordenación de datos es un conjunto de datos numéricos en orden creciente o decreciente y a la diferencia de que existen entre el dato mayor y menor se le llama rango, de ese conjunto de datos. Así, si la mayor altura de entre 100 estudiantes era 74 pulgadas, y la menor era de 60 pulgadas. EL rango seria:
RANGO = DATO MAYOR – DATO MENOR.

2. Medidas de Tendencia Central y de Dispersión
2.1. Media

Número calculado mediante ciertas operaciones a partir de los elementos de un conjunto de números, x1, x2,…,xn, y que sirve para representar a éste. Hay distintos tipos de medias: media aritmética, media geométrica y media armónica.

La media aritmética es el resultado de sumar todos los elementos del conjunto y dividir por el número de ellos


La media geométrica es el resultado de multiplicar todos los elementos y extraer la raíz n-ésima del producto


La media armónica es el inverso de la media aritmética de los inversos de los números que intervienen


En estadística, la media es una medida de centralización. Se llama media de una distribución estadística a la media aritmética de los valores de los distintos individuos que la componen.

2.2. Moda

La moda es el valor que tiene mayor frecuencia absoluta.

Se representa por Mo.

Se puede hallar la moda para variables cualitativas y cuantitativas.

Hallar la moda de la distribución:

2, 3, 3, 4, 4, 4, 5, 5 Mo= 4

Si en un grupo hay dos o varias puntuaciones con la misma frecuencia y esa frecuencia es la máxima, la distribución es bimodal o multimodal, es decir, tiene varias modas.

2.3. Mediana

Es el valor que ocupa el lugar central de todos los datos cuando éstos están ordenados de menor a mayor.

La mediana se representa por Me.

La mediana se puede hallar sólo para variables cuantitativas.

Cálculo de la mediana

1 Ordenamos los datos de menor a mayor.

2 Si la serie tiene un número impar de medidas la mediana es la puntuación central de la misma.

2, 3, 4, 4, 5, 5, 5, 6, 6Me= 5

3 Si la serie tiene un número par de puntuaciones la mediana es la media entre las dos puntuaciones centrales.

7, 8, 9, 10, 11, 12Me= 9.5

2.4. Varianza y desviación estándar

Desviación estándar

La desviación estándar (σ) mide cuánto se separan los datos.
La fórmula es fácil: es la raíz cuadrada de la varianza. Así que, "¿qué es la varianza?"

Varianza

La varianza (que es el cuadrado de la desviación estándar: σ2) se define así:
Es la media de las diferencias con la media elevadas al cuadrado.
En otras palabras, sigue estos pasos:
1. Calcula la media (el promedio de los números).
2. Ahora, por cada número resta la media y eleva el resultado al cuadrado (la diferencia elevada al cuadrado).
3. Ahora calcula la media de esas diferencias al cuadrado. (¿Por qué al cuadrado?)

3. Probabilidad
3.1. Enfoques de la Probabilidad

¿Qué es la probabilidad?

La probabilidad es la parte de las matemáticas que trata de manejar con números la incertidumbre.

La probabilidad se mide por un número entre cero y uno: si un suceso no ocurre nunca, su probabilidad asociada es cero, mientras que si ocurriese siempre su probabilidad sería igual a uno. Así, las probabilidades suelen venir expresadas como decimales, fracciones o porcentajes.

Conceptualización básica de la probabilidad

Para definir la probabilidad y determinar valores de probabilidad, se han desarrollado 3 enfoques conceptuales:

a) Enfoque clásico de la probabilidad

b) Enfoque de frecuencias relativas

c) Enfoque subjetivo de la probabilidad

A.ENFOQUE CLÁSICO DE LA PROBABILIDAD (a priori)

Este enfoque permite determinar valores de probabilidad antes de ser observado el experimento por lo que se le denomina enfoque a priori.

El enfoque clásico es aplicado cuando todos los resultados son igualmente probables y no pueden ocurrir al mismo tiempo.

Si queremos conocer la probabilidad del evento A según este enfoque debemos calcular el siguiente cociente:

N(A)



P(A) = -------------



N(S)

Donde: N(A): resultados elementales posibles son favorables en el evento A

N(S): posibles resultados en el espacio muestral

B.ENFOQUE DE FRECUENCIAS RELATIVAS (a posteriori o empírico)

Este enfoque permite determinar la probabilidad con base en la proporción de veces que ocurre un resultado favorable en cierto número experimentos.

No implica ningún supuesto previo de igualdad de probabilidades.

A este enfoque se le denomina también enfoque empírico debido a que para determinar los valores de probabilidad se requiere de la observación y de la recopilación de datos. También se le denomina a posteriori, ya que el resultado se obtiene después de realizar el experimento un cierto número de veces.

Si queremos conocer la probabilidad del evento A según este enfoque debemos calcular el siguiente cociente:

Número de observaciones de A n(A)
P(A) = -------------------------------------- = -------

Tamaño de la muestra n
C. ENFOQUE SUBJETIVO DE LA PROBABILIDAD (personalista)

Se diferencia de lo dos enfoques anteriores, debido a que tanto el enfoque clásico como el de frecuencia relativa producen valores de probabilidad objetivos.

El enfoque señala que la probabilidad de un evento es el grado de confianza que una persona tiene en que el evento ocurra, con base en toda la evidencia que tiene disponible, fundamentado en la intuición, opiniones, creencias personales y otra información indirecta.

Este enfoque no depende de la repetitividad de ningún evento y permite calcular la probabilidad de sucesos únicos y se da el caso de que ocurra o no esa única vez.

Debido a que el valor de la probabilidad es un juicio personal, al enfoque subjetivo se le denomina también enfoque personalista.

3.2. Leyes de la Probabilidad

Leyes de Probabilidad

La probabilidad mide la frecuencia con la que se obtiene un resultado (o conjunto de resultados) al llevar a cabo un experimento aleatorio, del que se conocen todos los resultados posibles, bajo condiciones suficientemente estables. La teoría de la probabilidad se usa extensamente en áreas como la estadística, la física, la matemática, la ciencia y la filosofía para sacar conclusiones sobre la probabilidad de sucesos potenciales y la mecánica subyacente de sistemas complejos.

El estudio científico de la probabilidad es un desarrollo moderno. Los juegos de azar muestran que ha habido un interés en cuantificar las ideas de la probabilidad durante milenios, pero las descripciones matemáticas exactas de utilidad en estos problemas sólo surgieron mucho después.

Según Richard Jeffrey, "Antes de la mitad del siglo XVII, el término 'probable' (en latín probable) significaba aprobable, y se aplicaba en ese sentido, unívocamente, a la opinión y a la acción. Una acción u opinión probable era una que las personas sensatas emprenderían o mantendrían, en las circunstancias.”

Aparte de algunas consideraciones elementales hechas por Girolamo Cardano en el siglo XVI, la doctrina de las probabilidades data de la correspondencia de Pierre de Fermat y Blaise Pascal (1654). Christiaan Huygens (1657) le dio el tratamiento científico conocido más temprano al concepto. Ars Conjectandi (póstumo, 1713) de Jakob Bernoulli y Doctrine of Chances (1718) de Abraham de Moivre trataron el tema como una rama de las matemáticas. Véase El surgimiento de la probabilidad (The Emergence of Probability) de Ian Hacking para una historia de los inicios del desarrollo del propio concepto de probabilidad matemática.

La teoría de errores puede trazarse atrás en el tiempo hasta Opera Miscellanea (póstumo, 1722) de Roger Cotes, pero una memoria preparada por Thomas Simpson en 1755 (impresa en 1756) aplicó por primera vez la teoría para la discusión de errores de observación. La reimpresión (1757) de esta memoria expone los axiomas de que los errores positivos y negativos son igualmente probables, y que hay ciertos límites asignables dentro de los cuales se supone que caen todos los errores; se discuten los errores continuos y se da una curva de la probabilidad.

4. Distribución de Probabilidad
4.1. Distribución Binominal
Distribución Binomial

Cuando la Distribución de Benoulli se preguntaba ¿Que pasara si sucede un único evento? la binomial esta asociada a la pregunta "¿Cuantas veces hay que realizar la prueba para que el evento suceda?" Algunos ejemplos de una distribucion binomial son:

• Si lanzamos diez veces una moneda ¿cuantas veces saldrá cara?
• De los niños que nacen en un hospital un determinado día ¿cuantos de ellos son chicas?
• ¿Cuantos estudiantes en una clase dada tienen los ojos verdes?
• ¿Cuantos mosquitos, fuera de un enjambre, serán rociados por un insecticida?

La relación entre Bernoulli y Binomial es intuitiva: La distribución Binomial está compuesta por múltiples ensayos de Bernoulli. Cogemos n repeticiones experimentadas es la probabilidad que un suceso dado por el parámetro p y añadiendo el numero de suceso. Ese número de sucesos es representado por la variable aleatoria X. El valor de X esta entre 0 y n.

4.2. Distribución de Poisson

En teoría de probabilidad y estadística, la distribución de Poisson es una distribución de probabilidad discreta. Expresa la probabilidad de un número k de eventos ocurriendo en un tiempo fijo si estos eventos ocurren con una frecuencia media conocida y son independientes del tiempo discurrido desde el último evento.

Fue descubierta por Siméon-Denis Poisson, que la dio a conocer en 1838 en su trabajo Recherches sur la probabilité des jugements en matières criminelles et matière civile (Investigación sobre la probabilidad de los juicios en materias criminales y civiles).

4.3. Distribución Normal

En estadística y probabilidad se llama distribución normal, distribución de Gauss o distribución gaussiana, a una de las distribuciones de probabilidad de variable continua que con más frecuencia aparece en fenómenos reales.

La gráfica de su función de densidad tiene una forma acampanada y es simétrica respecto de un determinado parámetro. Esta curva se conoce como campana de Gauss.

La importancia de esta distribución radica en que permite modelar numerosos fenómenos naturales, sociales y psicológicos. Mientras que los mecanismos que subyacen a gran parte de este tipo de fenómenos son desconocidos, por la enorme cantidad de variables incontrolables que en ellos intervienen, el uso del modelo normal puede justificarse asumiendo que cada observación se obtiene como la suma de unas pocas causas independientes.

La distribución normal también es importante por su relación con la estimación por mínimos cuadrados, uno de los métodos de estimación más simples y antiguos.

5. Números Índice y Series de tiempo
5.1. Números Índice

Un número índice es un indicador que describe los cambios de una variable en el tiempo, es decir su evolución a lo largo de un determinado período.
Los números índices pueden intentar mostrar:

• Evolución de cantidad (cantidades vendidas, documentos recibidos, libros leídos).
• Evolución de precios (precio de un bien).
• Evolución en el valor (de un bien o conjunto de bienes).

El precio de un bien se indica como p it, o sea que el precio es la cantidad de dinero pagada por cada unidad de un producto (i) en un momento determinado (t).
La cantidad se indica como q it, siendo (i) el bien y (t) el momento determinado.
Por su parte el valor se expresa como el producto del precio por la cantidad correspondiente a un período establecido.
vit = pit + qit

Los indicadores de cantidad sólo tienen sentido en el caso de un producto único y homogéneo; cuando se trata de varios productos, expresados en unidades físicas diferentes, es imposible sumar las cantidades. Por la misma razón, no tiene sentido sumar precios. En cambio los valores sí son aditivos.
Importa establecer una clara distinción entre precios y valores; ya que un valor es el producto de un precio por una cantidad. Un precio puede considerarse como el valor de una sola unidad de un producto. El único caso en que valor y precio son sinónimos es el caso especial de una sola unidad de un bien.

A los efectos de la elaboración de un determinado índice se debe tomar como referencia un determinado período, el cual se le denomina “período base”, o sea un punto en el tiempo de comparación. Este período base debe estar sujeto a requerimientos de “normalidad “.
Un índice se calcula dividiendo el precio, la cantidad, o el valor de un momento determinado de un bien sobre el precio, la cantidad o el valor en el momento base de ese bien multiplicado por 100.

5.2. Series de Tiempo

El análisis de series de tiempo desempeña un papel importante en el análisis requerido para el pronóstico de eventos futuros. Existen varias formas o métodos de calcular cual va a ser la tendencia del comportamiento del proceso en estudio.

En el presente documento se procede a aplicar el análisis de series de tiempo aplicado al estudio del comportamiento en la forma de acceso a Internet, considerando básicamente el factor ancho de banda.

Hoy en día las aplicaciones y mayores avances en cuanto a uso de Internet se dan con aplicaciones que requieren un gran ancho de banda. La telemedicina, por ejemplo no se podría dar si es que no estamos en capacidad de poder comunicarnos a un ancho de banda que nos asegura una inmediata comunicación tanto en envió como respuesta de señal.

Un país va midiendo su avance tecnológico, también en función de que forma y con que características accede a Internet, cuales son las velocidades de comunicación, cuantos usuarios hay en las diferentes modalidades y también a que nivel de penetración se llega en el uso de Internet.

El análisis estadístico hoy en día se ve facilitado en gran medida por herramientas de software que permiten una rapidez en el procesamiento para posterior análisis así como su amplia capacidad gráfica, en este documento se muestran reportes y cálculos obtenidos con una de ellas, trabajada dentro de su período de evaluación libre.

No hay comentarios:

Publicar un comentario