Estadistica Generalheifweifqoifhqid

download Estadistica Generalheifweifqoifhqid

of 32

Transcript of Estadistica Generalheifweifqoifhqid

  • 8/18/2019 Estadistica Generalheifweifqoifhqid

    1/32

     

    CONTENIDO INTRODUCCIÓN

    DEFINICIÓN DE ESTADÍSTICA

    ESTADÍSTICA DESCRIPTIVACONCEPTOS BÁSICOS

    POBLACIÓNVARIABLE:  Cualitativas o Categóricas y Cuantitativas (Discretas yContinuas)MUESTRATAMAÑO MUESTRALDATO

    DISTRIBUCIONES DE FRECUENCIAS

    FRECUENCIA ABSOLUTAFRECUENCIA RELATIVAFRECUENCIA ACUMULADAFRECUENCIA RELATIVA ACUMULADADISTRIBUCIONES DE FRECUENCIAS AGRUPADAS

    MÉTODOS GRÁFICOS

    DIAGRAMA DE BARRASDIAGRAMA DE SECTORES O DE PASTELHISTOGRAMA

    MEDIDAS DESCRIPTIVAS DE POSICIÓN Y DISPERSIÓN

    MEDIDAS DE POSICIÓN

    MEDIDAS DE POSICIÓN CENTRALMEDIA ARITMÉTICAMEDIANAMODA

    MEDIDAS DE POSICIÓN NO CENTRALESPERCENTILESCUARTILES

    MEDIDAS DE DISPERSIÓN

    MEDIDAS DE DISPERSIÓN ABSOLUTASVARIANZADESVIACIÓN TÍPICARECORRIDO INTERCUARTÍLICO

    MEDIDAS DE DISPERSIÓN RELATIVASCOEFICIENTE DE VARIACIÓN DE PEARSON

    OTRAS MEDIDAS DESCRIPTIVASTIPIFICACIÓN DE UNA DISTRIBUCIÓN DE FRECUENCIAS

  • 8/18/2019 Estadistica Generalheifweifqoifhqid

    2/32

    INTRODUCCION

    1.1 DEFINICIÓN DE ESTADÍSTICA:  es un conjunto de teorías y métodosdesarrollados para la recopilación, representación y el uso de datos sobre una

    o varias características de interés con el objeto de tomar decisiones, extraerconclusiones o emprender acciones.

    1.2 ESTADÍSTICA DESCRIPTIVA: es la parte de la estadística que se encargade organizar, resumir y describir las características principales de los datos.Generalmente se resumen en forma tabular, grafica o numérica. El análisis selimita en si mismo a los datos coleccionados y no se realiza inferencia alguna ogeneralizaciones acerca de la totalidad de donde provienen esasobservaciones.

    1.3 ESTADÍSTICA INFERENCIAL: Es la que trata de estimar lascaracterísticas de una población a través del estudio de una muestra.

    1.4 CONCEPTOS BÁSICOS:

    POBLACIÓN: Es una colección finita o infinita de elementos concaracterísticas comunes. Ejemplo: las personas, libros de una biblioteca, etc. Algunas poblaciones son finitas y pueden conocerse; otras pueden ser infinitasy abstractas: Ej. el conjunto de hoteles, establecimientos comerciales de unaciudad o el conjunto de todas las piezas fabricadas por una máquina.

    VARIABLE:  Toda característica que puede tomar diferentes valores (Ej.número de hijos, precio de la habitación) Las variables se suelen denotar porletras mayúsculas: X, Y,...

    Tipos de variables:

    1. Cualitativas o Categóricas: aquellas que no son medibles, es decir,

    aquellas cuyas observaciones no tienen carácter numérico. Expresan

    cualidades o categorías. Ej. estado civil, sexo o profesión.(A las variables

    cualitativas también se les llama atributos).

    2. Cuantitativas: aquellas que son medibles, es decir sus observaciones

    tienen carácter numérico. Estas se dividen a su vez en:•Discretas: toman valores enteros en un conjunto numerable. Ej.

    Número de habitaciones de un hotel, número de hijos de una familia, númerode obreros de una fábrica.

    •Continuas: toman valores en un conjunto no numerable (los númerosreales o un intervalo). Ej. peso, estatura.

    MUESTRA:  Es un subconjunto de la población. Se denota por n.

    DATO:  cada valor observado de la variable. Si representamos por X a lavariable, representaremos por xi cada dato diferente observado en la muestra,

    el subíndice “i” indica el lugar que ocupa si los ordenamos de menor a mayor.

  • 8/18/2019 Estadistica Generalheifweifqoifhqid

    3/32

  • 8/18/2019 Estadistica Generalheifweifqoifhqid

    4/32

    El tipo de operación estadística más utilizada en la escala nominal es el conteode las frecuencias (distribuciones de frecuencias), con que se presentan lascaracterísticas en las unidades de las respectivas subclases. Estas frecuenciaspueden ser presentadas con números absolutos, porcentajes y proporciones. Además, puede calcularse la moda, razones, tasas de incremento, y el

    coeficiente de contingencia. Tipos de gráficos: Diagrama de Barras.

    Escala de Medición Ordinal:  Establece una relación de orden entre loselementos (personas, animales, objetos, etc.), en atención a una característica,sin que reflejen distancia entre ellos. La diferencia entre dos números ordinalesno tiene significado cuantitativo, sólo expresan, por ejemplo, que una situaciónes mejor que otra, pero no dice cuanto es uno que el otro. 

    La escala ordinal sigue siendo una forma de medición débil porque no sepueden hacer planteamientos numéricos significativos con respecto a lasdiferencias entre las categorías. Es decir, la ordenación establece sólo cuál

    categoría es “mayor”, “mejor” o “preferida”; y no se habla cuánto es “mayor”,“mejor” o más “preferida”.’Esta escala se emplea, cuando un estudio estabasado en ciertas normas que se asignan a un conjunto de objetos, personaso características o a un conjunto de categorías ordenadas. Las categorías dela escala se ordenan dé acuerdo con la cantidad de rasgos o característicasque representan cada una de ellas ya que la escala ordinal distingue losdiferentes valores de la variable, ubicando las características en orden, desdela más alta hasta la más baja.

    La diferencia fundamental entre una escala nominal y una ordinal es que en laordinal rige no sólo la relación de igualdad, de identidad, sino también larelación de “mayor que”.

    Propiedades de la Escala Ordinal

    1. Las observaciones o elementos se les ordena en rangos o categoríasdiferentes.

    2. Las categorías son mayores o menores que otras categorías, es decir,que existe una clasificación de mayor a menor (jerarquía).

    3. Las categorías son mutuamente excluyentes y exhaustivas.4. No presentan el cero.

    Ejemplos:

    Calificaciones de Estudiantes de Estadíst ica en el Semestre 2005-2006

    Calif icaciones Nº de calificaciones Excelente 3Sobresaliente 6Distinguido 10Bueno 38Satisfactorio 25

    Deficiente 50Muy Deficiente 0

  • 8/18/2019 Estadistica Generalheifweifqoifhqid

    5/32

    Se pueden clasificar los habitantes de una ciudad de acuerdo a su situacióneconómica, a los estudiantes tomando en cuenta a su rendimiento académico,el orden jerárquico de los militares (Subteniente, Teniente, Capitán, Mayor,Teniente Coronel, Coronel, General) y la clasificación académica de losprofesores universitarios (Instructor, Asistente, Agregado, Asociado, Titular),

    etcétera. Aunque la escala ordinal resulta en cierta forma más precisa que lanominal, no alcanza el grado de precisión deseado en una investigación.

    El tipo de operación estadística más utilizada en la escala ordinal es lamediana, percentiles, cuartiles, mínimo y máximo. Tipos de gráficos: Diagramade barras (con un orden) y gráficos de caja.

    Escala de Medición de Intervalos: Tiene todas las características de unaescala ordinal, además permite conocer la distancia entre dos númeroscualquiera. Esta escala se caracteriza por tener una unidad de medida y unorigen (cero) arbitrario. La escala de intervalos a diferencia de la nominal yordinal, es una escala efectivamente cuantitativamente. Una escala de intervaloes una escala ordenada en la cual la diferencia entre las mediciones es unacantidad significativa.

    La escala de intervalos posee además, de las características de la escalanominal y ordinal, la propiedad de que la distancia entre dos valores es de unamagnitud conocida, lo que le permite a esta escala un mayor grado deperfección, ya que proporciona números que manifiestan diferencias palpablesentre individuos, objetos o cosas.

    La razón entre dos intervalos es siempre independiente del punto cero y de launidad que se emplee en la medición. En el caso de las escalas de intervaloslas unidades de medición son iguales.

    Propiedades de la escala de Intervalo:  

    1. Esta escala implica la cuantificación de los datos2. En estás medidas se utilizan unidades constantes de medición

    (capacidad, peso, Céntimos, grados Fahrenheit o centígrados) loscuales producen intervalos iguales entre puntos de la escala.

    3. Proporcionan números que manifiestan diferencias palpables entre

    individuos, objetos o cosas.4. En esta escala de intervalos el punto cero (0) y la unidad de medida esarbitrario.

    5. Se pueden aplicar todas las medidas estadísticas más conocidas, conexcepción del coeficiente de variación.

    6. Son mutuamente exclusivas y exhaustivas.

  • 8/18/2019 Estadistica Generalheifweifqoifhqid

    6/32

    Ejemplos:

    Calif icación de una prueba de Estadística realizada en la UCV

    Puntuación Nº de Estudiantes 

    90-99 280-89 670-79 1560-69 30Menos de 60 60

    Otro ejemplo de esta escala lo constituyen las escalas utilizadas para medirtemperatura, bien sea en grados Centígrados o Fahrenheit. En estas escalas ladiferencia entre 80º y 85º es igual a la que existe entre 90º y 95º o entre dospuntos cualesquiera de la escala. 

    Las estadísticas apropiadas para esta escala son: media, desviación estándar,rango, varianza, coeficiente de variación, asimetría y kurtosis. Tipos degráficos: histograma, polígono de frecuencias y gráfico de tallos y hojas.

    Escala de Medic ión de Razón o Proporción: Esta constituye el nivel más altode medición, posee todas las características de las escalas nominales,ordinales y de intervalos; además tiene un cero absoluto o natural que tienesignificado físico. Si en ella la medición es cero, significa ausencia oinexistencia total de la propiedad considerada. Son posibles todas lasoperaciones aritméticas. Los números indican los valores concretos de lapropiedad que sé esta midiendo; peso, estatura, ingresos monetarios y gastosdirectos, son ejemplos de medidas con una escala de razón

    .

    Cuando se emplea este tipo de escala, los números indican razones ococientes entre ciertas magnitudes de los objetos, y los datos obtenidos contales escalas pueden ser sometidos a los tratamientos más elaborados.

    Propiedades de la escala a razón:

    1. La distancia entre los números es un tamaño conocido y constante.2. Los datos tienen un punto cero significativo.3. Puede utilizarse cualquier prueba de tipo estadístico, incluyendo el

    coeficiente de variación.4. Permite hacer comparaciones entre los números verdaderos con un ceroaritmético siendo arbitrario únicamente la unidad de medida.

    Ejemplo de escala a razón:

    Computadores vendidos en el último tr imestres del año 2006

    Meses Nº de computadores Octubre 4.000Noviembre 6.000

    Diciembre 15.000

  • 8/18/2019 Estadistica Generalheifweifqoifhqid

    7/32

    Otros ejemplos de esta escala son: la medición del peso o altura de un grupode personas, el ingreso familiar, la intensidad de corriente eléctrica de un cable,la edad de un grupo de personas, etc.

    Generalmente, se supone que los datos que se obtienen para una variable

    cuantitativa se miden en escalas de intervalo o de razón. Estas escalasconstituyen los niveles más elevados de medición. Son formas más fuertes demedición que la escala nominal y ordinal, porque permiten comprender no sólocuál de los valores de un estudio es mayor o menor, sino por cuántasunidades de medida. Las escalas de razón son medidas de Longitud, peso,capacidad, etc., los números reflejan razones entre particularidades y los datosobtenidos según tales escalas pueden ser sometidas a cualquier tratamientoestadístico

  • 8/18/2019 Estadistica Generalheifweifqoifhqid

    8/32

    ORGANIZACIÓN DE LOS DATOS

    2. DISTRIBUCIONES DE FRECUENCIAS

    La distribución de frecuencia es una disposición tabular de datos estadísticos,ordenados ascendente o descendentemente, de acuerdo a la frecuencia decada dato. Las frecuencias pueden ser:

    2.1 FRECUENCIA ABSOLUTA (f i): 

    Es el número de veces que se repite un determinado valor de la variable (xi).Se designa por f i. PROPIEDAD: la suma de todas las frecuencias absolutas es igual al total deobservaciones (n).

    2.2 FRECUENCIA ACUMULADA (Fi): 

    Las frecuencias acumuladas de una distribución de frecuencias son aquellasque se obtienen de las sumas sucesivas de las fi que integran cada una de lasfilas de una distribución de frecuencia, esto se logra cuando la acumulación delas frecuencias se realiza tomando en cuenta la primera fila hasta alcanzar laultima. Las frecuencias acumuladas se designan con las letras F i. Se calcula:

    ∑=

    −   +==i

     j

    ii ji f F  f F 

    1

    1

     PROPIEDAD: La última frecuencia acumulada absoluta es igual al total deobservaciones.

    2.3 FRECUENCIA RELATIVA (h i): 

    Es aquella que resulta de dividir cada una de las frecuencias absolutas entre elnúmero total de datos. Las frecuencias relativas se designan con las letras hi. 

    Se calcula,n

     f h i

    i  =  

    PROPIEDAD: la suma de todas las frecuencias relativas es igual a la unidad..2.4 FRECUENCIA RELATIVA ACUMULADA (Hi):

    Es aquella que resulta de dividir cada una de las frecuencias acumuladas entre

    número total de datos. Se designa con las letras Hi . Se calcula;n

    F  H  ii  =  

    PROPIEDAD: La última frecuencia relativa acumulada es la unidad.

  • 8/18/2019 Estadistica Generalheifweifqoifhqid

    9/32

    DISTRIBUCION DE FRECUENCIAS ABSOLUTAS

    Es la representación estructurada en forma de tabla de toda la información quese ha recogido sobre la variable que se estudia, es decir, es una tabla quepresenta de manera ordenada los distintos valores de una variable y sus

    correspondientes frecuencias. Su forma mas común es la siguiente:

    Variable (x i) f i  Fi  h i  Hi x1   f 1   F1 h1= f 1/n h1 x2   f 2 f 1+f 2 h2= f 2/n h1+h2 ... ... ... ... ...xn   f n f 1+f 2+ … + f n hn= f n/n h1+h2+ … + hn

      Σf i=n Σhi=1

    Ejemplo 1:

    El gobierno desea averiguar si el número medio de hijos por familia hadescendido respecto de la década anterior. Para ello ha encuestado a 50familias respecto al número de hijos, y ha obtenido los siguientes datos:

    0 0 1 1 1 1 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2

    2 2 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 4 4 4 4 4 4 5 6

    Se pide:a. Construir la tabla de frecuencias absolutasb. ¿Cuál es el número de familias que tiene como máximo dos hijos?

    c. ¿Cuántas familias tienen más de 1 hijo pero como máximo 3?d. ¿Qué porcentaje de familias tiene más de 3 hijos?

    Solución:

    a.  Para construir la tabla de frecuencias hay que tener en cuenta que lavariable en estudio es el número de hijos (discreta), que toma los valoresexistentes entre 0 y 6 hijos y las frecuencias son el conjunto de familias, deesta forma tenemos:

    x i f i   Fi   h i   Hi0 2 2 0.04 0.04

    1 4 6 0.08 0.122 21 27 0.42 0.543 15 42 0.3 0.84

    4 6 48 0.12 0.965 1 49 0.02 0.98

    6 1 50 0.02 1n=50

    b. En la columna de las f i: 2+4+21=27 ó en la columna de las Fi: F2= 27c. En la columna de las f i: 21+15=36 ó en la columna de las Fi: 42-6=36

    d. En la columna de las h j: 0.12+0.02+0.02=0.16, que supone un 16% ó enla columna de las Hi: 1-0.84=0.16, 16%

  • 8/18/2019 Estadistica Generalheifweifqoifhqid

    10/32

    DISTRIBUCIONES DE FRECUENCIAS AGRUPADAS

    Es aquella distribución en la que la disposición tabular de los datos estadísticosse encuentran ordenados en clases y con la frecuencia en cada clase; es decir,los datos originales de varios valores adyacentes del conjunto se combinan

    para formar un intervalo de clase. No existen normas establecidas paradeterminar cuándo es apropiado utilizar datos agrupados o datos noagrupados; sin embargo, se sugiere que cuando el número total de datos (N)es igual o superior 50 y además el rango o recorrido de la serie de datos esmayor de 20, entonces, se utilizará la distribución de frecuencia para datosagrupados, también se utilizará este tipo de distribución cuando se requieraelaborar gráficos lineales como el histograma, el polígono de frecuencia o laojiva.

    La razón fundamental para utilizar la distribución de frecuencia de clases esproporcionar mejor comunicación acerca del patrón establecido en los datos y

    facilitar la manipulación de los mismos. Los datos se agrupan en clases con elfin de sintetizar, resumir, condensar o hacer que la información obtenida de unainvestigación sea manejable con mayor facilidad.

     Al agrupar los datos en una distribución de frecuencia de clase se pierde partede la información. La reducción o agrupamiento a que son sometidos los datosde una serie de valores cuando existen muchos valores diferentes, originan losdenominados errores de agrupamiento; sin embargo, estos errores son engeneral muy pequeños, razón por la cual la distribución de frecuencia de clasetiene una validez estadística práctica.

    Para agrupar los datos en intervalos de clase se deben seguir las siguientesreglas generales:

    •  El numero de intervalos de clase se toma entre 5 y 15 dependiendo delos datos.

    •  Cada observación debe estar incluida en una y solo una clase ointervalo.

    •  El valor mas pequeño y mas grande deben entrar en la clasificación.•  No deben existir brechas o vacíos entre clases sucesivas.•  Los intervalos no se deben sobreponer.•  En la medida de lo posible, se debe utilizar la misma amplitud para todos

    los intervalos.

    COMPONENTES DE UNA DISTRIBUCIÓN DE FRECUENCIAS DE CLASES

    1.- Clase o Intervalo de clase.- Son divisiones o categorías en las cuales seagrupan un conjunto de datos ordenados con características comunes. Paraorganizar los valores de la serie de datos hay que determinar un número declases que sea conveniente. En otras palabras, que ese número de intervalosno origine un número pequeño de clases ni muy grande. Un número de clasespequeño puede ocultar la naturaleza natural de los datos y un número muy altopuede provocar demasiados detalles como para observar alguna información

    de gran utilidad en la investigación. A las fronteras del intervalo, la llamaremos,límites inferior y superior de la clase y los denotaremos por Li-1, Li.

  • 8/18/2019 Estadistica Generalheifweifqoifhqid

    11/32

    2.- Punto medio o Marca de clase ( X & ).- Es la semisuma del límite inferior y

    superior de una clase, tal como lo indica la siguiente formula:2

    1−• +

    = iii L L

     X  .

    3.- Amplitud , Longitud o Tamaño del Intervalo.- Los intervalos de clasespueden ser de tres tipos: Clases de igual tamaño, clases de tamañosdesiguales y clases abiertas. En términos generales, las clases de igual tamañoson los mas utilizados y recomendados para los cálculos estadísticos. Sedesigna por las letras Ic.

    Nota:  Al número de observaciones de una clase se le llama frecuencia declase, si dividimos esta frecuencia por el número total de observaciones, sellama frecuencia relativa de clase, y del mismo modo que lo hacíamos paradatos sin agrupar definiríamos Hi, y Fi.

    PROCEDIMIENTO PARA CONSTRUIR UNA DISTRIBUCIÓN DEFRECUENCIAS AGRUPADA EN INTERVALOS 

    1. Determinar el máximo y mínimo entre los valores que tenemos en lamuestra y calcular el recorrido de la variable o  rango, es decir,R=Xmax-Xmin 

    2. Calcular el número de clases a utilizar. Existen diversos criterios para

    determinar el numero de clases, ante tanta diversidad de criterios, se ha

    considerado que lo mas importante es dar un ancho o longitud de clases

    a todos los intervalos de tal manera que respondan a la naturaleza de

    los datos y al objetivo que se persigue y esto se logra con la practica.

    Existe una forma para determinar el numero de clases y la misma puede

    ilustrarse en el siguiente cuadro:

    Numero de Datos Numero de Intervalos

    10 - 100 De 4 a 8

    100 - 1.000 De 8 a 11

    1.000 - 10.000 De 11 a 14

    Cuando se tenga dudas en determinar el numero de intervalos de clases, es de

    gran utilidad utilizar el método sugerido por Hebert A. Sturges, el cual establece

    que: K= 1+3,322 log(n) = numero de intervalos. En este curso se utilizará este

    método siempre y cuando el mismo sea aplicable.

    3. Determinamos la amplitud o tamaño de los intervalos través de la

    siguiente formula:ervalosde N 

     R Ic

    intº= = ancho o tamaño del intervalo.

  • 8/18/2019 Estadistica Generalheifweifqoifhqid

    12/32

    Ejemplo 2 

    Un nuevo hotel va abrir sus puertas en una cierta ciudad. Antes de decidir elprecio de sus habitaciones, el gerente investiga los precios por habitación de40 hoteles de la misma categoría de esta ciudad. Los datos obtenidos (en miles

    de pesetas) fueron:

    3.3 3.3 3.7 3.8 3.9 3.9 3.9  4.0 4.1 4.2

    4.2 4.3 4.3 4.3 4.3 4.4 4.4 4.5 4.5 4.5

    4.5 4.7 4.7 4.7 4.7 4.8 4.9 5.0 5.0 5.1

    5.1 5.3 5.3 5.4 5.6 5.8 5.8 6.0 6.1 6.1

    Procedimiento:

    1.- El menor valor es 3.3 y el mayor 6.1, la diferencia es 2.8 y por tanto R=2.8.

    2.- K= 1+3,322 log(40) = 6.3 ≈ 6 números de intervalos3.- Ic = 2.8 / 6 = 0.467 ≈ 0.5 tamaño de los intervalos 

     Así pues la tabla sería:

    CLASES f i Fi Ci h i Hi[3.3, 3.8) 3 3 3.5 0.075 0.075[3.8, 4.3) 8 11 4 0.2 0.275[4.3, 4.8) 14 25 4.5 0.35 0.625

    [4.8, 5.3) 6 31 5 0.15 0.775[5.3, 5.8) 4 35 5.5 0.1 0.875[5.8, 6.3) 5 40 6 0.125 1

    ¿Cuantos hoteles tienen un precio entre 3.3 y 3.8? 3¿Cuantos hoteles tienen un precio superior a 4.8? 15¿Que porcentaje de hoteles cuestan como mucho 4.3? 27.5 %

  • 8/18/2019 Estadistica Generalheifweifqoifhqid

    13/32

    MÉTODOS GRÁFICOS

    La forma de la distribución de frecuencias se percibe más rápidamente si larepresentamos gráficamente. Se resume la información de la muestra de formagrafica con fines clarificadores o para enfatizar y descubrir determinadas

    características que de otra manera seria muy difícil de apreciar. Un graficosiempre es mas inmediato de comprender que un conjunto de datosestadísticos. Las representaciones graficas varían según el tipo de variable:

    a. Gráficos para variables Discretas y Categóricas

    DIAGRAMA DE BARRAS: Es la representación gráfica usual para variablescuantitativas discretas o para variables cualitativas. En el eje de ordenadasrepresentamos los diferentes valores de la variable (xi). Sobre cada valorlevantamos una barra de altura igual a la frecuencia (absoluta o relativa).Ejemplo:

    020406080

    100120140160180

    1er trim.

    2dotrim.

    3er trim.

    4totrim.

     

    DIAGRAMA DE SECTORES O DE PASTEL:  Es el más usual en variablescualitativas. Se representan mediante círculos. A cada valor de la variable se leasocia el sector circular proporcional a su frecuencia.

    Ejemplo: Los siguientes datos corresponden a una encuesta referente aelecciones locales de un partido político:

    x i f i  a favor 50%

    en contra 40%

    abstención 10%

    Para construir el diagrama de sectores partimos del hecho de que un circuloencierra un total de 360 grados. Luego, mediante una regla de tres simple,repartimos los 360 grados en distintos sectores, de acuerdo con cadaporcentaje; tenemos así que para determinar el sector correspondiente al 50%,resolvemos la ecuación:

    180100

    360*50== X   

  • 8/18/2019 Estadistica Generalheifweifqoifhqid

    14/32

    Esto es, el 50% corresponde a un sector circular de medida 180 grados. A

    continuación, con ayuda de un transportador, señalaremos el sector circular de

    medida 180 grados. Igualmente, para el 40% se tiene 144 grados y para el 10%

    se tiene 36 grados. La siguiente figura muestra la representación grafica.

    Elecciones Locales

    a favor

    en contra

    abstencion

     

    b. Gráficos para variables cont inuas

    HISTOGRAMA: Es la representación gráfica de las frecuencias agrupadas deuna variable continua sobre intervalos. A diferencia de los diagramas de barras,los histogramas dibujan rectángulos unidos entre si, lo que significa que existecontinuidad en la variable cuyos valores se representan en el eje horizontal quese haya dividido en intervalos de igual amplitud. Las áreas de los rectángulosson proporcionales a las frecuencias que representan.

    Ejemplo:

    Histograma correspondiente a las horas extraslaboradas por un grup o de obreros petroleros.

    16

    21

    16

    46

    11

    3

    15

    8

    0

    5

    10

    15

    20

    25

    15 20 25 30 35 40 45 50 55 60 65

    Clases

           F     r     e     c     u     e     n

         c       i     a     s

     

  • 8/18/2019 Estadistica Generalheifweifqoifhqid

    15/32

    El histograma o diagrama de barras proporcionan mucha información respectoa la estructura de los datos, nos permite evidenciar fundamentalmente trescaracterísticas:

    1. Forma de la distribución.

    2. Acumulación o tendencia posicional (valor central de la distribución).3. Dispersión o variabilidad.

    Cuando nos encontramos en distribuciones donde los intervalos no tienen lamisma amplitud, las barras del histograma tienen que tener un áreaproporcional a la frecuencia que queramos representar

    EJERCICIOS

    1.- Los siguientes datos representan los ingresos diarios (en miles) de 20

    obreros de cierta compañía.

    16, 16, 17, 18, 18, 19, 19, 19, 20, 20, 20, 20, 20, 21, 21, 22, 22, 23, 23, 24.

    a. Construya una tabla de frecuencias agrupadas utilizando la formulade Sturges.

    b. Construya un histograma de frecuencias. Comente.c. ¿Cuántos obreros tienen un ingreso diario menor de 22?d. ¿Qué porcentaje de obreros tienen un ingreso diario entre 16 y 19?

    2.- Los siguientes datos corresponden al tiempo que han necesitado 30 clientesde un banco para llevar a cabo una transacción bancaria:

    0.1 0.4 1.1 1.2 1.3 1.4 1.5 1.6 2.0 2.5 2.8 2.8 3.1 3.3 3.6

    4.1 4.1 4.3 4.6 5.0 5.5 6.4 6.5 7.7 7.3 7.4 8.0 9.5 9.5 10.0

     

    a. Construya una tabla de frecuencias agrupadas utilizando la formulade Sturges.

    b. Construya un histograma de frecuencias. Comente.

    3.- Con el fin de asignar viáticos, la compañía “El Refinanciamiento” obtuvo

    unas estadísticas sobre le numero de kilómetros recorridos por susvendedores. A continuación se muestran los resultados. Construya una tablade distribución de frecuencias agrupadas a cinco intervalos.

    10 11 12 12 13 13 13 14 14 1515 16 16 16 16 16 16 16 17 19

  • 8/18/2019 Estadistica Generalheifweifqoifhqid

    16/32

    MEDIDAS DE POSICIÓN 

    INTRODUCCIÓN

    Después que los datos han sido reunidos y tabulados, se inicia el análisis con el fin de

    calcular un número único, que represente o resuma todos los datos. Las medidas deposición forman parte del conjunto de medidas descriptivas numéricas, las cuales seclasifican en parámetros –cuando se calculan a partir de la población total- y losestadígrafos - cuando se calculan a partir de los datos de una muestra. Una medidade posición es un número que se toma como orientación para referirnos a un conjuntode datos.Uno de los problemas fundamentales que presenta un análisis estadístico, es el debuscar el valor más representativo de una serie de valores. El primer paso que hayque realizar para que se entienda una larga serie de valores u observaciones, es el deresumir los datos en una distribución de frecuencia; esto no es suficiente para finespractico, puesto que a menudo es necesario una sola medida descriptiva, y enespecial cuando se requiere comparar dos o más serie estadísticas. Es necesario

    continuar el proceso de reducción hasta sustituir todos los valores observados por unosolo que sea representativo, de tal forma que permita una interpretación global delfenómeno en estudio; para que ese valor sea representativo debe reflejar la tendenciade los datos individuales de la serie de valores. Un valor o dato de la serie con estascaracterísticas recibe el nombre de promedio, media o medida de posición, esto esdebido a su ubicación en la zona central de la distribución. Las medidas de posiciónson de gran importancia en el resumen estadístico, ya que representan un grannúmero de valores individuales por uno solo.El valor más representativo de un conjunto de datos por lo general no es el valor máspequeño ni el más grande, es un número cuyo valor se encuentra en un puntointermedio de la serie de datos. Por lo tanto un promedio es con frecuencia un valorreferido que representará la medida de posición de la serie de valores. Las medidas de

    posición se emplean con frecuencia como mecanismo para resumir un gran número dedatos o cantidades con la finalidad de obtener un valor que sea representativo de laserie.Las Principales Medidas de Posición son:

    La Media Aritmética, Mediana, Moda, los cuartiles, Deciles y Percentiles.

    Todas ellas a su manera tratan de dar una idea del numero alrededor del cual secentra a todo el conjunto de datos.

    CARACTERÍSTICAS DE LAS MEDIDAS DE POSICIÓN

    •  Deben ser definidas rigurosamente y no ser susceptibles de diversasinterpretaciones.

    •  Deben depender de todas las observaciones de la serie, de lo contrario noseria una característica de la distribución.

    •  No deben tener un carácter matemático demasiado abstracto.

    •  Deben ser susceptibles de cálculo algebraico, rápido y fácil.

  • 8/18/2019 Estadistica Generalheifweifqoifhqid

    17/32

    MEDIA ARITMÉTICA

    La media aritmética ( X ) o simplemente la media es la medida de posición de másimportancia y utilización en las aplicaciones estadísticas por su fácil calculo einterpretación. Se trata del valor medio de todos los valores que toma la variable

    estadística de una serie de datos. La media es el valor más representativo de la seriede valores, es el punto de equilibrio, el centro de gravedad de la serie de datos. Por lo

    general se le designa con  X  .

    La media aritmética de una serie de n valores de una variable X1, X2, X3; X4,.........Xn,es el cociente de dividir la sumatoria de todos los valores que toma la variable Xi, entre

    el número total de ellos. La formula se puede expresar así:n

     X 

     X 

    n

    i

    i∑== 1   .

    Desviaciones o desvíos.-  Son diferencias algebraicas entre cada valor de la serieo cada punto medio y la media aritmética de dicha serie, o un valor cualquiera tomado

    arbitrariamente. Los desvíos o desviación  se designan con la letra di.Dado una serie de valores X1, X2, X3, .......Xn , se llama desvío a la diferencia entre unvalor cualquiera Xi  de la serie y un valor indicado k de esa misma serie. Si el valorindicado k de la serie corresponde precisamente a la media aritmética de esos valoresdados, se dice entonces que los desvíos son con respecto a la media aritmética. En

    símbolo: ).(  X  X d  ii   −=  

    PROPIEDADES DE LA MEDIA ARITMÉTICA

    1. La suma de las desviaciones con respecto a la media aritmética es igual a cero.

    .0=∑ id  2. La suma de las desviaciones al cuadrado de los diversos valores con respecto a la

    media aritmética es menor que la suma de las desviaciones al cuadrado de losdiversos valores con respecto a cualquier punto K, que no sea la media aritmética.

    ( )2∑   − X  X i  

  • 8/18/2019 Estadistica Generalheifweifqoifhqid

    18/32

    4. La media del producto de una constante por una variable, es igual al producto de laconstante por la media de la variable.

    . X K n

     X K 

    n

    KX  X 

    ii===

      ∑∑ 

    5. La media de la suma de una constante más una variable, es igual a la media de la

    variable más la constante. ( )( )

    .K  X n

    n

     X 

    n

    K  X  X 

    ii

    K  X i+=+=

    +=

      ∑∑∑+  ., de

    la misma forma se cumple esta propiedad para la resta.

    CARACTERÍSTICAS PRINCIPALES DE LA MEDIA ARITMÉTICA

    •  El valor de la media depende de cada una de las medidas que forman la seriede datos, y se halla afectada excesivamente por los valores extremos de laserie de datos.

    •  La media se calcula con facilidad y es única para cada caso y permiterepresentar mediante un solo valor la posición de la serie de valores.

    •  La media es una medida de posición que se calcula con todos los datos de laserie de valores y es susceptible de operaciones algebraicas.

    CÁLCULO DE LA MEDIA PARA DATOS NO AGRUPADOS

    Para calcular la media de datos no agrupados en clases se aplica la siguiente formula:

    n

     X  X 

    i∑=   . En donde n es el número total de datos y son los valores de la

    variable.

    i X 

     Ejemplo:

    Calcule la media aritmética de los siguientes valores: { }14,11,9,8,7,5=i X   

    .96

    54

    6

    14119875==

    +++++==

     ∑n

     X  X 

    i  Por lo tanto la media es 9.

    CÁLCULO DE LA MEDIA PARA DATOS AGRUPADOS

    Cuando se trabaja con la distribución de frecuencia agrupada, se parte del supuestode que todos los datos comprendidos en un intervalo de clase se distribuyenuniformemente a lo largo de este, entonces se puede tomar la marca de clase o punto

    medio ( ) del intervalo como adecuada representación de los valores que conformanel mencionado intervalo. Para calcular la media en estas condiciones se puedenutilizar tres métodos: El método directo o largo y dos métodos abr   

    X&

     

  • 8/18/2019 Estadistica Generalheifweifqoifhqid

    19/32

    MÉTODO DIRECTO

    Este método se le conoce también como método largo; el mismo resulta demasiadoengorroso cuando las magnitudes de los puntos medios o de las frecuencias de claseson muy grandes, debido a que los cálculos son demasiados extensos. Los pasos aseguir para calcular la media con este método son los siguientes:

    1. Se agrupan los datos en clases y se llevan a una columna, se calculan lospuntos medios de cada clase y se colocan en sus respectivas columnas, sedeterminan las frecuencias de cada clase y se ubican en sus respectivascolumnas.

    2. Se multiplican los puntos medios de cada clase por sus respectivas frecuencias,luego se obtiene la sumatoria de las frecuencias (f i) multiplicadas por el punto

    medio ( X & ) así: .ii X  f   &∑

     3. Luego se calcula la media aritmética aplicando la formula:

    n Donden

     X  f 

    n f 

     X  f  X 

    i

    i

    ii.....∑

    ∑∑ =

    ==

    && es igual al número total de datos.

    Ejemplo:

    Calcule la media de la siguiente distribución de frecuencia correspondiente al peso enKg. de un grupo de obreros. Realice los cálculos respectivos para completar elsiguiente cuadro.

    CLASESi f   

    75-------79 2080-------84 4085-------89 6090-------94 10095 ------99 140

    =∑ i f  n =360

    Solución:

    PESOS  X &   Nº DE OBREROS  X  f i&  

    75-------79 77 20 154080-------84 82 40 328085-------89 87 60 522090-------94 92 100 920095 ------99 97 140 13580

    n =360 =∑ ii X  f   & 32820

    Aplicando la formula se tiene: Interpretación:

    .17.91360

    32820===

     ∑ N 

     X  f  X 

    ii&

     El peso promedio del grupo de

    360 obreros es de 91.17 Kg.

  • 8/18/2019 Estadistica Generalheifweifqoifhqid

    20/32

    LA MEDIANA

    La mediana es el valor que divide en dos partes iguales, al conjunto de observacionesordenadas respecto de sus magnitudes, de tal manera que el numero de datos porencima de la mediana sea igual al numero de datos por debajo de la misma. Sedesigna por las letras Me. Tal como sucede con la media, el método de determinacióndepende de si los datos son agrupados o no.

    CÁLCULO DE LA MEDIANA PARA DATOS NO AGRUPADOS (Discretos)

    Para encontrar la mediana en una serie de datos no agrupados, lo primero que sehace es ordenar los datos en una forma creciente o decreciente y luego se ubica laposición que esta ocupa en esa serie de datos; para ello hay que determinar si la seriede datos es par o impar.

    Si el número n  es impar , entonces la posición de la mediana se determina por la

    formula:)

    2

    1(

      += n X  Me , luego el número que se obtiene indica el lugar o posición que

    ocupa la mediana en la serie de valores, luego la mediana será el número que ocupeel lugar de lo posición encontrada.

    Si n es par , se aplica la formula2

    )2/2()2/(   ++=

    nn  X  X  Me   El resultado obtenido, es la

    posición que ocupara la mediana, pero en este caso se ubica la posición de lamediana por ambos extremos de la serie de valores y los dos valores que se obtenganse le saca la media y esta será la mediana buscada, por lo tanto la mediana, en estecaso, es un número que no se encuentra dentro de la serie de datos dados.  

    Ejemplos: 

    Sean los siguientes datos, 5, 12, 7, 8, 10, 6, y 9, los años de servicios de un grupo detrabajadores. Determine la mediana.

    Lo primero que se hace es ordenar los datos en forma creciente o decreciente; Losdatos ordenados quedaran así:

    5, 6, 7, 8, 9, 10, 12.

    Luego, como se trata de un numero impar de datos (n=7), se aplica la formula

    )4(

    )2

    17

    ()2

    1

    (

     X  X  X  Me n   ===   ++ , para ubicar la posición de la mediana. Esto indica que la

    mediana ocupa la posición 4, que en la serie de valores esa posición corresponde alnúmero 8, entonces, Me = 8.

    Tomemos ahora los datos: 5, 5, 7, 9, 11, 12, 15, 18.

    Como se trata de un numero par de datos (n =8), la mediana esta dada por:

    102

    20

    2

    119

    22

    )5()4()2/2()2/(==

    +=

    +=

    +=

      +  X  X  X  X  Me

    nn 

  • 8/18/2019 Estadistica Generalheifweifqoifhqid

    21/32

    Cuando los valores de un conjunto de datos se agrupan en una distribución defrecuencia de clase, cada valor pierde su identidad, por tal motivo la mediana obtenidade una distribución de frecuencia de datos puede no ser la misma que la medianaobtenida de los datos sin arreglar en clases, pero el resultado será una aproximación.Cuando se trata de datos agrupados, la mediana se obtiene mediante el método deinterpolación. La interpolación parte del supuesto de que los datos de cada intervalode la distribución están igualmente distribuidos.

    PASOS PARA DETERMINAR LA MEDIANA EN DATOS AGRUPADOS

    1. Se elabora la tabla de frecuencia de datos con sus diferentes intervalos de clases,se ubican las frecuencias fi y se calculan las frecuencias acumuladas Fi  de esadistribución.

    2. Se determina la ubicación o posición de la mediana en el intervalo de la

    distribución de frecuencia, mediante la formula2

    n. El resultado obtenido

    determinará la clase donde se encuentra ubicada la mediana, lo cual seconseguirá en la clase donde la frecuencia acumulada Fi sea  igual o superior a

    este resultado. Luego se aplica la formula:  Ic fi

    F n

     Li Mei

    ⎥⎥⎥⎥

    ⎢⎢⎢⎢

    ⎡−

    +=− )1(

    2  

    Donde,

    2

    n  = posición de la mediana

    Li = es el limite inferior de la clase donde se encuentra ubicada la mediana.

    F(i-1) = es el valor de la frecuencia acumulada anterior a la clase mediana.fi = es el valor de la frecuencia de clase donde se encuentra la mediana.Ic = es el tamaño del intervalo de clase.n = es el número total de datos de la distribución en estudio.

    Ejemplo:

    Dada la siguiente distribución de frecuencia referida a las horas extras laboradas porun grupo de obreros. Calcule la mediana. Realice los cálculos respectivos paracompletar el siguiente cuadro.

    N° de horas Extras Obreros

    55------59 660------64 2065------69 1870------74 5075------79 1780------84 1685------89 5

    n = 132

  • 8/18/2019 Estadistica Generalheifweifqoifhqid

    22/32

    Solución:

    Cuadro con las frecuencias acumuladas:

    N° de horas Extras Obreros Fi55------59 6 660------64 20 2665------69 18 4470------74 50 9475------79 17 11180------84 16 12785------89 5 132

    N = 132

    Clase Mediana

     

    ,662

    132

    2==

    n  luego se busca en la frecuencia acumulada Fi, un valor que sea igual o

    superior a 66, este se encuentra en la clase 70 -74, la cual llamaremos clasemediana. Por lo tanto el limite inferior de esa clase es 70 = Li. La frecuencia absolutade esa clase es 50 = fi , F(i-1) = 44 y el Ic = 5. Aplicando la formula se tiene:

    .2.722.2705.50

    22705

    50

    446670   =+=⎟

     ⎠

     ⎞⎜⎝ 

    ⎛ +=⎥⎦

    ⎤⎢⎣

    ⎡   −+= Me  

    Luego la mediana de esa distribución es 72.2. Esto quiere decir que un 50 % de losobreros trabajaron horas extras por debajo de 72.2 horas y el otro 50 % trabajaronhoras extras por encima de 72.2 horas.

    CARACTERÍSTICAS DE LA MEDIANA

    •  La mediana no es afectada por los valores extremos de una serie de valores,puesto que la misma no es calculada con todos los valores de la serie.

    •  La mediana no esta definida algebraicamente, ya que para su cálculo nointervienen todos los valores de la serie.

    •  La mediana en algunos casos no se puede calcular exactamente y esto ocurrecuando en una serie de valores para datos no agrupados el número de datoses par, en este caso la mediana se calcula aproximadamente.

    •  La mediana se puede calcular en aquellas distribuciones de frecuencia declases abierta, siempre y cuando los elementos centrales puedan serdeterminados.

    •  La suma de los valores absolutos de las desviaciones de los datos individualescon respecto a la mediana siempre es mínima. (propiedad)

  • 8/18/2019 Estadistica Generalheifweifqoifhqid

    23/32

    LA MODA

    La moda es la medida de posición que indica la magnitud del valor que se presentacon más frecuencia en una serie de datos; es pues, el valor de la variable que más serepite en un conjunto de datos. De las medidas de posición la moda es la que sedetermina con mayor facilidad, ya que se puede obtener por una simple observaciónde los datos en estudio, puesto que es el dato que se observa con mayor frecuencia.Se designa con las letras Mo.

    En las representaciones gráficas la moda es el punto más alto de la gráfica. Laobtención de la moda para datos agrupados no es un valor exacto, ya que varía conlas diferentes formas de agrupar una distribución de frecuencia.

    En algunas distribuciones de frecuencias o serie de datos no agrupados o agrupadosse pueden presentar dos o más modas, en estos casos se habla de serie de datosbimodales o multimodales respectivamente. Estos tipos de distribuciones o series devalores se deben a la falta de homogeneidad de los datos.

    Cuando una serie de valores es simétrica, la media, la mediana y el modo coinciden, ysi el grado de asimetría de la serie es moderada, la mediana estará situada entre lamedia y el modo con una separación de un tercio entre ambas. Tomando en cuentaesta relación, cuando se tengan dos de esta medidas se puede determinar la tercera;sin embargo es conveniente utilizar esta relación para calcular solamente la moda yaque para calcular la media y la mediana existen formulas matemáticas que danresultados más exactos; la formula matemática para calcular la moda por medio de la

    relación antes mencionada es: ( ) Me X  X  Mo   −−= 3 .

    Cuando los datos se encuentran no agrupados la determinación de la moda es sencillay exacta; pero para calcularla en datos agrupados existen varios métodos; cada uno

    de los cuales puede dar un valor diferente de la moda: En este curso se dará elmétodo de la interpolación por considerarse uno de los más precisos en el cálculo deesta. Este método puede expresarse mediante la siguiente formula:

     Ic Li Mo .21

    1

    ⎟⎟ ⎠

     ⎞⎜⎜⎝ 

    ⎛ 

    Δ+Δ

    Δ+=  

    Donde,

    Li = es el limite inferior de la clase modal.

    1Δ = es la diferencia entre la frecuencia absoluta de la clase modal y la frecuencia dela clase anterior a la modal.

    2Δ = es la diferencia entre la frecuencia absoluta de la clase modal y la frecuencia dela clase siguiente a la modal.

    Ic = es el tamaño del intervalo de clase.

  • 8/18/2019 Estadistica Generalheifweifqoifhqid

    24/32

    Ejemplo:

    Dada la siguiente distribución de frecuencia correspondiente al peso en Kg. de ungrupo de trabajadores de una empresa, calcule la moda.

    Peso (Kg) Trabajadores30-----39 240-----49 250-----59 760-----69 1170-----79 1280-----89 1690-----99 2TOTAL

    Clase modal

     La clase que presenta mayor frecuencia absoluta es 80----89, entonces esta sera la

    clase modal, donde Li = 80 10;14216;41216 21   ==−=Δ=−=Δ  Ic  

     Aplicando la formula se tiene:

    .22.8222.28018

    408010.

    144

    480

    21

    1 =+=+=⎟ ⎠

     ⎞⎜⎝ 

    ⎛ 

    ++=→⎟⎟

     ⎠

     ⎞⎜⎜⎝ 

    ⎛ 

    Δ+Δ

    Δ+=  Mo L Mo i  

    Este resultado de la moda se interpreta así: La mayoría de los trabajadores tiene unpeso aproximadamente de 82.22 Kg .

    CARACTERÍSTICAS DE LA MODA

    •  El valor de la moda puede ser afectado grandemente por el método deelaboración de los intervalos de clases.

    •  El valor de la moda no se halla afectado por la magnitud de los valoresextremos de una serie de valores, como sucede en la media aritmética.

    •  La moda se puede obtener en una forma aproximada muy fácilmente, puestoque la obtención exacta es algo complicado.

    •  La moda tiene poca utilidad en una distribución de frecuencia que no poseasuficientes datos y que no ofrezcan una marcada tendencia central.

    •  No es susceptible de operaciones algebraicas posteriores.

    •  La moda se utiliza cuando se trabaja con escalas nominales aunque se puedeutilizar con las otras escalas.

    •  La moda es útil cuando se esta interesado en tener una idea aproximada de lamayor concentración de una serie de datos.

  • 8/18/2019 Estadistica Generalheifweifqoifhqid

    25/32

    OTRAS MEDIDAS POSICIÓNALES

    Cuando se estudio la mediana se pudo detectar que esta divide la serie de valores endos partes iguales, una generalización de esta medida da origen a unas nuevasmedidas de posición denominadas:

    Cuartiles; Deciles y Percentiles. Estas nuevas medidas de posición surgen por lanecesidad de requerir de otras medidas que expresen diferentes situaciones deorden, aparte de las señaladas por la mediana. Por lo tanto es interesante ubicar otrasmedidas que fraccionen una serie de datos en diferentes partes. Es bueno destacarque los cuartiles, los Deciles y los Percentiles son unas variantes de la mediana: De lamisma forma los percentiles abarcan tanto a los cuartiles como a los Deciles.

    LOS CUARTILES.- Son medidas posiciónales que dividen la distribución de frecuenciaen cuatro partes iguales. Se designa por el símbolo Qc  en la que c corresponde a losvalores 1, 2 y 3. El Q1 es el valor debajo del cual queda el 25 % de los datos; Q3 dejael 75 % de los datos y Q2 divide la distribución de frecuencia en dos partes iguales, un

    50 % que esta por debajo de los valores de Q2 y otro 50 % que esta por encima delvalor de Q2. El Q2  es igual a la mediana.

    CÁLCULO DE LOS CUARTILES.- Para datos no agrupados no tiene ninguna utilidadpractica calcular los cuartiles. Para el cálculo de los cuartiles en datos agrupados enuna distribución de frecuencia existe un método por análisis gráfico y otro pordeterminación numérica, por fines prácticos en esta cátedra se utilizara él últimométodo. Para calcular los cuartiles por el método numérico se procede de la siguientemanera:

    1. Se localiza la posición del cuartil solicitado aplicando la formula de posición:

    4

    cn

    Qc  =

    , en donde c viene a ser el número del cuartil solicitado, n corresponde alnúmero total de datos de la distribución y 4 corresponde al número de cuartiles quepresenta una distribución de frecuencia.

    2. Se determina la posición que ocupa el cuartil mediante la formula:4

    cnQc  = , el

    resultado obtenido determinara la clase donde se encuentra ubicado el cuartil, locual se conseguirá en la clase donde la frecuencia acumulada Fi  que sea igual osuperior a este resultado. Luego se aplica la formula:

    .4

    )1(

     Ic fi

    F cn

     LiQ

    i

    c

    ⎥⎥⎥

    ⎢⎢⎢

    ⎡−

    +=

     

    Donde,

    4

    cn  = Posición que ocupa el cuartil en la distribución de frecuencia.

    c =  corresponde al número del cuartil solicitado: 1,2 3.Li  = Limite real inferior de la clase donde se encuentra ubicado el cuartil.F( i-1) = Frecuencia acumulada anterior a la clase donde se encuentra el cuartil.fi = Frecuencia absoluta de clase donde se encuentra el cuartil.

  • 8/18/2019 Estadistica Generalheifweifqoifhqid

    26/32

  • 8/18/2019 Estadistica Generalheifweifqoifhqid

    27/32

     b) Para calcular Q2=Me  se determina primero la posición de este así.

    5.2314

    46322   ==

     xQ   , ahora se ubica esta posición en las frecuencias acumuladas

    para determinar la posición de Q2, se puede observar en la distribución que estaposición esta ubicada en la clase 400----499, entonces, Li = 400, fi = 120, F(i-1) = 175

    y Ic = 100, aplicando la formula se tiene:

    .08.44708.47400120

    5650400100.

    120

    1755.2314002   =+→+=⎥⎦

    ⎤⎢⎣

    ⎡   −+=Q  

    Este resultado de Q2 establece que el 50 % de los obreros de este estudio,devengan un salario semanal por debajo de 447.08 $ y el otro 50 % devenga unsueldo por encima de 447.08 $. Calcule la mediana y compárela con este resultado.

    c) Calcular, Q2 = P50, además P25 = Q1, la comprobación de estos resultados se ledeja como practica al estudiante.

    g) Para calcular P70  lo primero que se hace es determinar la posición,

    10.324100

    4637070   ==

     xP . Ahora se ubica este resultado en la columna de frecuencias

    acumuladas para encontrar la posición de P70 en la distribución de frecuencia. Comose puede observar en la tabla de distribución de frecuencia, P70 se encuentra ubicadoen la clase 500-------599, entonces, Li  = 500, fi  = 70, F(i-1) = 295 y Ic  = 100,aplicando la formula se tiene:

    .57.54157.4150070

    2910500100.

    70

    29510.32450070   =+=+=⎥⎦

    ⎤⎢⎣

    ⎡   −+=P  

    Esto indica que el 70 % de los obreros devengan un sueldo semanal que esta pordebajo de 541.57 $ y que el 30% de los restantes obreros, ganan un salario porencima de 541.57 $.

  • 8/18/2019 Estadistica Generalheifweifqoifhqid

    28/32

    MEDIDAS DE DISPERSION 

    INTRODUCCIÓN

    La utilización de una medida de posición escogida para representar a los datos no

    indica otras características que el conjunto de observaciones que posee. No todas lasobservaciones son iguales a la medida de posición tomada o seleccionada; en generallos datos difieren unos de otros, por lo tanto se hace necesario encontrar ciertosíndices o medidas que indiquen la variabilidad o dispersión del conjunto deobservaciones que se estudian.

    Una medida de variabilidad es un numero que nos indica el grado de dispersión en unconjunto de datos. Si el valor es pequeño (respecto de la unidad de medida) entonceshay una gran uniformidad entre los datos (homogénea). Por el contrario, un gran valornos indica poca uniformidad (heterogénea). Cuando es cero quiere decir que todos losdatos son iguales.

    Las medidas de dispersión se clasifican en dos grupos:

    •  Medidas de Dispersión Absoluta.

    Son aquellas que vienen expresadas en las mismas unidades originales queindican la serie de datos. Entre las medidas de dispersión absoluta se encuentran:el rango, el rango intercuartilico, la desviación media, la varianza y la desviacióntípica.

    •  Medidas de Dispersión Relativas.

    Estas medidas vienen expresadas en valores abstractos o porcentajes; su principal

    función es la de determinar entre varias distribuciones la de mayor o menordispersión. La medida de dispersión relativa de mayor importancia es el coeficientede variación.

    RANGO O RECORRIDO.

    Es la medida de dispersión mas sencilla y se define como la diferencia entre el valormas alto menos el valor mas pequeño y se designa por R. Es decir, R = Xmax-Xmin paradatos no agrupados. Si los datos están agrupados en K clases el rango será ladiferencia entre el limite superior de la K-esima clase menos el limite inferior de laprimera clase.

    El rango nos dará una primera idea sobre las dispersión de los datos ya que si su valores pequeño nos indicará una gran concentración de los datos, y si por el contrario suvalor es grande nos puede indicar una gran variabilidad o dispersión de los datos.

  • 8/18/2019 Estadistica Generalheifweifqoifhqid

    29/32

    RANGOS ESPECIALES

    El rango nos da una idea de la dispersión total de las observaciones, por lo tantopuede estar afectada por valores extremos dando en consecuencia una idea de altadispersión. Por tal motivo, se han definido otros rangos que tratan de subsanar esteproblema.

    RANGO ÍNTERCUARTILICO. Se define como la entre el cuartil tres(Q3) yel cuartil uno(Q1) de una distribución de frecuencia y se expresa así: RI = Q3 − Q1.

    RANGO SEMI-ÍNTERCUARTILICA. Es la diferencia entre el Q3 y el Q1 divididoentre dos:

    2

    13 QQ RSI   −

    = .

    Si los valores de la RI o RSI son pequeños indica una alta concentración de los datosde la distribución en los valores centrales de la serie de datos. Estas medidas se

    utilizan para comparar los grados de variación de los valores centrales en diferentesdistribuciones de frecuencias. Los mismos no son afectados por los valores extremos,no se adaptan a la manipulación algebraica, por tal motivo son de poco utilidad.

    DESVIACIÓN MEDIA. La desviación media de un conjunto de n observaciones x1, x2,x3,. . .xn, es el promedio de los valores absolutos de las desviaciones (di) con respectoa la media aritmética o la mediana. Si se denomina como DM a la desviación media,entonces su formula matemática será la siguiente:

     N 

     N 

     X  X 

     DM 

     N 

    i

    i

     N 

    i

    i   ∑∑== =

    = 11

     Esta formula es para datos no agrupados. Se toma el valor absoluto en la ecuación,debido a que la primera propiedad de la media aritmética establece que los desvíos(di) de una serie con respecto a la media aritmética siempre son iguales a cero, esdecir: di = 0.

    Cuando los datos están en una distribución de clases o agrupados se aplica lasiguiente formula:

    n

    d  f 

    n

     f  X  X 

     DM 

     N 

    i

    ii

    n

    i

    ii   ∑∑== =

    = 11&

     

    En esta formula  X &   es el punto medio de cada clase y fi es la frecuencia de cadaclase. La Desviación Media a pesar de que para su cálculo se toman todas lasobservaciones de la serie, por el motivo de no tomar en cuenta los signos de lasdesviaciones (di), es de difícil manejo algebraico. Su utilización en estadística es muyreducida o casi nula, su importancia es meramente histórica, ya que de esta formulaes la que da origen a la desviación típica o estándar.

  • 8/18/2019 Estadistica Generalheifweifqoifhqid

    30/32

    VARIANZA

    Una manera de resolver el problema de los signos de las desviaciones respecto de lamedia aritmética es elevándolos al cuadrado y luego sumar todos los resultadosobtenidos. Esta suma se puede considerar como una medida de la dispersión total delos valores. Aquellos que estén mas alejados de la media aritmética tendrán un aportemayor a esta suma de cuadrados.

    Su mayor utilidad se presenta en la estadística inductiva y se puede interpretar comouna medida de variación promedio (o el promedio de la suma de los cuadrados). Seobtiene dividiendo la variación total entre el numero de unidades o medidas. Sedesigna por la letra S2 su formula de calculo es al siguiente:

    agrupadosnodatos paran

     X  X S 

    i..,.

    )( 22   ∑   −=

     

    agrupadosdatos para X n

     X  f 

    n

     X  X  f S 

    iiii 2

    22

    2)(

    −=−

    = ∑ ∑

     DESVIACIÓN TIPICA 

    Como la varianza es el promedio de los desvíos respecto de la media elevados alcuadrado, viene entonces expresada en unidades cuadradas. Para obtener unamedida de dispersión en las unidades originales se le extrae la raíz cuadrada (positiva)a la varianza, obteniendo así otra medida de dispersión denominada desviación típicao estándar , la cual se designara por S y será igual a :

    n

     X  X S 

    i∑   −=

    2)(   &Para datos no agrupados

    2

    22)( X 

    n

     f  X 

    n

     f  X  X S 

    iiii−=

    −=

      ∑∑   &Para datos agrupados 

    INTERPRETACIÓN DE LA DESVIACIÓN TÍPICA 

    La desviación típica como medida absoluta de dispersión, es la que mejor nosproporciona la variación de los datos con respecto a la media aritmética, su valor seencuentra en relación directa con la dispersión de los datos, a mayor dispersión deellos, mayor desviación típica, y a menor dispersión, menor desviación típica.Su mayor utilidad se presenta en una distribución normal, ya que en dicha distribución

    en el intervalo determinado por σ  ± X    se encuentra el 68. 27% de los datos de la

    serie; en el intervalo determinado por la σ  2± X    se encuentra el 95,45% de los datos

    y entre la σ  3± X    se encuentra la casi totalidad de los datos, es decir, el 99,73% delos datos; además, existe una regla general de gran utilidad para la comprobación de

    los cálculos que dice: “una oscilación igual a seis veces laσ  

    , centrada en la mediacomprende aproximadamente el 99% de los datos”.

  • 8/18/2019 Estadistica Generalheifweifqoifhqid

    31/32

    Ejemplo:

    Los siguientes datos corresponden al número de panes consumidos por un grupo defamilias de una urbanización de la ciudad, durante una semana determinada.

    Clases f i 30—32 1033—35 1836—38 6039—41 10042—44 8045—47 1448—50 6

    288

    Solución:

    Clases f i  i X &   ii X  f   &  2

    ii X  f   &

    30—32 10 31 310 961033—35 18 34 612 2080836—38 60 37 2220 8214039—41 100 40 4000 16000042—44 80 43 3440 14792045—47 14 46 644 2962448—50 6 49 294 14404

    288 11520 464508

    .0.40288

    11520===

     ∑n

     X  f  X 

    ii&

     

    88.12288

    11520

    288

    4645082

    2

    2

    2 =⎟ ⎠

     ⎞⎜⎝ 

    ⎛ −=−=

     ∑ X 

    n

     X  f S 

    ii

     

    Interpretación.- El resultado obtenido indica que en promedio, el consumo de pan detrigo del grupo de familias de esa urbanización se dispersa con respecto a su media

    aritmética en una cantidad igual a 3.59.

    =⎟ ⎠

     ⎞⎜⎝ 

    ⎛ −=

    ⎟⎟

     ⎠

     ⎞

    ⎜⎜

    ⎝ 

    ⎛ −=   ∑∑

    2221

    288

    11520

    288

    464508

    n

     X  f 

    n

     X  f S 

    iii &&

    .59.388.12160088.1612   ==−=

  • 8/18/2019 Estadistica Generalheifweifqoifhqid

    32/32

    DISPERSIÓN RELATIVA

    Las medidas de variabilidad, estudiadas hasta ahora, solo permitían medir lasdispersiones absolutas de los términos de la muestra. Las medidas, tomadas en esascondiciones, serán de utilidad, solo cuando se trata de analizar una sola muestra;pero, cuando hay que establecer comparaciones entre distintas muestras, seránecesario expresar tales medidas en valores relativos, que pueden ser proporciones oporcentajes.

    Las medidas de dispersión relativas permiten comparar grupos de series distintas encuanto a su variación, independientemente de las unidades en que se midan lasdiferentes características en consideración. Generalmente las medidas de dispersiónrelativas se expresan en porcentajes, facilitando así el estudio con medidasprocedentes de otras series de valores La dispersión relativa viene a ser igual a ladispersión absoluta dividida entre el promedio.

    Existen varias medidas de dispersión relativa, pero, la más usada es el coeficiente de

    variación de Pearson, este es un índice de variabilidad sin dimensiones, lo que permitela comparación entre diferentes distribuciones de frecuencias, medidas en diferentesunidades. El coeficiente de variación de Pearson se designa con las letras CV. Laformula matemática es:

    100 x X 

    S CV   =

     Una serie de valores será más dispersa que otra mientras su CV sea mayor.

    Ejemplo:

    La venta en el mercado de tres productos, varia de acuerdo al siguiente cuadro.Determine el CV de cada uno y diga cuál de ellos presenta mayor variación y cuál lamenor.

    Producto  X    S Unidades CV1 45 5 Bs. 11.11 %2 450 40 Bs. 8.87 %3 4500 350 Bs. 7.78 %

    Para resolver el problema se calcula el CV de cada producto y luego sé determina cuálpresenta mayor o menor variación

    CV = Sx100/ X  

    CV(1) = 5x100/45 = 11.11 %.

    CV(2)  = 40x100/450 = 8.87 %.

    CV(3) = 350x100/4500 = 7.78 %.

    Se puede observar que la menor dispersión la presenta el producto 3, por lo tanto, delos tres productos el que menos varia es ese; por otro lado el de mayor dispersión o

    variabilidad es el producto 1.