Mostrando entradas con la etiqueta organizacion de los datos. Mostrar todas las entradas
Mostrando entradas con la etiqueta organizacion de los datos. Mostrar todas las entradas

sábado, 29 de junio de 2013

Estadistica Descriptiva

Nos permite describir y analizar un fenómeno o hecho de interés, valiéndose para ello de técnicas de ordenación, organización y presentación de los datos, así como también del cálculo de algunos indicadores numéricos los cuales reflejan los aspectos más importantes plasmados en esos datos.

Estudio descriptivo de una colección de datos

Una vez obtenida la información correspondiente a un hecho o fenómeno se nos presenta bajo la forma  de una colección de datos individuales y viene a constituir la materia prima del investigador.

Usualmente se trabaja con grandes cantidades de datos y resulta difícil sacar conclusiones de ellos en su forma original. piense por un momento en lo que significa tener, por ejemplo, 300 números o símbolos ante sus ojos. es por ello que se hace necesario agrupar o condensar los datos, presentarlos adecuadamente y obtener algunos indicadores numéricos relevantes que faciliten la interpretación y determinación de los aspectos mas importantes.

Un estudio descriptivo de una colección de datos contempla los siguientes aspectos:

i) ordenación y clasificación de los datos originales.
ii) presentación de los datos agrupados en cuadros estadísticos y tráficos.
iii) Cálculo de medidas descriptivas y numéricas que nos indiquen el centro o la localizacion de los datos, el grado de variabilidad o dispersión de los mismo y la forma en que se distribuyen.
iv) El análisis propiamente de los datos, conjugando los resultados obtenidos en i, ii y iii, esto nos permite determinar si existe alguna tendencia o patrón en los datos, la forma como se distribuyen etc

Vamos a considerar por separado los caso de  datos cualitativos y cuantitativos.

Organización de los datos cualitativos:

En este caso la agrupación de los datos es muy sencilla y se hace de acuerdo a las modalidades que presente las variable en estudio. mediante un conteo se determina el número de datos (también llamado frecuencia) correspondiente a las diferentes categorías de la variable. este procedimiento es valido para cualquier cantidad de datos.

Ejemplo de Organizacion de los datos cualitativos.

 1) En un estudio sobre las personas que ejercen cargos directivos en una empresa, se realizaron 15 entrevistas y en relación al Genero se obtuvo la siguiente información:
f,f,m,m,f,m,m,m,f,f,m,f,f,m,f

Agrupando los datos de acuerdo a su categoría se obtiene.
 
Genero Personas
Masculino 7
Femenino 8
total 15
El procedimiento utilizado es intuitivo y una vez resumida la información de esta manera se facilita la interpretación.

Organización de los datos cuantitativos:

para organizar y agrupar datos de tipo cuantitativo discretos o continuos, se utiliza  un procedimiento similar, pero más laborioso, al utilizado con los datos cualitativos.

vamos a utilizar la información correspondiente a la edad de 15 estudiantes.
12,14,10,15,16,12,14,18,20,19,19,18,12,15,17

un primer intento de organizar esos datos puede consistir en ordenarlos de menor a mayor tal como se presenta a continuación
10,12,12,12,14,14,15,15,16,17,18,18, 19,19,20

este ordenamiento de los datos nos permite saber que la edad mínima es 10 y la máxima es 20.

otra cosa que podemos hacer, dado que algunos datos se repiten, es agruparlos formando una columna donde aparezcan los valores diferentes de la edad, ordenados de menor a mayor y al lado de cada edad el numero de niños que tienen esa edad.
Edad   estudiantes
10             1
12             3
14             2
15             2
16             1
17             1
18             2
19             2
20             1
total          15


En una distribución de frecuencia podemos distinguir los siguientes elementos:

i)  Intervalos de clase o clases: que consiste en intervalos de valores ordenados en forma ascendente y que cubren todos los datos disponibles.

ii) Limites de clase: Son los extremos de la clase o intervalo, el extremo inferior o valor menor del intervalo se denomina limite inferior de la clase y el extremo superior se denomina limite superior se denotan por LIi y LSi para la clase i-esima.

iii) Amplitud de clase  (o longitud de clase o tamaño de clase o anchura de clase)
se obtiene haciendo la diferencia entre el limite superior y el limite inferior de la clase. se denota por ci, donde el subíndice i representa la clase considerada.

iv) Frecuencia absoluta de clase: Es el numero de observaciones contenidas o incluidas en la clase. También se le conoce como frecuencia de clase y se denota por $f_i$




     Si denotamos por n el numero total de datos, se cumple que:

                     $\sum_{i=1}^k{f_i}$ =n

Siendo k el número de clases de la distribución de frecuencias.


v) Frecuencia relativa de una clase: se obtiene dividiendo la frecuencia absoluta de la clase $f_i$ entre el número total de observaciones n. se denota por $f_ri$.

 $f_ri$= $\frac{f_i}{n}$  siempre se cumple que  $\sum_{i=1}^k{f_ri}$ =1
la frecuencia relativa de una clase representa la proporción de datos contenidos en esa clase.

vi) Frecuencia acumulada de una clase: se obtiene sumando las frecuencias absolutas d todas las clases anteriores a ella y la frecuencia absoluta de la clase considerada. Se denota por $F_i$
se tiene que:

$F_i$=$f_i$

$F_2$=$f_1$+$f_2$=$F_1$+$f_2$

$F_3$=$f_1$+$f_2$+$f_3$=$F_2$+$f_3$

La frecuencia acumulada de la ultima clase de la distribución de frecuencias coincide con el número total de datos n.


La frecuencia acumulada de una clase cualquiera se interpreta como el número de datos que están por debajo o que son inferiores al valor representado por el limite superior de la clase considerada y que por supuesto son mayores que el valor representado por el limite inferior de la primera clase.

vii) Frecuencia relativa de una clase: se obtiene dividiendo la correspondiente frecuencia acumulada $F_i$ entre el número total de datos. s denota por $F_ri$ ,  $F_ri$= $\frac{F_i}{n}$
la frecuencia relativa acumulada de una clase representa la proporción de datos que son menores que el limite superior de la clase considerada.

viii) marca de clase: para una clase especifica, se define la marca de clase, $m_i$, como el punto de media de esa clase, es decir, s la semi-suma de los limites inferior y superior de la clase.

$m_i$   $ \frac{LI_i+LS_i}{2}$


Reglas y recomendaciones generales para construir una distribución de frecuencia:

1i)      De determina el valor máximo y mínimo de lo datos y se calcula la diferencia entre valores, la cual se denomina rango o recorrido de la variable y se denota por R, en nuestro ejemplo R=20-10=10

2ii)      Se determina el número de clases y la amplitudes de clase, si se conoce de antemano el numero de clases K, dividiendo el rango entre el numero de clase se obtiene la amplitud.
$\frac{R}{K}$ = $c_i$
                     Entonces despejando k=$\frac{R}{c_i}$


En la práctica, en general no se conoce con anterioridad ni el numero de clase ni la amplitud de la misma, sin embargo existen dos recomendaciones muy importantes



1)      El número de clases no sea inferior a 5 ni mayor que 15, un número muy pequeño de clases significaría una agrupación extremada, y en consecuencia sin utilidad, de los datos; y un número excesivo de clases nonos estaría resolviendo el problema de resumir datos.
2)      De ser posible y si conviene al investigador, es deseable que todas las clases tengan la misma amplitud.
La cual viene dada por:
K=1+3,3*Log(n) siendo k el numero  de clases, n el número total de datos y Log el logaritmo ordinario en base 10. Esta fórmula solo proporciona una orientación sobre el cual debe ser el numero de clases.
iii)      Proceder a construir los intervalos de clases, primero se fija el límite inferior, recomendable el valor más bajo de los datos, luego se le suma la amplitud de la clase $c_i$ para obtener el límite superior.
El límite superior de la clase 1 va a coincidir con el límite superior de la clase 2 y así sucesivamente por lo que se recomienda ordenarlo de la siguiente manera.

[$LI_1$ - $LS_1$)
[$LI_2$ - $LS_2$)
[$LI_3$ - $LS_3$)
.
.
[$LI_i$ - $LS_i$)



Datos

i)  El rango es R=18- 11,6=6,4

ii) numero de clase y amplitud
Regla de sturges k=1+3,3*Log40= 6,28 aprox a 7 clases
$\frac{6,4}{7}$=0,91 entonces la amplitud $c_i$=0,91 se aproxima a 1

iii) el limite inferior de la clase 1 es el valor mínimo de los datos el cual es 11,5 a esto se le suma la amplitud que es 1, el limite superior seria 12,5 entonces queda [11,5 -12,5 ) luego la clase 2, comienza en 12,5 mas la amplitud queda en 13,5 [12,5 - 13,5) y así sucesivamente,
quedaría así.
[11,5 -12,5 ) 
[12,5 - 13,5)
[13,5 - 14,5)
[14,5 - 15,5)
[15,5 - 16,5)
[16,5 - 17,5)
[17,5 - 18,5)

iv) ahora determinar el número de observaciones o datos contenidos en cada clase es decir determinar las frecuencias absolutas de clase $f_i$
para la frecuencia relativa de las clases: $f_ri$=$\frac{f_i}{n}$
la $f_ri$=$\frac{2}{40}$=0,05asi con cada uno
frecuencia absoluta de la clase
Frecuencia absoluta de la clase

v) Para determinar la frecuencia acumulada de una clase: $F_1$=$f_1$, $F_1$=2, $F_2$=$f_1$+$f_2$, $F_2$=2+1=3
para la frecuencia relativa acumulada $F_ri$=$\frac{F_i}{n}$
la $F_r2$=$\frac{3}{40}$=0,075 asi con cada uno
$f_ri$=$\frac{f_i}{n}$
la $f_ri$=$\frac{2}{40}$=0,05asi con cada uno

distribucion de frecuencia construida paso a paso
Distribución de frecuencia con todos sus cálculos



la marca de la clase se calcula con la formula
$m_i$ $ \frac{LI_i+LS_i}{2}$

Temas Relacionados
Que es la estadistica
Definicion de estadistica