sábado, 22 de noviembre de 2008

Histograma o diagrama de barras

Publicado originalmente el 14 de octubre de 2007 en mi blog de la Societat Balear de Matemàtiques XEIX.

¿Qué es un histograma? ¿Es lo mismo que un diagrama de barras?

Parece que no todos tenemos clara cuál es la respuesta. Y si uno empieza a consultar libros de Secundaria, de universidad, Internet... acabamos de liarnos, porque cada uno dice la suya.

A continuación pongo los gráficos que creo son correctos:

Diagrama de barras: idóneo para representar gŕaficamente los datos de una variable cuantitativa discreta (o cualitativa). Las modalidades de la variable se representan en el eje X y se levanta una barra de altura igual a la frecuencia de cada modalidad.

La elección del eje X para las modalidades y el eje Y para las frecuencias es arbitraria y no es raro ver diagramas con las modalidades en el eje Y.

Histograma: se utiliza para representar gráficamente los datos de una variable continua (o cuantitativa discreta con muchas modalidades), que han sido agrupados en (intervalos de) clases. En un eje (X) representamos las clases, teniendo en cuenta la amplitud de los intervalos, y en el otro eje (Y) levantamos un rectángulo de área igual a la frecuencia de la clase.

Una de las utilidades del histograma es poder ver de qué manera se distribuyen los datos (distribución de la variable). Y como ya hemos dicho, en los histogramas, a diferencia de los diagramas de barras, no es la altura la que determina la frecuencia de cada clase, sino el área del rectángulo. Y esto lo hacen mal en muchos libros de secundaria. Si todos los intervalos tienen la misma amplitud no hay problema, pero si no es así y cogemos una definición de histograma que diga que tenemos que levantar un rectángulo de altura igual a la frecuencia, entonces eso no es un histograma (es una especie de diagrama de barras para variables cuantitativas continuas) y no nos sirve para observar la distribución de la variable.

No sé dónde radican las causas de la confusión pero convendría que al menos las instituciones educativas, los docentes y los libros de texto lo tengan claro y dejen de confundir a la gente. Os animo a que echéis un vistazo a los libros de texto que estáis utilizando en clase.

Por otra parte, "histogramas" como este, realizado por el programa Excel (Análisis de datos), no ayudan mucho a esclarecer el tema:

Éste es el resultado si pedimos a Excel que haga un gráfico de barras (columnas) de los mismos datos agrupados en intervalos:
¿Cuál es la diferencia?

Esta definición ya me gusta un poco más.

4 comentarios:

Anónimo dijo...

ojala lo aga un poco mas especifico lo del histograma y los diagramas de barra pofis

Anónimo dijo...

tu definicion es exacta =) . la problematica radica en que si los intervalos no tienen distinta amplitud entonces no tienen diferencia al compararlos con los diagramas de barras, o no mucha. los graficos resultarian a lo sumo proporcionales uno respecto del otro, como el de tu ejemplo. saludos
javo

Anónimo dijo...

En primer lugar los intervalos de clase deben ser todos de igual amplitud, no puede ser una clase más amplia que otra.
en segundo lugar el histograma de frecuencias es un diagrama en el cual las barras se dibujan juntas, en cambio el diagrama de barras, estas van separadas.

Félix dijo...

Hola Anónimo 3.

Dices: "En primer lugar los intervalos de clase deben ser todos de igual amplitud, no puede ser una clase más amplia que otra."
Eso no es correcto. Los intervalos pueden ser de distinta amplitud cada uno. ¿No puedo acaso representar un histograma con los siguientes intervalos de edad: de 0 a 18 años, de 18 a 65 años y de 65 a 100 años ?

Claro que puedo. De hecho es en este tipo de histogramas cuando se ve quién hace bien un histograma y quien piensa equivocadamente que un histograma es lo mismo que un diagrama de barras con la única diferencia de que las barras se ponen juntas.

Si esa fuera la única diferencia menuda inutilidad sería definir dos conceptos para lo mismo.

Tengo pendiente escribir una entrada ampliando este tema, dado que es con diferencia la entrada más visitada del blog. Hecho que me da la razón sobre que hay mucha gente que confunde estos dos gráficos estadísticos.