16  Visualización de datos: mostrar para convencer

16.1 Un buen gráfico vale más que mil regresiones

Exagero. Pero no tanto. La visualización de datos es probablemente la habilidad más subestimada en las ciencias sociales. Puedes tener el análisis más sofisticado del mundo, pero si lo presentas en una tabla ilegible de 15 columnas, nadie lo va a entender (ni le va a importar).

La visualización no es “hacer gráficos bonitos.” Es comunicar evidencia de forma efectiva. Y como toda comunicación, requiere pensar en tu audiencia, tu mensaje, y la forma más clara de transmitirlo (Healy, 2018).

Como dice Cairo (2016): “Un gráfico no es un adorno. Es un argumento visual.” Si tu gráfico no argumenta nada, sobra.

16.2 Principios fundamentales

16.2.1 1. Cada gráfico responde una pregunta

Si no puedes decir en una frase qué pregunta responde tu gráfico, probablemente no necesitas ese gráfico. “¿Cómo se distribuye el ingreso?” “¿Hay diferencia entre hombres y mujeres?” “¿Ha cambiado con el tiempo?”

Knaflic (2015) lo llama el “¿y qué?” (so what?). Antes de hacer cualquier gráfico, pregúntate: si alguien ve esto, ¿qué conclusión debería sacar? Si no tienes una respuesta clara, el gráfico no tiene propósito.

16.2.2 2. El ratio data-ink de Tufte

Edward Tufte (2001) propuso un principio sencillo pero revolucionario: maximizar el ratio data-ink. Es decir, la mayor proporción posible de la tinta de tu gráfico debe representar datos. Todo lo demás (decoraciones, líneas de grilla innecesarias, fondos, bordes) es “tinta sin datos” (non-data ink) y debería eliminarse.

\[\text{Data-ink ratio} = \frac{\text{Tinta que representa datos}}{\text{Tinta total del gráfico}}\]

En la práctica, esto significa: elimina todo lo que no aporta información. Líneas de grilla innecesarias, leyendas redundantes, colores sin propósito, efectos 3D (por favor, nunca 3D), fondos decorativos, bordes alrededor del gráfico.

NotaPara recordar

La regla de Tufte tiene sus críticos. A veces, un poco de “tinta sin datos” mejora la legibilidad (como líneas de grilla sutiles que ayudan a leer valores). El principio no es “elimina todo” sino “justifica todo.” Si un elemento visual no aporta, elimínalo. Si aporta a la legibilidad, mantenlo.

16.2.3 3. La honestidad visual

Un gráfico puede mentir sin falsificar un solo dato. Basta con manipular los ejes, elegir colores engañosos, o truncar la escala. Cairo (2016) dedica un libro entero a la “veracidad” en la visualización.

Figura 16.1: El mismo dato, dos historias: a la izquierda, eje truncado que exagera la diferencia. A la derecha, eje completo que muestra la proporción real.

Formas comunes de mentir con gráficos:

Truco Cómo miente Ejemplo
Eje Y truncado Exagera diferencias pequeñas Una diferencia de 2% parece abismal
Doble eje Y Sugiere relación donde no la hay “El consumo de helado y los ahogamientos correlacionan”
Área 3D Distorsiona proporciones por perspectiva Tortas 3D donde las porciones del frente parecen más grandes
Cherry-picking temporal Selecciona período que favorece tu argumento “El crimen bajó” (pero empezaste a contar desde el pico)
Colores manipuladores Rojo = malo, verde = bueno cuando no corresponde Hacer que tu grupo se vea “positivo”

16.2.4 4. Color con propósito

El color debe codificar información, no decorar. Reglas prácticas:

  • Datos categóricos: Usa colores cualitativamente distintos (no un gradiente). Máximo 5-6 categorías con color; más de eso, busca otra codificación.
  • Datos secuenciales: Usa un gradiente de un solo color (más oscuro = más valor). Ejemplo: mapa coroplético de IDH.
  • Datos divergentes: Usa dos colores que divergen desde un punto neutral. Ejemplo: diferencias respecto a la media (azul = debajo, rojo = arriba).
  • Accesibilidad: ~8% de los hombres son daltónicos. Evita la combinación rojo-verde. Usa paletas accesibles como viridis en R o las paletas de ColorBrewer.
AdvertenciaSobre daltonismo

Si tu gráfico depende de distinguir rojo de verde para entenderse, excluyes al 8% de los hombres (y al ~0.5% de las mujeres). Usa paletas como viridis, cividis, o las paletas de RColorBrewer tipo “qualitative.” En ggplot2: scale_fill_viridis_d() para datos discretos, scale_fill_viridis_c() para continuos.

16.2.5 5. Texto integrado y etiquetas directas

Las mejores visualizaciones integran el texto en el gráfico: títulos descriptivos, anotaciones que señalan patrones, etiquetas directas en lugar de leyendas separadas.

  • Título descriptivo, no genérico. ❌ “Gráfico 1: Pobreza por región.” ✅ “La pobreza se concentra en las regiones rurales del sur.”
  • Etiquetas directas en las líneas/barras en lugar de leyendas. Reduce el trabajo cognitivo del lector.
  • Anotaciones para señalar puntos clave: “Aquí empezó el programa” o “Este es el valor más alto desde 2010.”
  • Subtítulo para dar contexto metodológico: “Datos de la ENAHO 2023. N = 35,400 hogares.”

16.2.6 6. Small multiples: la alternativa al hacinamiento

Cuando quieres mostrar el mismo patrón para muchos grupos, en vez de meter todo en un solo gráfico (que se vuelve ilegible), usa small multiples (o facets en ggplot2): el mismo gráfico repetido para cada grupo, con los mismos ejes (Tufte, 2001).

Ventajas:

  • Cada grupo se ve con claridad.
  • La comparación visual es inmediata.
  • No necesitas 15 colores diferentes.

En ggplot2: facet_wrap(~ variable) o facet_grid(fila ~ columna).

16.3 Catálogo de visualizaciones por propósito

16.3.1 Distribución: ¿cómo se ven tus datos?

Figura 16.2: Tres formas de visualizar una distribución: histograma, densidad y boxplot

Cuándo usar cada uno:

Gráfico Mejor para Evitar cuando
Histograma Ver la forma de la distribución de una variable Tienes pocas observaciones (<30)
Densidad Comparar distribuciones de 2-3 grupos Tienes más de 4 grupos (se vuelve ilegible)
Boxplot Comparar medianas y dispersión entre grupos Quieres ver la forma exacta de la distribución
Violin plot Ver distribución Y comparar grupos Audiencia no familiarizada con el formato
Ridgeline Comparar distribuciones de muchos grupos Pocas categorías (mejor usar densidades)

16.3.2 Relación entre variables: ¿hay un patrón?

Figura 16.3: Diagrama de dispersión con línea de tendencia: relación entre gasto en educación y puntajes PISA (datos simulados)

16.3.3 Cambio en el tiempo: ¿hay tendencia?

Figura 16.4: Evolución de la tasa de pobreza en tres países latinoamericanos (datos simulados)

16.3.4 Comparación entre grupos: ¿hay diferencias?

Figura 16.5: Satisfacción con servicios públicos por quintil de ingreso (datos simulados)

16.3.5 Datos geográficos: ¿dónde ocurre?

Figura 16.6: Índice de desarrollo humano en América del Sur (datos simulados)

16.3.6 Proporciones: ¿cómo se reparte el total?

Una nota sobre el gráfico de torta (pie chart): tiene mala fama, y con razón. El ojo humano es mucho peor comparando ángulos que comparando longitudes. Si tienes más de 3-4 categorías, un gráfico de barras siempre es más legible.

¿Cuándo sí funciona la torta?

  • Cuando tienes 2-3 categorías y quieres mostrar proporciones simples (ej.: 70% urbano, 30% rural).
  • Cuando la audiencia espera una torta (presentaciones ejecutivas, informes de prensa).

En todos los demás casos: barras ordenadas de mayor a menor. Wilke (2019) argumenta que incluso con pocas categorías, las barras son casi siempre superiores.

16.4 El storytelling con datos

Knaflic (2015) propone que visualizar datos no es suficiente; necesitas contar una historia con ellos. Su framework tiene tres pasos:

16.4.1 1. Contexto

¿Quién es tu audiencia? ¿Qué necesitan saber? ¿Qué acción quieres que tomen? Si presentas resultados a un comité de política educativa, tu gráfico necesita ser diferente que si presentas en un congreso académico.

16.4.2 2. Elegir la visualización adecuada

No hay un “mejor gráfico.” Hay el gráfico adecuado para tu mensaje:

Tu mensaje es sobre… Usa… No uses…
Comparación entre categorías Barras (horizontales si hay muchas) Tortas con 10+ categorías
Tendencia temporal Líneas Barras apiladas (confunden)
Distribución Histograma, densidad, boxplot Tortas (no muestran distribución)
Relación entre dos variables Scatter plot Barras (no muestran la relación)
Composición del total Barras apiladas (100%) Tortas 3D (nunca)
Geografía Mapas coropléticos Tablas con nombres de regiones

16.4.3 3. Eliminar ruido y dirigir la atención

Usa atributos preatentivos para que el ojo vaya donde quieres: color, tamaño, posición, forma. Resalta lo importante y atenúa lo secundario.

Ejemplo: si quieres que tu audiencia se fije en que el País C revirtió su tendencia de pobreza, haz su línea más gruesa y de un color más intenso, y atenúa las otras con gris.

16.5 Tablas: la visualización olvidada

Una tabla bien hecha es una forma de visualización. Una tabla mal hecha es una tortura.

16.5.1 Principios para buenas tablas

  1. Alinea los números a la derecha (para que los dígitos se alineen).
  2. Usa formato consistente (misma cantidad de decimales).
  3. Elimina bordes innecesarios. Las mejores tablas usan solo líneas horizontales (arriba, abajo, y separando el header).
  4. Redondea. Nadie necesita 6 decimales. Para coeficientes de regresión, 2-3 decimales suelen bastar.
  5. Señala visualmente los resultados más importantes (negrita, asteriscos de significancia, sombreado).
  6. El título debe ser informativo, no genérico.
❌ Tabla mala ✅ Tabla buena
“Tabla 3: Resultados” “Tabla 3: El programa aumentó la matrícula escolar en 8 puntos porcentuales”
Bordes por todos lados Solo líneas horizontales
6 decimales 2-3 decimales
Sin notas al pie Notas sobre significancia, fuente, y N

16.5.2 Tabla vs. gráfico: ¿cuándo usar cada uno?

  • Usa tabla cuando el lector necesita valores exactos (coeficientes de regresión, estadísticos descriptivos para replicación).
  • Usa gráfico cuando el lector necesita ver patrones, tendencias, o comparaciones.
  • Nunca dupliques: si tienes un gráfico que muestra lo mismo que la tabla, deja uno de los dos en un apéndice.

16.6 Los 7 pecados capitales de la visualización

Pecado Ejemplo Solución
Gráfico de torta con 15 categorías Imposible distinguir las porciones Usa barras ordenadas
3D sin razón Distorsiona las proporciones Siempre 2D
Eje Y truncado Exagera diferencias pequeñas Empieza en cero (o justifica por qué no)
Demasiados colores Arcoíris ilegible Máximo 5-6 colores, paleta coherente
Doble eje Y Confusión garantizada Dos gráficos separados
Leyenda lejos del dato El lector va y viene entre gráfico y leyenda Etiquetas directas
Gráfico sin título ¿Qué estoy mirando? Título que responde una pregunta

16.7 Herramientas

16.7.1 R + ggplot2

El ecosistema más poderoso para visualización de datos en ciencias sociales. La curva de aprendizaje es empinada, pero la capacidad es prácticamente ilimitada. Todo lo que ves en este capítulo está hecho con ggplot2. Healy (2018) tiene un libro completo (gratuito online) que enseña visualización con R de forma excelente.

Paquetes complementarios útiles:

  • patchwork: Combinar múltiples gráficos.
  • sf + rnaturalearth: Mapas.
  • plotly: Gráficos interactivos (con ggplotly()).
  • scales: Formateo de ejes.
  • ggrepel: Etiquetas que no se superponen.
  • ggridges: Ridge plots para comparar muchas distribuciones.
  • ggthemes: Temas prediseñados (theme_economist, theme_fivethirtyeight).
  • gganimate: Animaciones (para presentaciones, no para papers).

16.7.2 Python + matplotlib/seaborn

Alternativa poderosa, especialmente si ya programas en Python. Seaborn hace gráficos estadísticos elegantes con poco código. Matplotlib es más flexible pero más verboso.

16.7.3 Tableau / Power BI

Para análisis exploratorio rápido y dashboards. No requieren programación, pero son menos flexibles para publicación académica. Útiles para explorar datos antes de decidir qué gráficos incluir en el paper.

16.7.4 Datawrapper / Flourish / RAWGraphs

Herramientas web gratuitas para gráficos rápidos y publicables. Excelentes para periodismo de datos y presentaciones. Datawrapper es especialmente bueno para gráficos simples y limpios.

16.7.5 Para mapas

  • QGIS (gratuito, open source): El estándar para análisis geoespacial.
  • Mapbox / Leaflet: Mapas interactivos web.
  • GeoDa: Análisis espacial exploratorio.
ImportanteReflexión

La visualización no es la última etapa de tu investigación. Es una herramienta de pensamiento. Graficar tus datos tempranamente te ayuda a encontrar patrones, detectar errores, y generar hipótesis. No esperes a “tener los resultados” para empezar a visualizar. Grafica desde el primer día. Las mejores preguntas de investigación a menudo surgen de un gráfico exploratorio que reveló algo inesperado.

TipEjercicio
  1. Toma los datos de tu investigación (o un dataset público como ENAHO, CASEN, o los datos abiertos del Banco Mundial).
  2. Haz tres gráficos que cuenten la historia principal de tus hallazgos. Para cada uno, escribe un título que sea una afirmación (no una descripción).
  3. Muéstralos a alguien que no sepa nada de tu tema. ¿Entienden el mensaje sin explicación adicional?
  4. Si no entienden, rediseña. Si entienden, felicidades: ya eres mejor comunicador visual que el 80% de los académicos.
  5. Toma un gráfico de tu tesis (o de un paper que estés leyendo) y evalúalo: ¿cumple con el ratio data-ink? ¿Usa color con propósito? ¿El título es informativo? ¿Es accesible para daltónicos? Rediseñalo aplicando los principios de este capítulo.
Cairo, A. (2016). The Truthful Art: Data, Charts, and Maps for Communication. New Riders.
Healy, K. (2018). Data Visualization: A Practical Introduction. Princeton University Press.
Knaflic, C. N. (2015). Storytelling with Data: A Data Visualization Guide for Business Professionals. John Wiley & Sons.
Tufte, E. R. (2001). The Visual Display of Quantitative Information (2nd ed.). Graphics Press.
Wilke, C. O. (2019). Fundamentals of Data Visualization: A Primer on Making Informative and Compelling Figures. O’Reilly Media.