Función de distribución acumulada: guía completa para entender y aplicar esta herramienta clave

Pre

La Función de distribución acumulada es un concepto central en estadística y probabilidad. Sirve para describir completamente el comportamiento probabilístico de una variable aleatoria y se utiliza en infinidad de aplicaciones, desde la toma de decisiones en finanzas hasta el análisis de tiempos de fallo en ingeniería. A lo largo de este artículo exploraremos qué es la Función de distribución acumulada, sus propiedades, diferencias entre variables discretas y continuas, su relación con otras funciones fundamentales y las técnicas para estimarla y utilizarla en la práctica.

¿Qué es la Función de distribución acumulada?

La Función de distribución acumulada, también conocida como CDF por sus siglas en inglés (cumulative distribution function), asigna a cada número real x la probabilidad de que una variable aleatoria X tome un valor menor o igual a x. En notación matemática, se escribe:

F_X(x) = P(X ≤ x).

Esta función resume toda la información probabilística de X. Conocer F_X(x) para todos los x permite responder a preguntas como “¿cuál es la probabilidad de que X no supere un umbral?” o “¿qué valor de X corresponde a un percentil dado?”.

Definición formal de la Función de distribución acumulada

La definición formal de la Función de distribución acumulada depende del tipo de variable X, pero comparte propiedades universales. Para cualquier variable aleatoria X real, F_X(x) se define como la probabilidad de que X tome valores no superiores a x. Posteriormente, se pueden derivar propiedades clave que facilitan su uso práctico:

  • Limitaciones en x: lim_{x → -∞} F_X(x) = 0 y lim_{x → +∞} F_X(x) = 1.
  • No decreciente: F_X(x) es una función no decreciente en x, es decir, si a ≤ b, entonces F_X(a) ≤ F_X(b).
  • Soy continua o con saltos: F_X(x) es continua por la derecha y puede presentar saltos en puntos donde X asume valores discretos.
  • Intervalos de probabilidad: la probabilidad de que X caiga en un intervalo (a, b] se calcula como F_X(b) − F_X(a).

Estas propiedades permiten interpretar la distribución de X sin necesidad de conocer su ley subyacente en cada caso particular. En particular, para una distribución continua, F_X(x) es estrictamente creciente en el dominio de soporte y puede derivarse su función de densidad f_X(x) cuando esta existe, tal como F_X'(x) = f_X(x) en los puntos donde f_X es continua.

Función de distribución acumulada en variables discretas y continuas

Discretas: saltos de la CDF

Cuando X es discreta, la Función de distribución acumulada presenta saltos en los valores que X puede tomar. Entre dos puntos de la support, la CDF permanece constante y en cada punto x_i donde X puede tomar un valor, F_X(x_i) da el valor de la probabilidad acumulada hasta ese punto. En estos casos, la CDF es una función escalonada, y la altura de cada salto corresponde a la probabilidad de ese valor puntual: P(X = x_i).

Continuas: densidad y distribución suave

Si X es continua y tiene una densidad de probabilidad f_X, la Función de distribución acumulada se obtiene al integrar la densidad:

F_X(x) = ∫_{−∞}^{x} f_X(t) dt.

En este escenario la CDF es una función continua y, si f_X es suave, F_X es diferenciable y su derivada es la densidad: F_X'(x) = f_X(x).

Entre estos dos casos extremos, puede haber distribuciones mixtas o densidades con singularidades. Sin embargo, las propiedades básicas de monotonía, límites y continuidad por la derecha se mantienen para cualquier distribución razonable.

Relación con la función de densidad y la función de supervivencia

La Función de distribución acumulada está íntimamente relacionada con otras funciones que describen la distribución de X. Dos de las más importantes son:

  • Función de densidad de probabilidad (pdf): f_X(x) es la derivada de F_X(x) cuando X tiene una distribución continua. En ese caso, F_X(x) = ∫_{−∞}^{x} f_X(t) dt y f_X(x) ≥ 0 con ∫_{−∞}^{+∞} f_X(x) dx = 1.
  • Función de supervivencia (tail distribution): S_X(x) = 1 − F_X(x) representa la probabilidad de que X tome valores mayores que x. Es especialmente útil en análisis de riesgo y fiabilidad, donde interesa la probabilidad de eventos extremos.

La guía entre estas funciones facilita la transición entre perspectivas: si se conoce la pdf, se puede obtener la CDF por integración; si se conoce la CDF, se puede recuperar la pdf al derivar; y para evaluaciones de cola, la función de supervivencia es la herramienta natural.

La inversa de la Función de distribución acumulada y los cuantiles

La inversa de la Función de distribución acumulada juega un papel crucial en la estadística inferencial y en simulaciones. Definimos la función cuantil Q(p) como:

Q(p) = inf{x ∈ ℝ : F_X(x) ≥ p}, para 0 < p < 1.

Los cuantiles permiten responder a preguntas como “¿qué valor de X excede al 95% de las observaciones?” o “¿qué valor de X corresponde al 25% superior de probabilidades?”. En simulación, se utiliza el método de transformada inversa: si U es una variable uniforme en [0,1], entonces X = Q(U) tiene la misma distribución que X.

Estimación práctica de la Función de distribución acumulada

En datos reales, no conocemos explícitamente F_X. La estimación se realiza mediante la Función de distribución acumulada empírica, que se construye a partir de una muestra de n observaciones X_1, X_2, …, X_n. La CDF empírica F_n se define como:

F_n(x) = (1/n) ∑_{i=1}^n I{X_i ≤ x},

donde I es la función indicadora. Esta estimación es consistente y converge puntualmente a F_X cuando n crece, y de forma uniforme (teorema de Glivenko–Cantelli) en todo x.

La CDF empírica es una herramienta poderosa para comparar distribuciones: se puede superponer F_n(x) con una CDF teórica F_X(x) para evaluar la bondad de ajuste mediante pruebas como Kolmogorov-Smirnov, Anderson-Darling o Cramér-von Mises.

Pruebas de ajuste y usos prácticos de la Función de distribución acumulada

Las pruebas de ajuste basadas en la diferencia entre CDFs permiten cuantificar cuán bien una distribución teórica describe los datos observados. Algunas de las más utilizadas son:

  • Prueba de Kolmogorov-Smirnov: mide el máximo desvío entre F_n(x) y F_X(x) en todo x. Es sensible a diferencias en la media y la forma, especialmente cerca de la cola central.
  • Prueba de Anderson-Darling: otorga mayor peso a las colas de la distribución, útil cuando el interés está en eventos extremos.
  • Prueba de Cramér-von Mises: evalúa la distancia cuadrática entre F_n(x) y F_X(x) a lo largo de todo el dominio.

Además de las pruebas de ajuste, la Función de distribución acumulada aparece tanto en inferencia como en toma de decisiones:

  • Para fijar umbrales de riesgo: p-quantiles se utilizan para definir niveles de confianza o límites de pérdidas aceptables.
  • En valoración de seguros y finanzas: la CDF de rendimientos facilita estimar probabilidades de pérdida o ganancia para distintos escenarios.
  • En confiabilidad de sistemas: F_X(x) describe la probabilidad de que un componente falle antes de tiempo x, lo que permite estimar tasas de fallo y planificar mantenimientos.

Aplicaciones prácticas en diferentes ámbitos

La Función de distribución acumulada no es solo una noción teórica; se aplica en numerosos campos de forma cotidiana. A continuación, algunos ejemplos prácticos:

  • Finanzas: evaluación de riesgo, cálculo de Value at Risk (VaR) y análisis de rendimientos de activos mediante la CDF de los retornos.
  • Seguros: estimación de primas y reservas basadas en la distribución de tiempos hasta el siniestro o la duración de contratos.
  • Ingeniería y fiabilidad: modelar tiempos hasta la falla y planificar intervalos de mantenimiento preventivo.
  • Calidad y manufactura: control de procesos mediante percentiles y probabilidades de defectos.
  • Psicometría y educación: puntuaciones de pruebas y percentiles para interpretar resultados relativos entre individuos.

Ejemplos prácticos con distribuciones conocidas

La Función de distribución acumulada puede expresarse en forma cerrada para muchas distribuciones habituales. A continuación se presentan tres ejemplos representativos:

Ejemplo 1: Distribución Normal N(μ, σ^2)

La CDF de la distribución normal se escribe como:

F_X(x) = Φ((x − μ)/σ),

donde Φ es la función de distribución acumulada de la norma estándar. Para valores x, se puede consultar tablas o utilizar funciones especiales en software estadístico. Esta CDF es continua, estrictamente creciente y satisface F_X(−∞) = 0 y F_X(+∞) = 1.

Ejemplo 2: Distribución Exponencial λ

Para una variable X con distribución exponencial de tasa λ > 0, la CDF es:

F_X(x) = 1 − e^{−λx}, para x ≥ 0; y F_X(x) = 0 para x < 0.

Esta CDF representa la probabilidad de que el tiempo hasta el fallo sea menor o igual a x y es útil en análisis de fiabilidad y colas.

Ejemplo 3: Distribución Uniforme en [a, b]

La CDF de una variable X Uniforme(a, b) es:

F_X(x) = 0 para x ≤ a; F_X(x) = (x − a)/(b − a) para a < x < b; F_X(x) = 1 para x ≥ b.

En cada caso, la función de distribución acumulada facilita calcular probabilidades y percentiles de forma directa a partir de la forma funcional de la distribución.

Medición de diferencias entre CDFs: qué puede decirnos la distancia entre dos distribuciones

Cuando comparamos dos distribuciones, la diferencia entre sus funciones de distribución acumulada ofrece información valiosa. Algunas métricas comunes son:

  • Distancia Kolmogorov: D = sup_x |F_1(x) − F_2(x)|, que captura la mayor divergencia entre las CDFs a lo largo de todo x.
  • Distancia de Wasserstein: mide la cantidad de “trabajo” necesario para transformar una distribución en otra, teniendo en cuenta el orden de los valores.

Estas distancias son útiles en validación de modelos, selección de distribuciones y en análisis de cambios en procesos estocásticos a lo largo del tiempo.

Consejos prácticos para trabajar con la Función de distribución acumulada

  • Conviene visualizar F_X(x) mediante gráficos para entender la forma de la distribución: monotónica, asimetría y colas.
  • Para datos discretos, observa los saltos de la CDF y la magnitud de cada salto, que corresponde a las probabilidades de los valores posibles.
  • En simulación, la transformación inversa facilita generar muestras con una distribución deseada a partir de variables uniformes.
  • Al estimar F_n(x), ten en cuenta que la resolución del eje x puede afectar la interpretación de las diferencias con F_X(x) en el mundo real.

Conclusiones y consideraciones finales

La Función de distribución acumulada es una herramienta fundamental para comprender, describir y trabajar con cualquier variable aleatoria. Su definición simple, combinada con sus propiedades clave, permite abordar preguntas probabilísticas complejas, estimar probabilidades, cuantiles y ser base para pruebas de ajuste y simulaciones. Tanto en contextos teóricos como en aplicaciones prácticas, la CDF ofrece una lengua común para expresar la distribución de X y para traducir información observada en probabilidades y decisiones informadas.

Resumen práctico

Para recordar rápidamente:

  • La Función de distribución acumulada F_X(x) = P(X ≤ x) describe la probabilidad de que X sea menor o igual a x.
  • Es 0 en −∞ y 1 en +∞, y es no decreciente; puede tener saltos si X es discreta.
  • Si X es continua, F_X'(x) = f_X(x) y F_X(x) = ∫_{−∞}^{x} f_X(t) dt.
  • La inversa de la CDF da los cuantiles; útil para estimación y simulación.
  • La CDF empírica F_n(x) se usa para estimar la CDF real y para pruebas de ajuste.

Con estas ideas, podrás interpretar y aplicar la Función de distribución acumulada en una gran variedad de problemas, desde la evaluación de riesgos hasta la planificación de estrategias de mantenimiento, pasando por el análisis de resultados de pruebas o experimentos. Explora diferentes distribuciones, practica con datos reales y aprovecha las herramientas de estimación y comparación para sacar el máximo provecho a la información probabilística que ofrece la Función de distribución acumulada.