Regresión local

En estadística, la regresión local (también conocida por sus siglas en inglés, LOESS o LOWESS), es uno de muchos métodos modernos de construcción de modelos basados en los clásicos, como la regresión lineal y no lineal.

Los métodos de regresión modernos están diseñados para abordar las situaciones en que los procedimientos clásicos no funcionan bien o no puede aplicarse de manera efectiva sin mano de obra excesiva. LOESS combina gran parte de la sencillez de la regresión lineal por mínimos cuadrados con la flexibilidad de la regresión no lineal. Esto se hace mediante el ajuste de modelos sencillos a los subconjuntos localizada de los datos para crear una función que describe la parte determinista de la variación en los datos, punto por punto. De hecho, uno de los principales atractivos de este método es que el analista de datos no es necesario especificar una función global de cualquier forma para ajustarse a un modelo a los datos, sólo para adaptarse a los segmentos de los datos.

La compensación de estas características es mayor de computación. Porque es tan computacionalmente intensivas, LOESS habría sido prácticamente imposible de utilizar en la época en la regresión de mínimos cuadrados se estaba desarrollando. La mayoría de los otros métodos modernos para el modelado de procesos son similares a los de LOESS en este sentido. Estos métodos han sido conscientemente diseñado para utilizar nuestra capacidad de cálculo actual de las mayores ventajas posibles para alcanzar los objetivos no se logra fácilmente por los métodos tradicionales.

Representación gráfica de una curva suave a través de un conjunto de puntos de datos usando esta técnica estadística se llama curva de LOESS, en particular cuando cada valor suavizado está dada por una cuadrática ponderada de regresión de mínimos cuadrados en el intervalo de los valores del eje variable criterio diagrama de dispersión. Cuando cada valor suavizado está dada por una ponderación lineal de regresión de mínimos cuadrados en el intervalo, lo que se conoce como una curva LOWESS, sin embargo, algunas autoridades tratan LOWESS y loess como sinónimos.

Definición del modelo LOESS

LOESS, propuesto originalmente por Cleveland (1979) y desarrollado por Cleveland y Devlin (1988), específicamente denota un método que es (un poco) más descriptiva localmente conocido como regresión polinómica ponderada. En cada punto en el conjunto de datos de bajo polinomio de grado se instale en un subconjunto de los datos, con motivos valores de la variable, cerca del punto cuya respuesta es que se estima. El polinomio se ajusta utilizando los mínimos cuadrados ponderados, dando más peso a los puntos cercanos al punto cuya respuesta está siendo estimado y menos peso a los puntos más lejos. El valor de la función de regresión para el punto se obtiene mediante la evaluación del polinomio local con los valores de la variable explicativa de ese punto de datos. El ajuste de loes es completa después de los valores de la función de regresión se han calculado para cada uno de los puntos de datos n. Muchos de los detalles de este método, tales como el grado del polinomio y el modelo de pesos, son flexibles. La gama de opciones para cada parte del método y los valores por defecto típico se discuten brevemente a continuación.

Conjuntos de datos locales

Los subconjuntos de los datos utilizados para el ajuste por mínimos cuadrados ponderados están determinados por un parámetro de suavización que define el ancho de banda, αあるふぁ. Este parámetro es un número entre $\left(\lambda +1\right)/n$ y 1, donde λらむだ denota el grado del polinomio local. El valor de αあるふぁ es la proporción de los datos utilizados en cada ajuste. El subconjunto de los datos utilizados en cada ponderada menos aptos cuadrados comprende la αあるふぁ n (redondeado a los siguientes puntos mayor entero) variables explicativas cuyos valores están más cerca del punto en que la respuesta es que se estima.

A αあるふぁ se le llama parámetro de suavización porque controla la flexibilidad de la función de regresión. Valores grandes de αあるふぁ producen curvas suaves; valores pequeños hacen que la curva se ajuste tal vez demasiado a los datos. En ocasiones se recomienda utilizar valores en el rango que va de 0,25 a 0,5.

Grado de los polinomios locales

Los polinomios de locales aptos para cada subconjunto de los datos casi siempre son de primer o segundo grado, es decir, de forma local, lineal (en el sentido de línea recta) o en local de segundo grado. Utilizando un polinomio de grado cero LOESS convierte en una media móvil ponderada. Este modelo local simple puede funcionar bien para algunas situaciones, pero no siempre puede aproximar la función subyacente bastante bien. Polinomios de grado superior que trabajan en la teoría, pero los modelos de rendimiento que no están realmente en el espíritu de loess. LOESS se basa en las ideas que cualquier función puede ser bien aproximada en un pequeño barrio de un polinomio de orden inferior y que los modelos simples pueden ser fácilmente adaptada a los datos. Los polinomios de alto grado tienden a overfit los datos de cada subconjunto y son numéricamente inestable, haciendo los cálculos precisos difícil.

Función de peso

Como se mencionó anteriormente, la función de peso le da más peso a los puntos de datos más cercano al punto de estimación y el menor peso a los puntos de datos que están más lejos. El uso de los pesos se basa en la idea de que los puntos cercanos entre sí en el espacio variable explicativa es más probable que se relacionan entre sí de una manera sencilla de los puntos que están más lejos. Siguiendo esta lógica, los puntos que pueden seguir el modelo de los mejores locales de influir en el parámetro de modelo local las estimaciones de la mayoría. Los puntos que es menos probable que realmente se ajusten al modelo local tienen menos influencia sobre la estimación de parámetros del modelo local.

La función de peso tradicional utilizado para loes es la triple función del peso del cubo,

w(x)=(1-|x|^{3})^{3}\operatorname {I} \left[\left|x\right|<1\right]

Sin embargo, cualquier otra función del peso que satisface las propiedades que figuran en Cleveland (1979) también podría ser utilizado. El peso de un punto específico en cualquier subconjunto localizada de la información es obtenida mediante la evaluación de la función de peso en la distancia entre ese punto y el punto de estimación, después de escalar la distancia para que la distancia máxima absoluta sobre todos los puntos en el subconjunto de datos es exactamente uno.

Ventajas

Como se mencionó anteriormente, el loess mayor ventaja tiene sobre muchos otros métodos es el hecho de que no requiere la especificación de una función para ajustar un modelo para todos los datos de la muestra. En cambio, el analista sólo tiene que proporcionar un valor de parámetro de alisado y el grado del polinomio locales. Además, LOESS es muy flexible, lo que es ideal para el modelado de procesos complejos para los que no existen modelos teóricos. Estas dos ventajas, junto con la sencillez del método, que LOESS uno de los más atractivos de los métodos modernos de regresión para aplicaciones que se ajustan al marco general de la regresión de mínimos cuadrados, pero que tienen una estructura determinista complejo.

Aunque es menos evidente que para algunos de los otros métodos relacionados con la regresión lineal por mínimos cuadrados, Loess también se acumula la mayor parte de los beneficios que normalmente compartidos por los procedimientos. El más importante de ellas es la teoría para el cálculo de incertidumbres para la predicción y la calibración. Muchos otros exámenes y procedimientos utilizados para la validación de los modelos de menos plazas también se puede extender a los modelos de loess.

Desventajas

LOESS hace un uso menos eficiente de los datos de los que otros métodos menos plazas. Se requiere bastante grande, densamente muestra los conjuntos de datos a fin de producir buenos modelos. Esto no es realmente sorprendente, sin embargo, desde LOESS necesidades de información empírica bien en la estructura local del proceso para llevar a cabo la instalación local. De hecho, dado los resultados que proporciona, LOESS podría posiblemente ser más eficiente en conjunto que otros métodos como cuadrados no lineales como mínimo. Simplemente podrán distribuir anticipadamente los costos de un experimento en la recopilación de datos, pero luego reducir los costos de análisis.

Otra desventaja de loess es el hecho de que no producen una función de regresión que es fácilmente representado por una fórmula matemática. Esto puede dificultar la transferencia de los resultados de un análisis a otras personas. Con el fin de transferir la función de regresión a otra persona, se necesitaría el conjunto de datos y software para el cálculo de loess. En la regresión no lineal, por el contrario, sólo es necesario escribir una forma funcional con el fin de proporcionar estimaciones de los parámetros desconocidos y la incertidumbre estimada. Dependiendo de la aplicación, esto podría ser un importante o un inconveniente menor a la utilización de loess.

Por último, como se indicó anteriormente, Loess es un método de cálculo complejos. Esto no suele ser un problema en nuestro entorno informático actual, sin embargo, a menos que los conjuntos de datos utilizados son muy grandes. LOESS también es propensa a los efectos de valores atípicos en el conjunto de datos, como mínimo, otros métodos de plazas. Hay un proceso iterativo, versión robusta de loess [Cleveland (1979)] que se puede utilizar para reducir la sensibilidad LOESS a los valores extremos, pero los valores atípicos extremos todavía puede superar incluso el método robusto.

Véase también

Referencias

Cleveland, W.S. (1979). «Robust Locally Weighted Regression and Smoothing Scatterplots». Journal of the American Statistical Association 74 (368): 829–836.
Cleveland, W.S.; Devlin, S.J. (1988). «Locally-Weighted Regression: An Approach to Regression Analysis by Local Fitting». Journal of the American Statistical Association 83 (403): 596–610.

Enlaces externos