Modelo de caminata aleatoria Cuando se enfrenta a una serie de tiempo que muestra un crecimiento irregular, como X2 analizado anteriormente, la mejor estrategia puede no ser tratar de predecir directamente el nivel de la serie en cada período (es decir, la cantidad Y t). En su lugar, puede ser mejor intentar predecir el cambio que ocurre de un período a otro (es decir, la cantidad Y t - Y t-1). Es decir, puede ser mejor mirar la primera diferencia de la serie, para ver si un patrón predecible se puede encontrar allí. Para propósitos de predicción de un período de anticipación, es igual de bueno predecir el siguiente cambio que predecir el siguiente nivel de la serie, ya que el cambio predicho se puede agregar al nivel actual para producir un nivel previsto. El caso más sencillo de un modelo de este tipo es aquel que siempre predice que el siguiente cambio será cero, como si la serie tuviera la misma probabilidad de subir o bajar en el siguiente período, independientemente de lo que haya hecho en el pasado. Heres un cuadro que ilustra un proceso al azar para el cual este modelo es apropiado: En cada período de tiempo, va de izquierda a derecha, el valor de la variable toma un paso al azar independiente hacia arriba o hacia abajo, una llamada caminata aleatoria. Si los movimientos ascendentes y descendentes son igualmente probables en cada intersección, entonces todos los posibles recorridos de izquierda a derecha a través de la cuadrícula son igualmente probables a priori. Vea este enlace para una buena simulación. Una analogía comúnmente usada es la de un borracho que se tambalea aleatoriamente a la izquierda oa la derecha cuando intenta seguir adelante: el camino que traza será un paseo aleatorio. Para un ejemplo del mundo real, considere el tipo de cambio diario del dólar estadounidense al euro. Una trama de toda su historia desde el 1 de enero de 1999 al 5 de diciembre de 2014 (4006 observaciones) se ve así: El patrón histórico parece bastante interesante, con muchos picos y valles. (QuotChartistsquot a menudo tratan de extrapolar estos patrones mediante la adaptación de líneas de tendencia local o curvas, que no recomiendo. En promedio, 49 de ellos correctamente adivinar la dirección en la que el mercado se moverá entre hoy y una cierta fecha futura). Ahora, Heres un diagrama de los cambios diarios (primera diferencia): La volatilidad (varianza) no ha sido constante en el tiempo, pero los cambios cotidianos son casi completamente al azar, como lo demuestra un gráfico de sus autocorrelaciones. La autocorrelación a lag k es la correlación entre la variable y ella misma rezagada por k periodos. Si los valores de la serie son completamente aleatorios en el sentido de ser estadísticamente independientes, los valores verdaderos de las autocorrelaciones son cero y los valores estimados no deben ser significativamente diferentes de cero. Las líneas rojas en esta gráfica son bandas de significación para probar si las autocorrelaciones de los cambios diarios son diferentes de cero en el nivel de significancia de 0,05, y en general no lo son. En particular, son completamente insignificantes en los primeros retrasos y no hay un patrón sistemático. (Para muestras grandes, las autocorrelaciones son significativamente diferentes de cero en el nivel 0.05 si su magnitud excede más o menos dos dividido por la raíz cuadrada del tamaño de la muestra. Aquí el tamaño de la muestra es 4006 y 2 / SQRT (4006) es Aproximadamente 0,03, como se ve en la localización de las líneas rojas en la parcela). El modelo de pronóstico sugerido por estas gráficas es uno que simplemente no predice ningún cambio de un período a otro, porque los datos pasados no proporcionan información sobre la dirección del futuro Movimientos: Este es el llamado modelo aleatorio-paseo-sin-deriva. Se supone que, en cada punto en el tiempo, la serie simplemente se aleja aleatoriamente de su última posición registrada, con pasos cuyo valor medio es cero. Si el tamaño medio del paso es un valor diferente de cero 945. se dice que el proceso es un paseo aleatorio con pérdida. Cuya ecuación de predicción es 374 t Y t-1 945. El borracho en la imagen de arriba le falta un zapato, por lo que probablemente estaba a la deriva. En general, los pasos podrían ser variables aleatorias discretas o continuas, y la escala de tiempo también podría ser discreta o continua. Los patrones aleatorios de la caminata se ven comúnmente en historias de precios de los activos financieros para los cuales existen mercados especulativos, tales como valores y monedas. Esto no significa que los movimientos en esos precios sean aleatorios en el sentido de estar sin propósito. Cuando suben y bajan, siempre es por una razón. Pero la dirección del siguiente movimiento no puede predecirse ex ante: sólo puede explicarse ex post, porque si la dirección y la magnitud del siguiente movimiento de precios hubieran podido predecirse en Avance, entonces los especuladores ya lo habrían hecho subir o bajar por esa cantidad. Los patrones aleatorios de la caminata también se encuentran extensamente en otra parte en naturaleza, por ejemplo, en el fenómeno del movimiento browniano que primero fue explicado por Einstein. Es difícil saber si el tamaño de paso promedio en una caminata aleatoria es realmente cero, y mucho menos estimar su valor exacto, simplemente mirando la muestra de datos históricos. Si simula un proceso de caminata aleatoria (por ejemplo, mediante la construcción de un modelo de hoja de cálculo que utiliza la función RAND () en la fórmula para generar los valores de paso), normalmente encontrará que diferentes iteraciones del mismo modelo darán imágenes muy diferentes, Muchos de los cuales tendrán tendencias de aspecto significativo, como se muestra en el enlace de simulación mencionado anteriormente. De hecho, el mismo modelo suele producir tanto tendencias al alza como a la baja en iteraciones repetidas, así como curvas de aspecto interesante que parecen exigir algún tipo de modelo complejo. Esto es sólo una ilusión estadística, como la llamada mano cuoteada en el baloncesto y otros ejemplos de quotstreakiness en los deportes. Su cerebro se esfuerza por encontrar patrones, incluso cuando no están allí. Vea el sitio web Hot Hand in Sports para más información sobre esto. En aplicaciones, lo mejor es recurrir a otras fuentes de información y consideraciones teóricas para decidir si se incluye un término de deriva en el modelo y, en caso afirmativo, cómo estimar su valor. En el caso de los tipos de cambio, no hay razón para asumir una tendencia a largo plazo en una dirección u otra, al menos, no una tendencia que se destacaría frente al ruido. El cambio diario medio es de 0.000012 para esta muestra de datos de tipo de cambio, y el error estándar de la media es 0.00012, por lo que la media de la muestra es diferente de cero por sólo 1/10 de un error estándar, que no es significativo por ninguna medida . De nuevo, sin embargo, el valor medio de los pasos en una muestra finita de datos de caminata aleatoria generalmente no proporciona una buena estimación de la tasa actual de deriva, si la hay. En general, entonces, parece que un modelo de andar al azar sin deriva es apropiado para esta serie de tiempo. Si el modelo se ajusta a toda la historia de los datos diarios, desde 1999, los pronósticos y los 50 límites de confianza producidos por el modelo son los siguientes: (Este gráfico fue producido por Statgraphics. Hacer que encajen mejor en la imagen. No hay nada especial acerca de 95 de todos modos, aparte de la convención.) Aquí es una vista en primer plano de los puntos de datos reales y los pronósticos al final de la serie: Las principales propiedades del modelo que Se ilustran en este gráfico son los siguientes: a. Los pronósticos de un paso adelante en la muestra siguen exactamente la misma ruta que los datos. Excepto que se quedan atrás en un período. (Debes mirar con cuidado para ver esto: a primera vista puede parecer que el modelo se ajusta a los datos perfectamente, pero de hecho está haciendo errores en cada período, y esos errores son variables aleatorias independientes.) B. Los pronósticos a largo plazo fuera de la muestra siguen una línea recta horizontal anclada en el último valor observado. Porque no se supone ninguna desviación hacia arriba o hacia abajo o cualquier otro patrón de tiempo sistemático. (Si se suponía una deriva distinta de cero, esta línea podría inclinarse hacia arriba o hacia abajo.) C. Las bandas de confianza para los pronósticos a largo plazo crecen más ampliamente en una moda que parece una parábola lateral. Por las razones explicadas a continuación. (Return to top of page.) En el modelo aleatorio-sin-deriva, el error estándar del pronóstico de 1 paso adelante es el valor cuadrático-medio cuadrático de los cambios período-período en la muestra de datos , Es decir, es la raíz cuadrada de la media de los valores cuadrados de la primera diferencia de la serie. Para un paseo aleatorio con pérdida, el error estándar de la estimación es la desviación estándar de la muestra de los cambios de período a período. (La diferencia entre el valor de RMS y la desviación estándar de los cambios es generalmente insignificante a menos que la volatilidad sea muy pequeña en comparación con la deriva). El error que el modelo hace en un pronóstico k-step-ahead es la suma de k independientemente Y las variables aleatorias distribuidas de forma idéntica, porque el modelo continúa haciendo la misma predicción mientras que la variable toma k pasos aleatorios. Debido a que la varianza de una suma de variables aleatorias independientes es la suma de las varianzas, se deduce que la varianza del error de pronóstico k-step-ahead es mayor que la del pronóstico de un período por delante por un factor de k. Y debido a que la desviación estándar del error de pronóstico es la raíz cuadrada de su varianza, se sigue que el error estándar de un pronóstico k-step-ahead es mayor que el del pronóstico de 1 paso por un factor de raíz cuadrada - de-k. Esta es la raíz quotsquare de la regla timequot para los errores de los pronósticos de caminata aleatoria, y explica la forma parabólica lateral de las bandas de confianza para los pronósticos a largo plazo: esa es la forma de la gráfica de YSQRT (X). Para esta muestra de datos muy grande, el valor cuadrático de la raíz media y la desviación estándar de la muestra de los cambios diarios son ambos iguales a 0,00778 a 3 dígitos significativos, por lo que el error estándar de un error de pronóstico k-step ahead es 0,00778SQRT (k ), Y los límites de confianza se calculan a partir de él de la manera habitual. Un intervalo de 95 es (aproximadamente) el punto pronosticado más o menos 2 errores estándar, y un intervalo de confianza de 50 es el punto previsto más o menos dos tercios de un error estándar. En el caso de los datos de tipo de cambio, no es realmente apropiado usar toda la muestra para estimar la desviación estándar de los cambios diarios, porque claramente no ha sido constante en el tiempo. Se podría utilizar un historial de datos más corto para abordar este problema, y también se podrían considerar otros tipos de información, tales como los precios de las opciones de divisas. El modelo de caminata aleatoria puede parecer trivial si nunca lo has visto antes: qué podría ser más simple de mente que siempre predijo que mañana será lo mismo que hoy? Esto ni siquiera requiere ningún conocimiento de las estadísticas Por eso se llama a veces el No es nada trivial, sin embargo. El patrón de la raíz cuadrada en sus bandas de confianza para las previsiones a largo plazo es de profunda importancia en las finanzas (es la base de la teoría del precio de las opciones), y el modelo de caminata aleatoria a menudo proporciona un buen punto de referencia contra el cual Juzgar el desempeño de modelos más complicados. El modelo de caminata aleatoria también puede ser visto como un caso especial importante de un modelo ARIMA (quotautoregressive media mobile integrada). Específicamente, es un modelo quotARIMA (0,1,0) quot. Los modelos ARIMA más generales son capaces de manejar patrones de tiempo más interesantes que implican pasos correlacionados, tales como reversión media, oscilación, medios que varían en el tiempo y estacionalidad. Estos temas se tratan en detalle en las páginas ARIMA de estas notas. Para una discusión mucho más completa del modelo de caminata aleatoria, ilustrada por una muestra más corta de los datos de tipo de cambio, vea las notas en el folleto del modelo de caminata aleatoria. Historia y antecedentes de los primeros movimientos con los promedios móviles Los analistas técnicos han estado usando medias móviles Ahora por varias décadas. Son tan omnipresentes en nuestro trabajo que la mayoría de nosotros no sabemos de dónde vinieron. Los estadísticos categorizan los promedios móviles como parte de una familia de herramientas para ldquoTime Series Analysisrdquo. Otros de esa familia son: ANOVA, Media Aritmética, Coeficiente de Correlación, Covarianza, Tabla de Diferencias, Ajuste de Mínimos Cuadrados, Máxima Verosimilitud, Media Móvil, Periodograma, Teoría de Predicción, Variable Aleatoria, Random Walk, Residual, Variance. Puedes leer más sobre cada una de estas y sus definiciones en Wolfram. El desarrollo del ldquomoving averagerdquo se remonta a 1901, aunque el nombre se le aplicó posteriormente. Del historiador de matemáticas Jeff Miller: MOVIENDO LA MEDIA. Esta técnica para suavizar los puntos de datos se utilizó durante décadas antes de que este, o cualquier término general, entró en uso. En 1909 GU Yule (Diario de la Sociedad Real de Estadística, 72, 721-730) describió los promedios quoinstantaneous media de RH Hooker calculado en 1901 como ldquomoving-promedios. Yule no adoptó el término en su libro de texto, pero entró en circulación a través de WI Kingrsquos Elementos del Método Estadístico (1912). LdquoMoving averagerdquo, que se refiere a un tipo de proceso estocástico, es una abreviatura de H. Woldrsquos ldquoprocess of moving averagerdquo (Estudio sobre el análisis de series temporales estacionarias (1938)). Wold describió cómo los casos especiales del proceso habían sido estudiados en la década de 1920 por Yule (en relación con las propiedades del método de correlación de diferencias variables) y Slutsky John Aldrich. De StatSoft Inc. viene esta descripción de Exponential Smoothing. Que es una de varias técnicas para ponderar datos pasados de manera diferente: ldquo El suavizado exponencial se ha vuelto muy popular como un método de pronóstico para una amplia variedad de datos de series temporales. Históricamente, el método fue desarrollado independientemente por Robert Goodell Brown y Charles Holt. Brown trabajó para la Marina de los EE. UU. durante la Segunda Guerra Mundial, donde su misión era diseñar un sistema de seguimiento de la información de control de incendios para calcular la ubicación de los submarinos. Más tarde, aplicó esta técnica a la predicción de la demanda de piezas de repuesto (un problema de control de inventario). Describió esas ideas en su libro de 1959 sobre el control de inventario. La investigación de Holtrsquos fue patrocinada por la Oficina de Investigación Naval de forma independiente, desarrolló modelos de suavización exponencial para procesos constantes, procesos con tendencias lineales y para datos estacionales. El Holtrsquos paper, ldquoForecasting Seasonals and Trends por Moyos Mínimos ponderados exponencialmente fue publicado en 1957 en O. N.R. Memorándum de investigación 52, Carnegie Institute of Technology. No existe en línea de forma gratuita, pero puede ser accesible por aquellos con acceso a recursos académicos de papel. Hasta donde sabemos, P. N. (Pete) Haurlan fue el primero en utilizar el suavizado exponencial para el seguimiento de los precios de las acciones. Haurlan era un científico de cohetes real que trabajó para JPL en los años 60 tempranos, y así él tenía acceso a una computadora. No los llamó promedios móviles exponenciales (EMAs), o los medios matemáticos de moda matemáticamente ponderados exponencialmente (EWMAs) rdquo. En su lugar, los llamó ldquoTrend Valuesrdquo, y se refirió a ellos por sus constantes de suavizado. Por lo tanto, lo que hoy en día se conoce comúnmente como EMA de 19 días, llamó a Trendrdquo ldquo10. Dado que su terminología era el original para tal uso en el seguimiento de precios de las acciones, por eso seguimos usando esa terminología en nuestro trabajo. Haurlan había empleado EMAs en el diseño de los sistemas de seguimiento de cohetes, que podrían por ejemplo necesidad de interceptar un objeto en movimiento como un satélite, un planeta, etc Si el camino hacia el objetivo estaba apagado, entonces algún tipo de entrada tendría que ser aplicada Para el mecanismo de dirección, pero no querían exagerar o underdo esa entrada y se vuelven inestables o no se convierten. Por lo tanto, el tipo correcto de suavizado de datos de entrada fue útil. Haurlan llamó a esto Controldquo proporcional, lo que significa que el mecanismo de dirección no intentaría ajustar todo el error de seguimiento de una vez. Los EMAs eran más fáciles de codificar en circuitos analógicos tempranos que otros tipos de filtros porque sólo necesitan dos piezas de datos variables: el valor de entrada actual (por ejemplo, precio, posición, ángulo, etc.) y el valor EMA anterior. La constante de suavizado sería cableada en el circuito, por lo que el ldquomemoryrdquo sólo tendría que hacer un seguimiento de esas dos variables. Una media móvil simple, por otro lado, requiere mantener un registro de todos los valores dentro del período de retroceso. Así que un 50-SMA significaría mantener un seguimiento de 50 puntos de datos, a continuación, el promedio de ellos. Se ata mucho más poder de procesamiento. Vea más acerca de EMAs versus Simple Moving Averages (SMA) en Exponential Versus Simple. Haurlan fundó el boletín Trade Levels en los años 60, dejando a JPL para ese trabajo más lucrativo. Su boletín fue patrocinador del programa de TV Charting The Market en KWHY-TV en Los Ángeles, el primer programa de televisión de TA, organizado por Gene Morgan. El trabajo de Haurlan y Morgan fue una gran parte de la inspiración detrás del desarrollo de Sherman y Marian McClellanrsquos del Oscilador McClellan y Summation Index, que implican el suavizado exponencial de los datos Advance-Decline. Puede leer un folleto de 1968 titulado Measuring Trend Values publicado por Haurlan a partir de la página 8 del folleto del premio MTA. Que preparamos para los asistentes a la conferencia de la MTA de 2004 donde Sherman y Marian recibieron el premio MTArsquos Lifetime Achievement Award. Haurlan no menciona el origen de esa técnica matemática, pero señala que había estado en uso en la ingeniería aeroespacial durante muchos años. Modelos de suavización media y exponencial como un primer paso para ir más allá de los modelos medios, aleatorios y de tendencias lineales , Los patrones no estacionales y las tendencias pueden ser extrapolados usando un modelo de media móvil o de suavizado. La suposición básica detrás de los modelos de promedio y suavizado es que la serie temporal es localmente estacionaria con una media que varía lentamente. Por lo tanto, tomamos un promedio móvil (local) para estimar el valor actual de la media y luego usarlo como pronóstico para el futuro cercano. Esto puede considerarse como un compromiso entre el modelo medio y el modelo aleatorio-paseo-sin-deriva. La misma estrategia se puede utilizar para estimar y extrapolar una tendencia local. Una media móvil se denomina a menudo una versión quotomoldeada de la serie original porque el promedio de corto plazo tiene el efecto de suavizar los golpes en la serie original. Al ajustar el grado de suavizado (el ancho de la media móvil), podemos esperar encontrar algún tipo de equilibrio óptimo entre el rendimiento de la media y los modelos de caminata aleatoria. El tipo más simple de modelo de promediación es el. Promedio móvil simple (igualmente ponderado): El pronóstico para el valor de Y en el tiempo t1 que se hace en el tiempo t es igual al promedio simple de las observaciones m más recientes: (Aquí y en otros lugares usaré el símbolo 8220Y-hat8221 para permanecer en pie Para un pronóstico de la serie de tiempo Y hecho a la fecha más temprana posible posible por un modelo dado). Este promedio se centra en el período t (m1) / 2, lo que implica que la estimación de la media local tiende a quedar rezagada detrás del Valor real de la media local de aproximadamente (m1) / 2 periodos. Por lo tanto, decimos que la edad media de los datos en el promedio móvil simple es (m1) / 2 en relación con el período para el cual se calcula el pronóstico: es la cantidad de tiempo por el cual los pronósticos tenderán a rezagarse detrás de los puntos de inflexión en el datos. Por ejemplo, si está promediando los últimos 5 valores, las previsiones serán de aproximadamente 3 períodos tarde en la respuesta a los puntos de inflexión. Tenga en cuenta que si m1, el modelo de media móvil simple (SMA) es equivalente al modelo de caminata aleatoria (sin crecimiento). Si m es muy grande (comparable a la longitud del período de estimación), el modelo SMA es equivalente al modelo medio. Como con cualquier parámetro de un modelo de pronóstico, es habitual ajustar el valor de k para obtener el mejor valor de los datos, es decir, los errores de predicción más pequeños en promedio. He aquí un ejemplo de una serie que parece presentar fluctuaciones aleatorias alrededor de una media de variación lenta. En primer lugar, vamos a tratar de encajar con un modelo de caminata al azar, que es equivalente a una media móvil simple de un término: El modelo de caminata aleatoria responde muy rápidamente a los cambios en la serie, pero al hacerlo, recoge gran parte del quotnoisequot en el Los datos (las fluctuaciones aleatorias), así como el quotsignalquot (la media local). Si en lugar de eso intentamos una media móvil simple de 5 términos, obtendremos un conjunto de previsiones más suaves: El promedio móvil simple a 5 terminos produce errores significativamente menores que el modelo de caminata aleatoria en este caso. La edad promedio de los datos de esta previsión es de 3 ((51) / 2), de modo que tiende a quedar a la zaga de los puntos de inflexión en aproximadamente tres períodos. (Por ejemplo, parece haber ocurrido una recesión en el período 21, pero las previsiones no giran hasta varios periodos más tarde). Obsérvese que los pronósticos a largo plazo del modelo SMA son una línea recta horizontal, al igual que en la caminata aleatoria modelo. Por lo tanto, el modelo SMA asume que no hay tendencia en los datos. Sin embargo, mientras que las previsiones del modelo de caminata aleatoria son simplemente iguales al último valor observado, las previsiones del modelo SMA son iguales a un promedio ponderado de valores recientes. Los límites de confianza calculados por Statgraphics para los pronósticos a largo plazo de la media móvil simple no se amplían a medida que aumenta el horizonte de pronóstico. Esto obviamente no es correcto Desafortunadamente, no hay una teoría estadística subyacente que nos diga cómo los intervalos de confianza deberían ampliarse para este modelo. Sin embargo, no es demasiado difícil calcular estimaciones empíricas de los límites de confianza para las previsiones a más largo plazo. Por ejemplo, podría configurar una hoja de cálculo en la que el modelo SMA se utilizaría para pronosticar dos pasos adelante, tres pasos adelante, etc. dentro de la muestra de datos históricos. A continuación, podría calcular las desviaciones estándar de los errores en cada horizonte de pronóstico y, a continuación, construir intervalos de confianza para pronósticos a más largo plazo sumando y restando múltiplos de la desviación estándar apropiada. Si intentamos una media móvil sencilla de 9 términos, obtendremos pronósticos aún más suaves y más de un efecto rezagado: La edad promedio es ahora de 5 períodos ((91) / 2). Si tomamos una media móvil de 19 términos, la edad promedio aumenta a 10: Obsérvese que, de hecho, las previsiones están ahora rezagadas detrás de los puntos de inflexión en aproximadamente 10 períodos. Qué cantidad de suavizado es la mejor para esta serie Aquí hay una tabla que compara sus estadísticas de error, incluyendo también un promedio de 3 términos: El modelo C, la media móvil de 5 términos, produce el valor más bajo de RMSE por un pequeño margen sobre los 3 A término y 9 promedios, y sus otras estadísticas son casi idénticas. Por lo tanto, entre los modelos con estadísticas de error muy similares, podemos elegir si preferiríamos un poco más de capacidad de respuesta o un poco más de suavidad en las previsiones. El modelo de media móvil simple descrito anteriormente tiene la propiedad indeseable de que trata las últimas k observaciones por igual e ignora por completo todas las observaciones precedentes. (Volver al principio de la página.) Browns Simple Exponential Smoothing Intuitivamente, los datos pasados deben ser descontados de una manera más gradual - por ejemplo, la observación más reciente debería tener un poco más de peso que la segunda más reciente, y la segunda más reciente debería tener un poco más de peso que la tercera más reciente, y pronto. El modelo de suavizado exponencial simple (SES) lo logra. Sea 945 una constante quotsmoothingquot (un número entre 0 y 1). Una forma de escribir el modelo es definir una serie L que represente el nivel actual (es decir, el valor medio local) de la serie, tal como se estimó a partir de los datos hasta el presente. El valor de L en el tiempo t se calcula recursivamente a partir de su propio valor anterior como este: Así, el valor suavizado actual es una interpolación entre el valor suavizado anterior y la observación actual, donde 945 controla la proximidad del valor interpolado al valor más reciente observación. El pronóstico para el siguiente período es simplemente el valor suavizado actual: Equivalentemente, podemos expresar el próximo pronóstico directamente en términos de previsiones anteriores y observaciones previas, en cualquiera de las siguientes versiones equivalentes. En la primera versión, la previsión es una interpolación entre la previsión anterior y la observación anterior: En la segunda versión, la siguiente previsión se obtiene ajustando la previsión anterior en la dirección del error anterior por una cantidad fraccionada de 945. es el error hecho en Tiempo t En la tercera versión, el pronóstico es una media móvil exponencialmente ponderada (es decir, descontada) con el factor de descuento 1-945: La versión de interpolación de la fórmula de pronóstico es la más simple de usar si está implementando el modelo en una hoja de cálculo: se ajusta en un Célula única y contiene referencias de celdas que apuntan a la previsión anterior, la observación anterior y la celda donde se almacena el valor de 945. Tenga en cuenta que si 945 1, el modelo SES es equivalente a un modelo de caminata aleatoria (sin crecimiento). Si 945 0, el modelo SES es equivalente al modelo medio, asumiendo que el primer valor suavizado se establece igual a la media. La edad promedio de los datos en el pronóstico de suavización exponencial simple es de 1/945 en relación con el período para el cual se calcula la predicción. (Esto no se supone que sea obvio, pero se puede demostrar fácilmente mediante la evaluación de una serie infinita.) Por lo tanto, el pronóstico promedio móvil simple tiende a quedar rezagado detrás de puntos de inflexión en aproximadamente 1/945 períodos. Por ejemplo, cuando 945 0.5 el retraso es 2 períodos cuando 945 0.2 el retraso es 5 períodos cuando 945 0.1 el retraso es 10 períodos, y así sucesivamente. Para una edad promedio dada (es decir, la cantidad de retraso), el simple suavizado exponencial (SES) pronosticado es algo superior a la predicción del promedio móvil simple (SMA) porque coloca relativamente más peso en la observación más reciente - i. e. Es un poco más sensible a los cambios ocurridos en el pasado reciente. Por ejemplo, un modelo SMA con 9 términos y un modelo SES con 945 0.2 tienen una edad promedio de 5 para los datos de sus pronósticos, pero el modelo SES pone más peso en los 3 últimos valores que el modelo SMA y en el modelo SMA. Otra ventaja importante del modelo SES sobre el modelo SMA es que el modelo SES utiliza un parámetro de suavizado que es variable continuamente, por lo que puede optimizarse fácilmente Utilizando un algoritmo quotsolverquot para minimizar el error cuadrático medio. El valor óptimo de 945 en el modelo SES de esta serie resulta ser 0.2961, como se muestra aquí: La edad promedio de los datos de esta previsión es de 1 / 0,2961 3,4 períodos, que es similar a la de un movimiento simple de 6 términos promedio. Los pronósticos a largo plazo del modelo SES son una línea recta horizontal. Como en el modelo SMA y el modelo de caminata aleatoria sin crecimiento. Sin embargo, tenga en cuenta que los intervalos de confianza calculados por Statgraphics ahora divergen de manera razonable y que son sustancialmente más estrechos que los intervalos de confianza para el modelo de caminata aleatoria. El modelo SES asume que la serie es algo más predecible que el modelo de caminata aleatoria. Un modelo SES es en realidad un caso especial de un modelo ARIMA. Por lo que la teoría estadística de los modelos ARIMA proporciona una base sólida para el cálculo de los intervalos de confianza para el modelo SES. En particular, un modelo SES es un modelo ARIMA con una diferencia no estacional, un término MA (1) y ningún término constante. Conocido también como modelo quotARIMA (0,1,1) sin constantequot. El coeficiente MA (1) en el modelo ARIMA corresponde a la cantidad 1-945 en el modelo SES. Por ejemplo, si se ajusta un modelo ARIMA (0,1,1) sin constante a la serie analizada aquí, el coeficiente MA estimado (1) resulta ser 0.7029, que es casi exactamente un menos 0.2961. Es posible añadir la suposición de una tendencia lineal constante no nula a un modelo SES. Para ello, basta con especificar un modelo ARIMA con una diferencia no estacional y un término MA (1) con una constante, es decir, un modelo ARIMA (0,1,1) con constante. Las previsiones a largo plazo tendrán entonces una tendencia que es igual a la tendencia media observada durante todo el período de estimación. No puede hacerlo junto con el ajuste estacional, ya que las opciones de ajuste estacional están deshabilitadas cuando el tipo de modelo está ajustado a ARIMA. Sin embargo, puede agregar una tendencia exponencial a largo plazo constante a un modelo de suavizado exponencial simple (con o sin ajuste estacional) utilizando la opción de ajuste de inflación en el procedimiento de Pronóstico. La tasa apropiada de inflación (crecimiento porcentual) por período puede estimarse como el coeficiente de pendiente en un modelo de tendencia lineal ajustado a los datos en conjunción con una transformación de logaritmo natural o puede basarse en otra información independiente sobre las perspectivas de crecimiento a largo plazo . (Regreso al inicio de la página.) Browns Linear (es decir, doble) Suavizado exponencial Los modelos SMA y SES suponen que no hay ninguna tendencia de ningún tipo en los datos (que normalmente está bien o al menos no es demasiado malo para 1- Avance anticipado cuando los datos son relativamente ruidosos), y se pueden modificar para incorporar una tendencia lineal constante como se muestra arriba. Qué pasa con las tendencias a corto plazo? Si una serie muestra una tasa de crecimiento variable o un patrón cíclico que se destaca claramente contra el ruido, y si hay una necesidad de pronosticar más de un período, la estimación de una tendencia local también podría ser un problema. El modelo de suavizado exponencial simple puede ser generalizado para obtener un modelo lineal de suavizado exponencial (LES) que calcula las estimaciones locales de nivel y tendencia. El modelo de tendencia más simple que varía en función del tiempo es el modelo lineal de suavizado exponencial de Browns, que utiliza dos series suavizadas diferentes centradas en diferentes momentos del tiempo. La fórmula de predicción se basa en una extrapolación de una línea a través de los dos centros. (Una versión más sofisticada de este modelo, Holt8217s, se discute a continuación). La forma algebraica del modelo de suavizado exponencial lineal de Brown8217s, como la del modelo de suavizado exponencial simple, puede expresarse en varias formas diferentes pero equivalentes. La forma estándar de este modelo se expresa usualmente de la siguiente manera: Sea S la serie de suavizado simple obtenida aplicando el suavizado exponencial simple a la serie Y. Es decir, el valor de S en el periodo t está dado por: (Recuérdese que, Exponencial, esta sería la previsión para Y en el período t1). Entonces, Squot denote la serie doblemente suavizada obtenida aplicando el suavizado exponencial simple (usando el mismo 945) a la serie S: Finalmente, la previsión para Y tk. Para cualquier kgt1, viene dado por: Esto produce e 1 0 (es decir, trucar un poco y dejar que el primer pronóstico sea igual a la primera observación real), y e 2 Y 2 8211 Y 1. Después de lo cual las previsiones se generan usando la ecuación anterior. Esto produce los mismos valores ajustados que la fórmula basada en S y S si estos últimos se iniciaron usando S 1 S 1 Y 1. Esta versión del modelo se utiliza en la página siguiente que ilustra una combinación de suavizado exponencial con ajuste estacional. Holt8217s Linear Exponential Smoothing Brown8217s El modelo LES calcula las estimaciones locales de nivel y tendencia al suavizar los datos recientes, pero el hecho de que lo haga con un solo parámetro de suavizado impone una restricción en los patrones de datos que puede encajar: el nivel y la tendencia No se les permite variar a tasas independientes. El modelo LES de Holt8217s aborda este problema incluyendo dos constantes de suavizado, una para el nivel y otra para la tendencia. En cualquier momento t, como en el modelo Brown8217s, existe una estimación L t del nivel local y una estimación T t de la tendencia local. Aquí se calculan recursivamente a partir del valor de Y observado en el instante t y de las estimaciones previas del nivel y de la tendencia por dos ecuaciones que les aplican el suavizado exponencial separadamente. Si el nivel estimado y la tendencia en el tiempo t-1 son L t82091 y T t-1. Respectivamente, entonces la previsión de Y tshy que habría sido hecha en el tiempo t-1 es igual a L t-1 T t-1. Cuando se observa el valor real, la estimación actualizada del nivel se calcula recursivamente interpolando entre Y tshy y su pronóstico, L t-1 T t-1, utilizando pesos de 945 y 1-945. El cambio en el nivel estimado, Es decir L t 8209 L t82091. Puede interpretarse como una medida ruidosa de la tendencia en el tiempo t. La estimación actualizada de la tendencia se calcula recursivamente mediante la interpolación entre L t 8209 L t82091 y la estimación anterior de la tendencia, T t-1. Utilizando los pesos de 946 y 1-946: La interpretación de la constante de suavizado de tendencia 946 es análoga a la de la constante de suavizado de nivel 945. Los modelos con valores pequeños de 946 asumen que la tendencia cambia muy lentamente con el tiempo, mientras que los modelos con 946 más grandes suponen que está cambiando más rápidamente. Un modelo con una gran 946 cree que el futuro lejano es muy incierto, porque los errores en la estimación de la tendencia son muy importantes cuando se pronostica más de un período por delante. Las constantes de suavizado 945 y 946 se pueden estimar de la manera habitual minimizando el error cuadrático medio de los pronósticos de 1 paso adelante. Cuando esto se hace en Statgraphics, las estimaciones resultan ser 945 0.3048 y 946 0.008. El valor muy pequeño de 946 significa que el modelo supone muy poco cambio en la tendencia de un período al siguiente, por lo que básicamente este modelo está tratando de estimar una tendencia a largo plazo. Por analogía con la noción de la edad media de los datos que se utilizan para estimar el nivel local de la serie, la edad media de los datos que se utilizan para estimar la tendencia local es proporcional a 1/946, aunque no exactamente igual a eso. En este caso, resulta ser 1 / 0.006 125. Esto no es un número muy preciso en la medida en que la precisión de la estimación de 946 es realmente de 3 decimales, pero es del mismo orden general de magnitud que el tamaño de la muestra de 100 , Por lo que este modelo está promediando bastante historia en la estimación de la tendencia. La gráfica de pronóstico siguiente muestra que el modelo LES calcula una tendencia local ligeramente mayor al final de la serie que la tendencia constante estimada en el modelo SEStrend. Además, el valor estimado de 945 es casi idéntico al obtenido ajustando el modelo SES con o sin tendencia, por lo que este es casi el mismo modelo. Ahora, se ven como pronósticos razonables para un modelo que se supone que está estimando una tendencia local? Si observa esta gráfica, parece que la tendencia local se ha vuelto hacia abajo al final de la serie. Lo que ha ocurrido Los parámetros de este modelo Se han estimado minimizando el error al cuadrado de las previsiones de un paso adelante, y no las previsiones a largo plazo, en cuyo caso la tendencia no hace mucha diferencia. Si todo lo que usted está mirando son errores de un paso adelante, no está viendo la imagen más grande de las tendencias sobre (digamos) 10 o 20 períodos. Con el fin de obtener este modelo más en sintonía con la extrapolación de nuestro ojo de los datos, podemos ajustar manualmente la tendencia de suavizado constante de modo que utiliza una base más corta para la estimación de tendencia. Por ejemplo, si elegimos establecer 946 0.1, la edad promedio de los datos utilizados para estimar la tendencia local es de 10 períodos, lo que significa que estamos promediando la tendencia en los últimos 20 períodos aproximadamente. Here8217s lo que el pronóstico gráfico parece si fijamos 946 0.1 mientras que mantener 945 0.3. Esto parece intuitivamente razonable para esta serie, aunque probablemente sea peligroso extrapolar esta tendencia en más de 10 periodos en el futuro. Qué pasa con las estadísticas de errores? Aquí hay una comparación de modelos para los dos modelos mostrados arriba, así como tres modelos SES. El valor óptimo de 945 para el modelo SES es de aproximadamente 0,3, pero se obtienen resultados similares (con un poco más o menos de capacidad de respuesta, respectivamente) con 0,5 y 0,2. (A) Holts lineal exp. Alisamiento con alfa 0.3048 y beta 0.008 (B) Holts linear exp. Alisamiento con alfa 0.3 y beta 0.1 (C) Suavizado exponencial simple con alfa 0.5 (D) Alisamiento exponencial simple con alfa 0.3 (E) Suavizado exponencial simple con alfa 0.2 Sus estadísticas son casi idénticas, por lo que realmente no podemos hacer la elección sobre la base De errores de pronóstico de un paso adelante en la muestra de datos. Tenemos que recurrir a otras consideraciones. Si creemos firmemente que tiene sentido basar la estimación de tendencia actual en lo que ha ocurrido durante los últimos 20 períodos, podemos hacer un caso para el modelo LES con 945 0.3 y 946 0.1. Si queremos ser agnósticos acerca de si hay una tendencia local, entonces uno de los modelos SES podría ser más fácil de explicar y también daría más pronósticos intermedios para los próximos 5 o 10 períodos. (Volver al principio de la página.) Qué tipo de tendencia-extrapolación es la mejor: horizontal o lineal La evidencia empírica sugiere que, si los datos ya han sido ajustados (si es necesario) para la inflación, puede ser imprudente extrapolar lineal a corto plazo Tendencias en el futuro. Las tendencias evidentes hoy en día pueden desacelerarse en el futuro debido a causas variadas como la obsolescencia del producto, el aumento de la competencia y las caídas o repuntes cíclicos en una industria. Por esta razón, el suavizado exponencial simple a menudo realiza mejor fuera de la muestra de lo que de otra manera podría esperarse, a pesar de su extrapolación horizontal de tendencia horizontal. Las modificaciones de la tendencia amortiguada del modelo de suavizado exponencial lineal también se usan a menudo en la práctica para introducir una nota de conservadurismo en sus proyecciones de tendencia. El modelo LES con tendencia amortiguada se puede implementar como un caso especial de un modelo ARIMA, en particular, un modelo ARIMA (1,1,2). Es posible calcular intervalos de confianza en torno a los pronósticos a largo plazo producidos por modelos de suavizado exponencial, al considerarlos como casos especiales de modelos ARIMA. El ancho de los intervalos de confianza depende de (i) el error RMS del modelo, (ii) el tipo de suavizado (simple o lineal) (iii) el valor (S) de la (s) constante (s) de suavizado y (iv) el número de periodos por delante que está pronosticando. En general, los intervalos se extienden más rápidamente a medida que el 945 se hace más grande en el modelo SES y se extienden mucho más rápido cuando se usa lineal en lugar de simple suavizado. Este tema se discute más adelante en la sección de modelos de ARIMA de las notas. (Volver al inicio de la página.)
No comments:
Post a Comment