Autoregressive Integrated Moving Average - ARIMA DEFINITION Autoregressive Integrated Moving Average - ARIMA Ein statistisches Analyse-Modell, das Zeitreihen-Daten verwendet, um zukünftige Trends vorherzusagen. Es ist eine Form der Regressionsanalyse, die künftige Bewegungen entlang der scheinbar zufälligen Wanderung von Aktien und dem Finanzmarkt vorhersagen will, indem sie die Unterschiede zwischen den Werten in der Reihe untersucht, anstatt die tatsächlichen Datenwerte zu verwenden. Lags der differenzierten Serien werden als autoregressiv bezeichnet und Verzögerungen innerhalb der prognostizierten Daten werden als gleitender Durchschnitt bezeichnet. BREAKING DOWN Autoregressive Integrated Moving Average - ARIMA Dieser Modelltyp wird im Allgemeinen als ARIMA (p, d, q) bezeichnet, wobei die Ganzzahlen sich auf den autoregressiven beziehen. Integrierte und gleitende Mittelteile des Datensatzes. ARIMA-Modellierung kann Trends berücksichtigen, Saisonalität. Zyklen, Fehler und nicht-stationäre Aspekte eines Datensatzes bei der Erstellung von Prognosen. Autoregressive Moving Average ARMA (p, q) Modelle für Time Series Analysis - Teil 3 Dies ist der dritte und letzte Beitrag in der Mini-Serie auf Autoregressive Moving Average ( ARMA) Modelle für die Zeitreihenanalyse. Weve eingeführt Autoregressive Modelle und Moving Average Modelle in den beiden vorherigen Artikeln. Jetzt ist es Zeit, sie zu kombinieren, um ein anspruchsvolleres Modell zu produzieren. Letztlich wird uns dies zu den ARIMA - und GARCH-Modellen führen, die es uns ermöglichen, die Vermögensrenditen vorherzusagen und die Volatilität zu prognostizieren. Diese Modelle bilden die Grundlage für den Handel von Signalen und Risikomanagementtechniken. Wenn Sie Teil 1 und Teil 2 lesen, werden Sie gesehen haben, dass wir ein Muster für unsere Analyse eines Zeitreihenmodells folgen. Ill wiederholen Sie es kurz hier: Begründung - Warum interessieren wir uns für dieses spezielle Modell Definition - Eine mathematische Definition, um Mehrdeutigkeit zu reduzieren. Correlogram - Plotten eines Beispiel-Korrelogramms, um ein Modellverhalten zu visualisieren. Simulation und Montage - Anpassung des Modells an Simulationen, um sicherzustellen, dass wir das Modell richtig verstanden haben. Echte Finanzdaten - Bewerben Sie das Modell auf echte historische Vermögenspreise. Vorhersage - Prognose nachfolgende Werte zum Erstellen von Handelssignalen oder Filtern. Um diesem Artikel zu folgen, empfiehlt es sich, die vorherigen Artikel zur Zeitreihenanalyse zu betrachten. Sie können alle hier gefunden werden. Bayesian Information Criterion In Teil 1 dieser Artikelserie sahen wir das Akaike Information Criterion (AIC) als Mittel an, uns dabei zu helfen, zwischen separaten besten Zeitreihenmodellen zu wählen. Ein eng verwandtes Werkzeug ist das Bayesian Information Criterion (BIC). Im Wesentlichen hat es ein ähnliches Verhalten gegenüber der AIC, dass es Modelle für mit zu vielen Parametern bestraft. Dies kann zu Überfüllung führen. Der Unterschied zwischen dem BIC und dem AIC ist, dass der BIC mit seiner Bestrafung zusätzlicher Parameter strenger ist. Bayesian Information Criterion Wenn wir die Wahrscheinlichkeitsfunktion für ein statistisches Modell, das k Parameter hat, und L maximiert die Wahrscheinlichkeit zu nehmen. Dann ist das Bayesian Information Criterion gegeben durch: Wo n ist die Anzahl der Datenpunkte in der Zeitreihe. Wir werden bei der Auswahl geeigneter ARMA (p, q) Modelle die AIC und BIC verwenden. Ljung-Box Test In Teil 1 dieser Artikel-Serie Rajan erwähnt in der Disqus Bemerkungen, dass die Ljung-Box-Test war besser geeignet als mit dem Akaike Information Criterion der Bayesian Information Criterion bei der Entscheidung, ob ein ARMA-Modell war eine gute Passform zu einer Zeit Serie. Der Ljung-Box-Test ist ein klassischer Hypothesentest, der entworfen ist, um zu testen, ob ein Satz von Autokorrelationen eines angepassten Zeitreihenmodells sich deutlich von Null unterscheidet. Der Test testet nicht jede einzelne Verzögerung für Zufälligkeit, sondern prüft die Zufälligkeit über eine Gruppe von Verzögerungen. Ljung-Box-Test Wir definieren die Nullhypothese als: Die Zeitreihendaten bei jeder Verzögerung sind i. i.d .. das heißt, die Korrelationen zwischen den Populationsreihenwerten sind Null. Wir definieren die alternative Hypothese als: Die Zeitreihendaten sind nicht i. i.d. Und besitzen eine serielle Korrelation. Wir berechnen die folgende Teststatistik. Q: Wenn n die Länge der Zeitreihenprobe ist, ist H die Probe Autokorrelation bei Verzögerung k und h ist die Anzahl der Verzögerungen unter dem Test. Die Entscheidungsregel, ob die Nullhypothese zurückgewiesen werden soll, besteht darin, zu prüfen, ob Q gt chi2, für eine chi-quadratische Verteilung mit h Freiheitsgraden bei dem 100 (1-alpha) - ten Perzentil. Während die Details des Tests etwas kompliziert erscheinen können, können wir in der Tat R verwenden, um den Test für uns zu berechnen, was die Prozedur etwas vereinfacht. Autogressive Moving Average (ARMA) Modelle der Ordnung p, q Nun, da wir den BIC und den Ljung-Box-Test besprochen haben, waren wir bereit, unser erstes gemischtes Modell zu besprechen, nämlich den Autoregressiven Moving Average der Ordnung p, q oder ARMA (p, Q). Bisher haben wir autoregressive Prozesse und gleitende Mittelprozesse betrachtet. Das ehemalige Modell betrachtet sein eigenes vergangenes Verhalten als Inputs für das Modell und als solche Versuche, Marktteilnehmereffekte wie Impuls und Mittelwertreduktion im Aktienhandel zu erfassen. Das letztere Modell wird verwendet, um Schock-Informationen zu einer Serie zu charakterisieren, wie etwa eine Überraschungs-Gewinn-Ankündigung oder ein unerwartetes Ereignis (wie die BP Deepwater Horizon Ölpest). Daher versucht ein ARMA-Modell, diese beiden Aspekte bei der Modellierung von finanziellen Zeitreihen zu erfassen. Beachten Sie, dass ein ARMA-Modell nicht berücksichtigt Volatilität Clustering, eine wichtige empirische Phänomene von vielen finanziellen Zeitreihen. Es ist kein bedingungslos heteroscedastisches Modell. Dafür müssen wir auf die ARCH - und GARCH-Modelle warten. Definition Das ARMA (p, q) Modell ist eine lineare Kombination von zwei linearen Modellen und ist damit selbst noch linear: Autoregressives Moving Average Modell der Ordnung p, q Ein Zeitreihenmodell, ist ein autoregressives gleitendes durchschnittliches Modell der Ordnung p, q . ARMA (p, q), wenn: xt alpha1 x alpha2 x ldots wt beta1 w beta2 w ldots betaq w Ende Wo ist weißes Rauschen mit E (wt) 0 und Varianz sigma2. Wenn wir den Backward Shift Operator betrachten. (Siehe einen vorherigen Artikel), dann können wir das obige als Funktion theta und phi umschreiben: Wir können einfach sehen, dass durch die Einstellung von p neq 0 und q0 wir das AR (p) Modell wiederherstellen. Ähnlich, wenn wir p 0 und q neq 0 setzen, gewinnen wir das MA (q) Modell zurück. Eines der Hauptmerkmale des ARMA-Modells ist, dass es in seinen Parametern sparsam und redundant ist. Das heißt, ein ARMA-Modell benötigt oft weniger Parameter als ein AR (p) oder MA (q) - Modell allein. Darüber hinaus, wenn wir die Gleichung in Bezug auf die BSO umschreiben, dann können die theta und phi Polynome manchmal einen gemeinsamen Faktor teilen, was zu einem einfacheren Modell führt. Simulationen und Correlograms Wie bei den autoregressiven und gleitenden Durchschnittsmodellen werden wir nun verschiedene ARMA-Serien simulieren und dann versuchen, ARMA-Modelle an diese Realisierungen anzupassen. Wir führen dies aus, weil wir sicherstellen wollen, dass wir das Anpassungsverfahren verstehen, einschließlich der Berechnung von Konfidenzintervallen für die Modelle, sowie sicherstellen, dass das Verfahren tatsächlich angemessene Schätzungen für die ursprünglichen ARMA-Parameter wiederherstellt. In Teil 1 und Teil 2 haben wir die AR - und MA-Serie manuell konstruiert, indem wir N Abtastwerte aus einer Normalverteilung ziehen und dann das spezifische Zeitreihenmodell unter Verwendung von Verzögerungen dieser Proben erstellen. Allerdings gibt es einen einfacheren Weg, um AR-, MA-, ARMA - und sogar ARIMA-Daten zu simulieren, indem einfach die arima. sim-Methode in R verwendet wird. Beginnen wir mit dem einfachsten nicht-trivialen ARMA-Modell, nämlich dem ARMA (1,1 ) Modell. Das heißt, ein autoregressives Modell der Ordnung, kombiniert mit einem gleitenden Durchschnittsmodell der Ordnung eins. Ein solches Modell hat nur zwei Koeffizienten, Alpha und Beta, die die ersten Verzögerungen der Zeitreihe selbst und die schockweißen Rauschbegriffe darstellen. Ein solches Modell ist gegeben durch: Wir müssen die Koeffizienten vor der Simulation angeben. Nehmen wir alpha 0,5 und beta -0,5: Die Ausgabe ist wie folgt: Lets auch das Korrelogramm: Wir können sehen, dass es keine signifikante Autokorrelation gibt, die von einem ARMA (1,1) - Modell zu erwarten ist. Schließlich können wir die Koeffizienten und ihre Standardfehler mit der arima-Funktion ausführen: Wir können die Konfidenzintervalle für jeden Parameter mit den Standardfehlern berechnen: Die Konfidenzintervalle enthalten die wahren Parameterwerte für beide Fälle, aber wir sollten beachten, dass die 95 Konfidenzintervalle sind sehr breit (eine Folge der vernünftig großen Standardfehler). Lass jetzt ein ARMA (2,2) Modell versuchen. Das heißt, ein AR (2) Modell kombiniert mit einem MA (2) Modell. Wir müssen vier Parameter für dieses Modell angeben: alpha1, alpha2, beta1 und beta2. Nehmen wir alpha1 0,5, alpha2-0.25 beta10.5 und beta2-0.3: Die Ausgabe unseres ARMA (2,2) Modells lautet wie folgt: Und die entsprechende Autocorelation: Wir können nun versuchen, ein ARMA (2,2) Modell anzupassen Die Daten: Wir können auch die Konfidenzintervalle für jeden Parameter berechnen: Beachten Sie, dass die Konfidenzintervalle für die Koeffizienten für die gleitende Durchschnittskomponente (beta1 und beta2) tatsächlich nicht den ursprünglichen Parameterwert enthalten. Dies stellt die Gefahr dar, dass man versucht, Modelle an Daten anzupassen, auch wenn wir die wahren Parameterwerte kennen. Aber für Handelszwecke müssen wir nur eine prädiktive Kraft haben, die den Zufall übersteigt und genügend Gewinn über den Transaktionskosten produziert, um rentabel zu sein auf lange Sicht. Nun, da wir einige Beispiele für simulierte ARMA-Modelle gesehen haben, brauchen wir einen Mechanismus zur Auswahl der Werte von p und q bei der Anpassung an die Modelle an reale Finanzdaten. Auswählen des besten ARMA (p, q) Modells Um zu bestimmen, welche Reihenfolge p, q des ARMA-Modells für eine Serie geeignet ist, müssen wir die AIC (oder BIC) über eine Teilmenge von Werten für p, q und Dann den Ljung-Box-Test anwenden, um festzustellen, ob eine gute Passung erreicht ist, für bestimmte Werte von p, q. Um diese Methode zu zeigen, werden wir zunächst einen bestimmten ARMA (p, q) Prozess simulieren. Wir werden dann alle paarweise Werte von p in und q in und über die AIC berechnen. Wir wählen das Modell mit dem niedrigsten AIC und führen dann einen Ljung-Box-Test auf die Residuen, um festzustellen, ob wir eine gute Passform erreicht haben. Lasst uns anfangen, eine ARMA (3,2) - Serie zu simulieren: Wir erstellen nun ein Objekt endgültig, um die beste Modellanpassung und den niedrigsten AIC-Wert zu speichern. Wir schleifen über die verschiedenen p, q Kombinationen und verwenden das aktuelle Objekt, um die Anpassung eines ARMA (i, j) Modells für die Looping Variablen i und j zu speichern. Wenn die aktuelle AIC kleiner als jede zuvor berechnete AIC ist, setzen wir die endgültige AIC auf diesen aktuellen Wert und wählen diese Reihenfolge aus. Nach Beendigung der Schleife haben wir die Reihenfolge des ARMA-Modells in final. order gespeichert und die ARIMA (p, d, q) passen sich an (mit der integrierten d-Komponente auf 0) als final. arma gespeichert: Letzt die Ausgabe der AIC , Ordnung und ARIMA Koeffizienten: Wir können sehen, dass die ursprüngliche Reihenfolge des simulierten ARMA-Modells wiederhergestellt wurde, nämlich mit p3 und q2. Wir können das Corelogramm der Residuen des Modells abbilden, um zu sehen, ob sie wie eine Realisierung von diskreten weißen Geräuschen (DWN) aussehen: Das Corelogramm sieht in der Tat wie eine Realisierung von DWN aus. Schließlich führen wir den Ljung-Box-Test für 20 Verzögerungen durch, um dies zu bestätigen: Beachten Sie, dass der p-Wert größer als 0,05 ist, was besagt, dass die Residuen auf der 95-Ebene unabhängig sind und somit ein ARMA (3,2) - Modell eine Gutes modell passend Eindeutig sollte dies der Fall sein, da wir die Daten selbst simuliert haben. Dies ist jedoch genau das Verfahren, das wir verwenden werden, wenn wir ARMA (p, q) Modelle auf den SampP500 Index im folgenden Abschnitt passen. Finanzdaten Nun, da wir das Verfahren zur Auswahl des optimalen Zeitreihenmodells für eine simulierte Serie skizziert haben, ist es ziemlich einfach, es auf Finanzdaten anzuwenden. Für dieses Beispiel werden wir noch einmal den SampP500 US Equity Index wählen. Lässt die täglichen Schlusskurse mit quantmod herunterladen und dann den Log-Return-Stream erstellen: Lass die gleiche Anpassungsprozedur wie für die simulierte ARMA (3,2) - Serie oben auf der Log-Returns-Serie des SampP500 mit dem AIC: Das beste passende Modell Hat bestellen ARMA (3,3): Lets Plot die Residuen des angepassten Modells auf die SampP500 log täglichen Renditen Stream: Beachten Sie, dass es einige signifikante Spitzen, vor allem bei höheren Lags. Dies ist ein Hinweis auf eine schlechte Passform. Lasst uns einen Ljung-Box-Test durchführen, um zu sehen, ob wir statistische Beweise dafür haben: Wie wir vermutet haben, ist der p-Wert weniger als 0,05 und als solche können wir nicht sagen, dass die Residuen eine Realisierung von diskreten weißen Rauschen sind. Daher gibt es eine zusätzliche Autokorrelation in den Resten, die nicht durch das eingebaute ARMA (3,3) Modell erklärt wird. Nächste Schritte Wie wir in dieser Artikelserie ausführlich diskutiert haben, haben wir in der SampP500-Serie vor allem in den Perioden um 2007-2008 einen Hinweis auf eine bedingte Heterosedastizität (Volatilitätsclustering) gesehen. Wenn wir ein GARCH-Modell später in der Artikelserie verwenden, werden wir sehen, wie man diese Autokorrelationen beseitigt. In der Praxis sind ARMA-Modelle niemals im Allgemeinen gut passt für Log-Aktien-Renditen. Wir müssen die bedingte Heterosedastizität berücksichtigen und eine Kombination aus ARIMA und GARCH verwenden. Der nächste Artikel wird ARIMA betrachten und zeigen, wie sich die integrierte Komponente von dem ARMA-Modell unterscheidet, das wir in diesem Artikel berücksichtigt haben. Just Getting Started mit quantitativen TradingAutoregressive Moving Average ARMA (p, q) Modelle für Time Series Analysis - Teil 2 In Teil 1 betrachteten wir das Autoregressive Modell der Ordnung p, auch bekannt als AR (p) Modell. Wir haben es als eine Erweiterung des zufälligen Spaziergangsmodells eingeführt, um eine zusätzliche serielle Korrelation in finanziellen Zeitreihen zu erklären. Letztlich haben wir erkannt, dass es nicht ausreichend flexibel war, um die Autokorrelation in den Schlusskursen von Amazon Inc. (AMZN) und dem SampP500 US Equity Index wirklich zu erfassen. Der Hauptgrund dafür ist, dass diese beiden Vermögenswerte bedingt heteroskedastisch sind. Was bedeutet, dass sie nicht stationär sind und Perioden unterschiedlicher Varianz oder Volatilität aufweisen, die vom AR (p) - Modell nicht berücksichtigt werden. In künftigen Artikeln werden wir schließlich zu den autoregressiven integrierten Moving Average (ARIMA) Modellen aufbauen, sowie die bedingt heteroskedastischen Modelle der ARCH - und GARCH-Familien. Diese Modelle werden uns mit unseren ersten realistischen Versuchen zur Prognose von Vermögenspreisen versorgen. In diesem Artikel werden wir jedoch das Moving Average of Order q Modell, bekannt als MA (q) vorstellen. Dies ist Bestandteil des allgemeineren ARMA-Modells und als solches müssen wir es verstehen, bevor wir uns weiter bewegen. Ich empfehle Ihnen, die vorherigen Artikel in der Zeitreihenanalyse-Sammlung zu lesen, wenn Sie dies nicht getan haben. Sie können alle hier gefunden werden. Moving Average (MA) Modelle der Ordnung q Ein Moving Average Modell ähnelt einem Autoregressiven Modell, mit der Ausnahme, dass es statt einer linearen Kombination von vergangenen Zeitreihenwerten eine lineare Kombination der vergangenen weißen Rauschbegriffe ist. Intuitiv bedeutet dies, dass das MA-Modell solche zufälligen weißen Rauschschocks direkt bei jedem aktuellen Wert des Modells sieht. Dies steht im Gegensatz zu einem AR (p) - Modell, bei dem die weißen Rauschschocks nur indirekt gesehen werden. Über Regression auf vorherige Begriffe der Serie. Ein wichtiger Unterschied ist, dass das MA-Modell nur die letzten q-Schocks für ein bestimmtes MA (q) - Modell sehen wird, während das AR (p) - Modell alle vorherigen Schocks berücksichtigt, wenn auch in einer abnehmend schwachen Weise. Definition Mathematisch ist das MA (q) ein lineares Regressionsmodell und ist ähnlich zu AR (p) strukturiert: Moving Average Modell der Ordnung q Ein Zeitreihenmodell ist ein gleitendes Mittelmodell der Ordnung q. MA (q), wenn: xt wt beta1 w ldots betaq w end Wo ist weißes Rauschen mit E (wt) 0 und Varianz sigma2. Wenn wir den Backward Shift Operator betrachten. (Siehe einen vorherigen Artikel), dann können wir das oben beschriebene als Funktion phi von: begin xt (1 beta1 beta2 2 ldots betaq q) wt phiq () wt Ende Wir verwenden die phi-Funktion in späteren Artikeln. Zweite Ordnung Eigenschaften Wie bei AR (p) ist der Mittelwert eines MA (q) Prozesses Null. Das ist leicht zu sehen, da der Mittelwert einfach eine Summe von Mitteln der weißen Lärmbegriffe ist, die alle selbst null sind. Begin text enspace mux E (xt) sum E (wi) 0 end begin text enspace sigma2w (1 beta21 ldots beta2q) end text enspace rhok links 1 text enspace k 0 sum betai beta sumq beta2i text enspace k 1, ldots, q 0 text Enspace k gt q Ende rechts. Wo beta0 1. Wurden nun einige simulierte Daten generieren und es verwenden, um Korrelogramme zu erstellen. Das macht die obige Formel für rhok etwas konkreter. Simulationen und Correlograms Beginnen wir mit einem MA (1) Prozess. Wenn wir beta1 0.6 setzen, erhalten wir folgendes Modell: Wie bei den AR (p) Modellen im vorherigen Artikel können wir R verwenden, um eine solche Serie zu simulieren und dann das Korrelogramm zu zeichnen. Da wir in der vorherigen Zeitreihenanalyse-Artikelreihe der Durchführung von Plots viel Übung hatten, werde ich den R-Code vollständig schreiben, anstatt ihn aufzuteilen: Die Ausgabe ist wie folgt: Wie wir oben in der Formel für rhok gesehen haben , Für k gt q, sollten alle Autokorrelationen null sein. Da q 1, sollten wir einen signifikanten Peak bei k1 und dann unbedeutende Peaks danach sehen. Allerdings sollten wir aufgrund der Stichprobenvorgabe erwarten, dass 5 (marginal) signifikante Peaks auf einer Probe-Autokorrelationskurve zu sehen sind. Genau das zeigt uns das Korrelogramm in diesem Fall. Wir haben einen signifikanten Peak bei k1 und dann unbedeutende Peaks für k gt 1, außer bei k4, wo wir einen marginal signifikanten Peak haben. In der Tat ist dies eine nützliche Möglichkeit zu sehen, ob ein MA (q) Modell geeignet ist. Mit einem Blick auf das Korrelogramm einer bestimmten Serie können wir sehen, wie viele aufeinanderfolgende Nicht-Null-Lags existieren. Wenn q solche Lags existieren, dann können wir legitimerweise versuchen, ein MA (q) Modell zu einer bestimmten Serie zu passen. Da wir Beweise aus unseren simulierten Daten eines MA (1) Prozesses haben, würden wir nun versuchen, ein MA (1) Modell an unsere simulierten Daten anzupassen. Leider gibt es keinen äquivalenten ma Befehl zum autoregressiven Modell ar Befehl in R. Stattdessen müssen wir den allgemeineren arima Befehl verwenden und die autoregressiven und integrierten Komponenten auf Null setzen. Wir machen dies durch die Schaffung eines 3-Vektors und die Einstellung der ersten beiden Komponenten (die autogressive und integrierte Parameter) auf Null: Wir erhalten einige nützliche Ausgabe aus dem Befehl arima. Erstens können wir sehen, dass der Parameter als Hut 0.602 geschätzt wurde, was dem wahren Wert von beta1 0.6 sehr nahe kommt. Zweitens werden die Standardfehler bereits für uns berechnet, so dass es einfach ist, Konfidenzintervalle zu berechnen. Drittens erhalten wir eine geschätzte Varianz, Log-Likelihood und Akaike Information Criterion (notwendig für Modellvergleich). Der Hauptunterschied zwischen arima und ar ist, dass arima einen Intercept-Term schätzt, weil er den Mittelwert der Serie nicht subtrahiert. Daher müssen wir bei der Durchführung von Vorhersagen mit dem Befehl arima vorsichtig sein. Gut zurück zu diesem Punkt später. Als eine schnelle Überprüfung wurden die Konfidenzintervalle für Hut zu berechnen: Wir können sehen, dass das 95 Konfidenzintervall den wahren Parameterwert von beta1 0.6 enthält und so können wir das Modell gut beurteilen. Offensichtlich ist dies zu erwarten, da wir die Daten an erster Stelle simuliert haben. Wie ändert sich die Dinge, wenn wir das Vorzeichen von beta1 auf -0,6 ändern. Lets die gleiche Analyse: Die Ausgabe ist wie folgt: Wir können sehen, dass bei k1 wir eine signifikante haben Peak im Korrelogramm, mit der Ausnahme, dass es eine negative Korrelation zeigt, wie es von einem MA (1) - Modell mit negativem ersten Koeffizienten erwartet wird. Wieder sind alle Gipfel jenseits von k1 unbedeutend. Lets passen ein MA (1) Modell und schätzen den Parameter: Hut -0.730, was eine kleine Unterbewertung von beta1 -0.6 ist. Schließlich können wir das Konfidenzintervall berechnen: Wir können sehen, dass der wahre Parameterwert von beta1-0.6 innerhalb des 95 Konfidenzintervalls enthalten ist und uns einen Beweis für eine gute Modellpassung bietet. Lass uns das gleiche Verfahren für einen MA (3) Prozess durchlaufen. Diesmal sollten wir bei k in und bei unbedeutenden Peaks für k gt 3 signifikante Peaks erwarten. Wir werden die folgenden Koeffizienten verwenden: beta1 0,6, beta2 0,4 und beta3 0,2. Lets simulieren einen MA (3) Prozess von diesem Modell. Ive erhöhte die Anzahl der zufälligen Samples auf 1000 in dieser Simulation, was es einfacher macht, die wahre Autokorrelationsstruktur zu sehen, auf Kosten der Herstellung der Originalreihe schwerer zu interpretieren: Die Ausgabe ist wie folgt: Wie erwartet sind die ersten drei Peaks signifikant . Allerdings ist also der vierte. Aber wir können legitimerweise darauf hindeuten, dass dies auf Stichproben-Bias zurückzuführen ist, da wir erwarten, dass 5 der Peaks signifikant jenseits von kq sind. Lets jetzt ein MA (3) - Modell auf die Daten zu versuchen und schätzen Parameter: Die Schätzungen Hut 0.544, Hut 0.345 und Hut 0.298 sind in der Nähe der wahren Werte von Beta10.6, Beta20.4 und Beta30.3, respectively. Wir können auch Konfidenzintervalle mit den jeweiligen Standardfehlern erzeugen: In jedem Fall enthalten die 95 Konfidenzintervalle den wahren Parameterwert und wir können daraus schließen, dass wir mit unserem MA (3) - Modell gut passen, wie man erwarten sollte. Finanzdaten In Teil 1 betrachteten wir Amazon Inc. (AMZN) und den SampP500 US Equity Index. Wir passten das AR (p) - Modell an und stellten fest, dass das Modell nicht in der Lage war, die Komplexität der seriellen Korrelation, insbesondere in der Besetzung des SampP500, effektiv zu erfassen, wo lange Gedächtniseffekte vorhanden zu sein scheinen. Ich gebe nicht die Charts wieder für die Preise und Autokorrelation, stattdessen kenne ich dich auf den vorherigen Beitrag. Amazon Inc. (AMZN) Lasst uns damit beginnen, eine Auswahl von MA (q) Modellen an AMZN anzupassen, nämlich mit q in. Wie in Teil 1, verwenden Sie bitte quantmod, um die täglichen Preise für AMZN herunterzuladen und dann in einen Log-Rendite-Stream von Schlusskursen umzuwandeln: Jetzt, da wir den Log-Return-Stream haben, können wir den Befehl arima verwenden, um MA (1), MA zu passen (2) und MA (3) Modelle und schätzen dann die Parameter von jedem. Für MA (1) haben wir: Wir können die Residuen der täglichen Log-Retouren und des passenden Modells abbilden: Beachten Sie, dass wir ein paar signifikante Peaks bei Verzögerungen k2, k11, k16 und k18 haben, was darauf hinweist, dass das MA (1) - Modell ist Unwahrscheinlich eine gute Passform für das Verhalten der AMZN-Log-Rückkehr sein, da dies nicht wie eine Verwirklichung von weißem Rauschen aussieht. Lets versuchen ein MA (2) Modell: Beide Schätzungen für die Beta-Koeffizienten sind negativ. Lets plot die Reste noch einmal: Wir können sehen, dass es fast Null Autokorrelation in den ersten paar Lags gibt. Allerdings haben wir fünf marginal signifikante Peaks bei Verzögerungen k12, k16, k19, k25 und k27. Dies deutet darauf hin, dass das MA (2) - Modell eine Menge Autokorrelation erfährt, aber nicht alle Langzeit-Effekte. Wie wäre es mit einem MA (3) - Modell Noch einmal können wir die Residuen zeichnen: Das MA (3) Residual-Plot sieht fast identisch mit dem des MA (2) - Modells aus. Das ist nicht verwunderlich, da man einen neuen Parameter zu einem Modell hinzufügte, das scheinbar viel von den Korrelationen bei kürzeren Verzögerungen erklärt hat, aber das wird nicht viel von einer Wirkung auf die längerfristigen Verzögerungen haben. All diese Beweise deuten darauf hin, dass ein MA (q) - Modell unwahrscheinlich ist, um die gesamte serielle Korrelation isoliert zu erklären. Zumindest für AMZN. SampP500 Wenn Sie sich erinnern, in Teil 1 sahen wir, dass die erste Reihenfolge differenzierte tägliche Log-Rückkehr Struktur des SampP500 besaß viele signifikante Spitzen bei verschiedenen Verzögerungen, sowohl kurz als auch lang. Dies zeigte sowohl eine bedingte Heteroskedastizität (d. h. Volatilitäts-Clustering) als auch Langzeit-Effekte. Es führt uns zu dem Schluss, dass das AR (p) - Modell nicht ausreicht, um alle vorhandenen Autokorrelationen zu erfassen. Wie wir oben gesehen haben, war das MA (q) - Modell nicht ausreichend, um eine zusätzliche serielle Korrelation in den Residuen des angepassten Modells in die erste Reihenfolge zu erfassen, Wir werden nun versuchen, das MA (q) Modell an den SampP500 anzuschließen. Man könnte fragen, warum wir das tun, wenn wir wissen, dass es unwahrscheinlich ist, dass es eine gute Passform ist. Das ist eine gute Frage. Die Antwort ist, dass wir genau sehen müssen, wie es nicht eine gute Passform ist, denn das ist der ultimative Prozess, dem wir folgen werden, wenn wir auf viel mehr anspruchsvolle Modelle stoßen, die potenziell schwerer zu interpretieren sind. Lasst uns damit beginnen, die Daten zu erhalten und es in eine erste Reihenfolge umzuwandeln, die eine Reihe von logarithmisch veränderten täglichen Schlusskursen wie im vorherigen Artikel enthält: Wir werden nun ein MA (1), MA (2) und MA (3) Modell anpassen Die Serie, wie wir oben für AMZN getan haben. Lässt uns mit MA (1) beginnen: Lets machen eine Auftragung der Residuen dieses passenden Modells: Der erste signifikante Peak tritt bei k2 auf, aber es gibt noch viel mehr bei k in. Dies ist eindeutig keine Realisierung von Weißgeräuschen und deshalb müssen wir das MA (1) Modell als Potenzial gut fit für den SampP500 ablehnen. Ändert sich die Situation mit MA (2) Wieder einmal können wir eine Darstellung der Reste dieses passenden MA (2) - Modells machen: Während der Peak bei k2 verschwunden ist (wie gewünscht), sind wir immer noch mit den signifikanten Gipfeln bei Viele längere Verzögerungen in den Resten. Noch einmal finden wir das MA (2) Modell ist nicht gut fit. Wir sollten für das MA (3) - Modell erwarten, dass sie bei der K3 als signifikante serielle Korrelation gesehen werden, als für die MA (2), aber noch einmal sollten wir auch keine Reduktion der weiteren Verzögerungen erwarten. Schließlich lassen wir eine Aufzählung von den Resten dieses passenden MA (3) - Modells machen: Genau das sehen wir im Korrelogram der Residuen. Daher ist die MA (3), wie bei den anderen Modellen oben, nicht gut für den SampP500 geeignet. Nächste Schritte Weve untersuchten nun zwei große Zeitreihenmodelle im Detail, nämlich das Autogressive Modell der Ordnung p, AR (p) und dann Moving Average der Ordnung q, MA (q). Weve gesehen, dass sie beide in der Lage sind, einige der Autokorrelationen in den Resten der ersten Ordnung zu erklären, differenzierten täglichen Log-Preisen von Aktien und Indizes, aber Volatilitäts-Clustering und Long-Memory-Effekte bestehen weiterhin. Es ist endlich Zeit, unsere Aufmerksamkeit auf die Kombination dieser beiden Modelle zu lenken, nämlich der Autoregressive Moving Average der Ordnung p, q, ARMA (p, q), um zu sehen, ob es die Situation weiter verbessern wird. Allerdings müssen wir warten, bis der nächste Artikel für eine vollständige Diskussion Just Getting Started mit Quantitative TradingArabic Bulgarian Chinesisch Kroatisch Tschechisch Dänisch Niederländisch Englisch Estnisch Finnisch Französisch Deutsch Griechisch Hebräisch Hindi Ungarisch Isländisch Indonesisch Italienisch Japanisch Koreanisch Lettisch Litauisch Malagasy Norwegisch Persisch Polnisch Portugiesisch Rumänisch Russisch Serbisch Slowakisch Slowenisch Spanisch Schwedisch Thailändisch Türkisch Vietnamesisch Arabisch Bulgarisch Chinesisch Kroatisch Tschechisch Dänisch Niederländisch Englisch Estnisch Finnisch Französisch Deutsch Griechisch Hebräisch Hindi Ungarisch Isländisch Indonesisch Italienisch Japanisch Koreanisch Lettisch Litauisch Malagasy Norwegisch Persisch Polnisch Portugiesisch Rumänisch Russisch Serbisch Slowakisch Slowenisch Spanisch Schwedisch Thailändisch Türkisch Vietnamesisch Definition - Autoregressivemoving - Durchschnittliches Modell Autoregressivemoving-durchschnittliches Modell Für andere Verwendungen von ARMA, siehe Arma. In der Statistik und Signalverarbeitung. Autoregressivemoving-average (ARMA) Modelle. Manchmal genannt BoxJenkins-Modelle nach der iterativen BoxJenkins-Methode, die gewöhnlich verwendet wird, um sie zu schätzen, werden typischerweise auf autokorrelierte Zeitreihendaten angewendet. Angesichts einer Zeitreihe von Daten X t. Das ARMA-Modell ist ein Werkzeug zum Verständnis und vielleicht in der Vorhersage zukünftiger Werte in dieser Serie. Das Modell besteht aus zwei Teilen, einem autoregressiven (AR) Teil und einem gleitenden Durchschnitt (MA) Teil. Das Modell wird gewöhnlich dann als ARMA (p, q) - Modell bezeichnet, wobei p die Ordnung des autoregressiven Teils ist und q die Reihenfolge des gleitenden Durchschnittsteils ist (wie nachstehend definiert). Autoregressives Modell Die Notation AR (p) bezieht sich auf das autoregressive Modell der Ordnung p. Das AR (p) Modell ist geschrieben Ein autoregressives Modell ist im Wesentlichen ein allpoliger unendlicher Impulsantwortfilter mit etwas zusätzlicher Interpretation. Für die Werte der Parameter dieses Modells sind einige Einschränkungen erforderlich, damit das Modell stationär bleibt. Zum Beispiel sind Prozesse im AR (1) Modell mit 1 1 nicht stationär. Moving-Average-Modell Die Notation MA (q) bezieht sich auf das gleitende durchschnittliche Modell der Ordnung q: Autoregressivemovend-durchschnittliches Modell Die Notation ARMA (p. Q) bezieht sich auf das Modell mit p autoregressiven Begriffen und q gleitenden Durchschnitt. Dieses Modell enthält die AR (p) und MA (q) Modelle, Hinweis über die Fehlerbegriffe N (0, 2) wobei 2 die Varianz ist. Diese Annahmen können geschwächt werden, aber dies wird die Eigenschaften des Modells verändern. Insbesondere eine Änderung der i. i.d. Annahme würde einen ziemlich grundlegenden Unterschied machen. Spezifikation in Bezug auf Lag-Operator In einigen Texten werden die Modelle in Bezug auf den Lag-Operator L spezifiziert. In diesen Worten wird dann das AR (p) - Modell gegeben durch das MA (q) - Modell gegeben, wo das Polynom steht. Schließlich wird das kombinierte ARMA (p. Q) - Modell gegeben oder genauer gegeben. Alternative Notation Einige Autoren, einschließlich Box, Jenkins amp Reinsel 1 verwenden eine andere Konvention für die Autoregression Koeffizienten. Damit können alle Polynome, die den Lag-Operator betreffen, in einer ähnlichen Form überall erscheinen. So würde das ARMA-Modell als Fitting-Modelle geschrieben werden ARMA-Modelle im Allgemeinen können nach der Auswahl von p und q durch die kleinste Quadrate Regression angepasst werden, um die Werte der Parameter zu finden, die den Fehlertermin minimieren. Es wird allgemein als gute Praxis angesehen, die kleinsten Werte von p und q zu finden, die eine akzeptable Anpassung an die Daten liefern. Für ein reines AR-Modell können die Yule-Walker-Gleichungen verwendet werden, um einen Fit zu bieten. Die Suche nach geeigneten Werten von p und q im ARMA (p, q) - Modell kann durch das Plotten der partiellen Autokorrelationsfunktionen für eine Schätzung von p erleichtert werden. Und gleichermaßen die Autokorrelationsfunktionen für eine Schätzung von q verwenden. Weitere Informationen können entnommen werden, indem man die gleichen Funktionen für die Reste eines Modells betrachtet, das mit einer anfänglichen Auswahl von p und q ausgestattet ist. Brockwell und Davis 2 (S.273) empfehlen die Verwendung von AICc für die Suche nach p und q. Implementierungen in Statistikpaketen In R. enthält das Paket tseries eine Arma-Funktion. Die Funktion ist in Fit ARMA Models to Time Series dokumentiert. Oder verwenden Sie Stats :: arima Mathematica hat eine komplette Bibliothek von Zeitreihen-Funktionen einschließlich ARMA 3 MATLAB enthält eine Funktion ar, um AR-Modelle zu schätzen, siehe hier für weitere Details. IMSL Numerische Bibliotheken sind Bibliotheken der numerischen Analysefunktionalität einschließlich ARMA - und ARIMA-Prozeduren, die in Standardprogrammiersprachen wie C, Java, C und Fortran implementiert sind. Gretl kann auch ARMA-Modelle abschätzen, siehe hier wo es erwähnt wird. GNU Octave kann AR-Modelle mit Funktionen aus der Extra-Paket-Oktav-Schmiede abschätzen. Stata beinhaltet die Funktion arima, die ARMA - und ARIMA-Modelle abschätzen kann. Siehe hier für weitere Details SuanShu ist eine Java-Bibliothek mit numerischen Methoden, einschließlich umfangreicher Statistikpakete, in denen univariatemultivariate ARMA, ARIMA, ARMAX, etc. Modelle in einem objektorientierten Ansatz implementiert werden. Diese Implementierungen sind in SuanShu, einer Java numerischen und statistischen Bibliothek dokumentiert. SAS hat ein ökonometrisches Paket, ETS, das die ARIMA-Modelle schätzt, siehe hier für weitere Details. Anwendungen ARMA ist geeignet, wenn ein System eine Funktion von einer Reihe von unbeobachteten Schocks (die MA-Teil) Klärung benötigt sowie sein eigenes Verhalten ist. Zum Beispiel können die Aktienkurse durch fundamentale Informationen geschockt werden und technische Markt - und Mittelwert-Reversionseffekte aufgrund von Marktteilnehmern aufweisen. Verallgemeinerungen Die Abhängigkeit von X t von vergangenen Werten und den Fehlerbegriffen t wird als linear angenommen, wenn nicht anders angegeben. Wenn die Abhängigkeit nichtlinear ist, wird das Modell spezifisch als nichtlineares gleitendes Durchschnitt (NMA), nichtlineares autoregressives (NAR) oder nichtlineares autoregressivemoving-average (NARMA) Modell bezeichnet. Autoregressivemov-durchschnittliche Modelle können auf andere Weise verallgemeinert werden. Siehe auch autoregressive bedingte heteroskedastische (ARCH) Modelle und autoregressive integrierte gleitende durchschnittliche (ARIMA) Modelle. Wenn mehrere Zeitreihen eingebaut werden sollen, kann ein Modell ARIMA (oder VARIMA) eingebaut werden. If the time-series in question exhibits long memory then fractional ARIMA (FARIMA, sometimes called ARFIMA) modelling may be appropriate: see Autoregressive fractionally integrated moving average. If the data is thought to contain seasonal effects, it may be modeled by a SARIMA (seasonal ARIMA) or a periodic ARMA model. Another generalization is the multiscale autoregressive (MAR) model. A MAR model is indexed by the nodes of a tree, whereas a standard (discrete time) autoregressive model is indexed by integers. Note that the ARMA model is a univariate model. Extensions for the multivariate case are the Vector Autoregression (VAR) and Vector Autoregression Moving-Average (VARMA). Autoregressivemoving-average model with exogenous inputs model (ARMAX model) The notation ARMAX( p . q . b ) refers to the model with p autoregressive terms, q moving average terms and b exogenous inputs terms. This model contains the AR( p ) and MA( q ) models and a linear combination of the last b terms of a known and external time series . It is given by: Some nonlinear variants of models with exogenous variables have been defined: see for example Nonlinear autoregressive exogenous model . Statistical packages implement the ARMAX model through the use of exogenous or independent variables. Care must be taken when interpreting the output of those packages, because the estimated parameters usually (for example, in R 4 and gretl ) refer to the regression: where m t incorporates all exogenous (or independent) variables: This article includes a list of references. but its sources remain unclear because it has insufficient inline citations . Please help to improve this article by introducing more precise citations. (August 2010) References George Box. Gwilym M. Jenkins. and Gregory C. Reinsel. Time Series Analysis: Forecasting and Control . third edition. Prentice-Hall, 1994. Brockwell, P. J. and Davis, R. A. Time Series: Theory and Methods . 2nd ed. Springer, 2009. Time series features in Mathematica ARIMA Modelling of Time Series. R documentation Mills, Terence C. Time Series Techniques for Economists. Cambridge University Press, 1990. Percival, Donald B. and Andrew T. Walden. Spectral Analysis for Physical Applications. Cambridge University Press, 1993. This entry is from Wikipedia, the leading user-contributed encyclopedia. Es wurde möglicherweise nicht von professionellen Redakteuren überprüft (siehe vollständiger Haftungsausschluss)
No comments:
Post a Comment