9.      ARFIMA modeliai

9.7.      Praktinis ARFIMA modelio pritaikymas

Remiantis darbe aprašyta teorija ir globalios Žemės temperatūros duomenimis (duomenys paimti iš NASA, adresu (http://data.giss.nasa.gov/), sudarytas modelis, leidžiantis prognozuoti globalinę Žemės temperatūrą. Iš viso 509 stebėjimai. Modelis sudaromas 500 stebėjimų. Paskutinios 9 reikšmės paliktos tam, kad vėliau, atlikus prognozę, būtų galima jas palyginti su prognozuotomis ir apskaičiuoti MSPE.

Modelio sudarymo principus lėmė programinės įrangos galimybės. Modeliavimas buvo atliktas statistinės programos R 2.5, paketo fracdiff pagalba. Jame yra realizuotas ARFIMA modelių parametrų vertinimas. ARFIMA modelis buvo sudarinėjamas remiantis ARIMA modelių identifikavimo, vertinimo ir diagnostinio tikrinimo metodais.

9.7.1.          Duomenų ACF, PACF analizė, GPH testas

ARFIMA modelio pritaikymas laiko eilutės duomenims susideda iš kelių žingsnių: duomenų grafinio atvaizdavimo t atžvilgiu, galimo duomenų transformavimo, priklausomybės eilių nustatymo, parametrų vertinimo bei diagnostinio patikrinimo.

Taigi, žemiau esantis grafikas vaizduoja laiko eilutės duomenis laiko atžvilgiu. Iš grafiko galima matyti, kad duomenys yra nestacionarūs ir turi augantį trendą. Šios laiko eilutės empirinis vidurkis yra 14.00060, o empirinė dispersija - 0.08614761.

duomenys

9.1 pav. Globalios žemės temperatūros (ketvirčiais) laiko eilutė

Labai lėtai mažėjančios autokoreliacinės funkcijos reikšmės, didesnės už 0, leidžia įtarti, kad duomenys turi trendą. Be to, lėtas šios funkcijos mažėjimas rodo, jog yra stiprios priklausomybės proceas. Vadinasi, remiantis šia prielaida, galima turimiems duomenims taikyti ARFIMA modelį. Būtent autokoreliacinės funkcijos lėtas eksponentinis gesimas ir byloja apie tai, jog duomenys pasižymi ilga laikine priklausomybe (9.2 pav.).

acf250

pacf250

9.2 pav. Autokoreliacinės ir dalinės autokoreliacinės funkcijų grafikai

Dar vienas iš būdų atskleisti ilgos atminties egzistavimą – tai GPH (Gewekw ir Porter-Hudak, 1983) testas. Naudojant šį testą yra įvertinamas trupmeninio diferencijavimo parametras d. Tai yra atliekama statistinės programos R pagalba. Analizuojamiems duomenims įvertintas parametras d yra lygus 0.7796963. Vadinasi, globalios Žemės temperatūros duomenys tikrai yra ilgos laikinės priklausomybės, nestacionarūs (kai d>0 – ilgos atminties: a) nestacionarūs, kai d>0.5 ir b) stacionarūs, kai 0<d<0.5).

9.7.2.          Identifikacijos etapas

Sekantis žingsnis yra p ir q eilių nustatymas bei parametro d įvertinimas. AR(p) ir MA(q) eiles galima nustatyti iš ACF ir PACF grafikų, remiantis 9.1 lentele ir žemiau esančiais ACF ir PACF grafikais (pav. 9.3). Norint lengviau nustatyti, kur autokoreliacinė ir dalinė autokoreliacinė funkcijos gęsta ar nutrūksta, tam tikslui yra sumažinamas lagų skaičius. Kadangi šis vertinimas yra preliminarus, todėl tenka vertinti keletą skirtingų modelių, o vėliau apsispręsti kuris iš modelių yra tinkamiausias. Parenkamas tinkamiausias modelis pagal log tikėtinumo funkciją.

Iš žemiau esančių ACF ir PACF grafikų (pav. 9.4) preliminariai nustatomos p ir q reikšmės. Preliminari autoregresijos polinomo eilė yra 7, o slenkančio vidurkio – 6.

acf

9.3 pav. Autokoreliacinės funkcijos grafikas, kai lagų skaičius

pacf

9.4 pav. Dalinės autokoreliacinės funkcijos grafikas, kai lagų skaičius sumažintas

Statistinės programos R dėka galima atlikti AFRIMA modelių parametrų vertinimą. Tam tikslui naudojama funkcija frcdiff: su parametru d kartu įvertinami ir autoregresiniai bei slenkančio vidurkio parametrai.


 

9.2 lentelė. Autoregresijos ir slenkančio vidurkio eilių nustatymas bei d įvertinimas

 

p

q

d

Log-likelihood

1

6

5

0.12783158

254.1912

2

6

6

0.07249850

254.4067

3

6

7

0.09645840

299.3018

4

7

5

0.39124553

281.056

5

7

6

0.21758729

296.9959

6

7

7

0.42441679

313.076

7

8

5

0.39053659

297.7282

8

8

6

0.32621170

275.1546

9

8

7

0.367705741

308.9391

Preliminarios p ir q eilės iš ACF ir PACF grafikų buvo nustatytos: p=7 ir q=6. Pagal loglikelihood funkciją yra atrenkamas tinkamiausias modelis su p=7, q=7: ARFIMA(7, 0.4244, 7). Antras modelis pagal tinkamumą turimiems duomenims yra ARFIMA(8, 0.3677, 7). Taigi, pasirinkus autoregresijos ir slenkančio vidurkio eiles bei įvertinus parametrus, reikia patikrinti, ar sudarytas modelis yra tinkamas aprašant turimus realius duomenis. Norint atlikti minėtą patikrinimą, reikia tyrinėti paklaidas. Žemiau esantis skyrelis yra skirtas paklaidų analizei.

9.7.3.          Modelio tinkamumo patikrinimas, prognozė

Šiame etape sprendžiama apie modelio tinkamumą, nagrinėjant paklaidas. Šio etapo pirmas žingsnis - grafinis paklaidų arba standartizuotų paklaidų atvaizdavimas laiko atžvilgiu. Jei modelis tinkamas, tai paklaidos turi būti pasiskirsčiusios pagal normalųjį skirstinį su nuliniu vidurkiu ir dispersija, lygia vienam. Jei po modelio parinkimo paklaidos yra dar priklausomos, vadinasi, modelis yra netinkamas duomenims aprašyti.

Jei sukurtas modelis atitinka pradinius duomenis, tada stebimoji liekanų seka yra iš tiesų balto triukšmo realizacija ir jų koreliacinės funkcijos turi tam tikras savybes. Pirmiausia, empirinių ACF ir PACF, paskaičiuotų stebimajai liekanų sekai, reikšmės turėtų tilpti 95 % pasikliautinajame intervale . Šio intervalo rėžiai yra pažymėti liekanų ACF ir PACF grafikuose. Jei daugiau reikšmių nei 5% yra už šio intervalo ribų arba yra keletas labai didelių reikšmių, tai reikia ieškoti duomenims labiau tinkančio modelio.

Diagnostinį patikrinimą galima atlikti Ljung – Box – Pierce statistikos pagalba:

,(9.65)

kur H reikšmė dažniausiai lygi 20. Nulinė hipotezė, jog modelis adekvatus, yra išpildyta, asimptotiškai , kai . Nulinė hipotezė su reikšmingumo lygmeniu α atmetama, jeigu  reikšmė yra didesnė už skirstinio   kvantilį.

Taigi modeliui ARFIMA(7, 0.4244, 7) buvo atliktas diagnostinis patikrinimas (9.5 pav.). Po šio patikrinimo paaiškėjo, jog modelis yra adekvatus.

Tai matosi iš standartizuotų liekanų grafiko, nes tik kelios reikšmės yra didesnės už ±1.96, todėl nėra jokių požymių, kad modelis būtų netinkamas. Priešingu atveju, kai modelis būna netinkamas, tai gerokai daugiau nei 5% liekanų reikšmių yra už šio intervalo ±1.96 ribų ir būna reikšmių, stipriai besiskiriančių nuo visumos.

Taip pat apie modelio tinkamumą galima spręsti pagal gautus paklaidų ACF bei Ljung – Box testo statistikos p reikšmes. Grafikai rodo turimiems duomenims sudaryto modelio adekvatumą. Modelis tinkamas, nes ACF reikšmės neviršija  ribos ir paskutiniame (9.5 pav.) grafike paklaidos tenkina Ljung – Box testo nulinę hipotezę, kuri sako, kad modelis yra adekvatus, jei atitinkamos p reikšmės yra didesnės už pasirinktą reikšmingumo lygmenį (0.05; 0.01; 0.001 ir pan.).

diagnostika_fd

9.5 pav. Modelio ARFIMA(7, 0.4244, 7) diagnostinio patikrinimo grafikas

Po šio patikrinimo paaiškėjo, jog modelis ARFIMA(7, 0.4244, 7) yra adekvatus.

Atlikus diagnostinį patikrinimą, modelis buvo pritaikytas turimiems duomenims ir atlikta prognozė. Žemiau esančioje lentelėje yra pateiktos realių duomenų reikšmės ir prognozuotos su modeliu ARFIMA(7, 0.4244, 7). Šioje lentelėje pateiktos reikšmės nuo 501 iki 509.

9.3 lentelė. Realios ir prognozuotos pagal ARFIMA(7, 0.4244, 7) reikšmės

Realūs duomenys

14.827

14.717

14.717

14.777

14.650

14.540

14.637

14.767

14.893

Prognozuoti duomenys

14.622

14.657

14.653

14.591

14.585

14.537

14.571

14.639

14.604

Atlikus prognozę, taikant modelį ARFIMA(7, 0.4244, 7), yra gauta MSPE=0.021.

Kadangi modelis ARFIMA(8, 0.3677, 7) buvo antras pagal log tikėtinumą (9.2 lentelė), tai šiam modeliui taip pat yra atliekamas Ljung – Box testas, pritaikymas duomenims bei atliekama prognozė devynioms reikšmėms ir apskaičiuojama MSPE, norint parinkti modelį, labiau tinkantį prognozei.

diagnostika_fd2

9.6 pav. Modelio ARFIMA(8, 0.3677, 7) diagnostinio patikrinimo grafikas

9.4 lentelė. Realios ir prognozuotos pagal ARFIMA(8, 0.3677, 7) reikšmės

Realūs duomenys

14.827

14.717

14.717

14.777

14.650

14.540

14.637

14.767

14.893

Prognozuoti duomenys

14.613

14.636

14.641

14.586

14.586

14.516

14.572

14.615

14.595

Atlikus prognozę, taikant modelį ARFIMA(8, 0.3677, 7), yra gauta MSPE=0.024.

Modelio ARFIMA(7, 0.4244, 7) vidutinė kvadratinė prognozavimo paklaida yra mažesnė negu modelio ARFIMA(8, 0.3677, 7). Kadangi abiejų modelių MSPE yra labai mažos, tai abu modeliai yra tinkami prognozei. (9.7 pav.) yra pavaizduoti realūs stebėjimai nuo 501 iki 509. (9.8 pav.)– prognozuoti duomenys su modeliu ARFIMA(7, 0.4244, 7). Kadangi atlikta prognozė yra ilgalaikė (prognozavimo ilgis l>6), tai iš pateiktų grafikų yra matyti, kad prognozė yra gana gera.

grafiakas_9

9.7 pav. Realių duomenų grafikas

grafikas_prognozes

9.8 pav. Prognozuotos reikšmės, naudojant modelį ARFIMA(7, 0.4244, 7)

Norint įvertinti prognozavimo tikslumą, reikia apskaičiuoti vidutinę procentinę absoliutinę paklaidą MAPE:

.(9.66)

Tikslumą galima nustatyti remiantis 9.5 lentele:

9.5 lentelė. Prognozavimo tikslumo nustatymas

MAPE%

Prognozavimo tikslumas

<10

Labai tikslus

10 iki 20

Tikslus

20 iki 50

Pakankamas

>50

Nepakankamas

Naudojant prognozei ARFIMA(7, 0.4244, 7) modelį, gauta MAPE yra lygi 0.799%, o su ARFIMA(8, 0.3677, 7) - MAPE=0.875% (skaičiavimų kodas yra pateiktas priede 3). Gautos reikšmės yra labai mažos, todėl prognozavimas yra labai tikslus.