자료간의 상관관계를 확인하기 전에 해야 하는 일.
(출처 - 내 머리)
1) 자료의 빈도를 확인한다.
- 일별, 주별, 월별, 분기별, 연도별
- 빈도별 자료가 모두 존재하는 경우 고빈도 자료는 노이즈가 크게 반영되고, 저빈도 자료는 신호가 사라진다.
- 미국에는 중요한 주간 자료가 존재하지만 한국에 그런 경우는 기억이 나지 않는다.
2) 자료의 계절 조정 여부를 확인한다.
- 주별, 월별, 분기별 자료의 경우 계절조정자료(sa)가 아니면 직전 주, 월, 분기 대비 증감율을 계산하는 경우 삽질이 될 수 있다. 계산하기 전에 다시 생각해 볼 필요가 있다.
- 전년비를 계산하는 경우에는 계절비조정자료(nsa)를 쓴다. 그러나 계절조정자료를 써도 차이가 크지 않다. (만약 비교해서 많이 다르면 그 자료는 중앙은행, 통계청 자료라고 해도 전부 버리는 것이 좋다. 특히 중국)
- 일별 자료가 발생하는 경우에는 계절 조정 데이타가 없는 경우가 많다. 또한 계절 조정이 필요없는 경우가 많다. ex) 주가, 금리, 원자재 가격 등.
3) 말일 자료인지, 평균 자료인지, 분기합산 자료, 연률화 자료인지 확인한다.
- 노이즈가 큰 자료의 경우에 평균자료가 유리하다.
- 분기합산 대신 3개월 이동평균을 쓸지 고려한다.
- 월별, 분기별 자료의 경우 계절조정 혹은 계절조정연율화자료(saar)가 존재하는지, 이 중 어떤 것을 쓸지 결정한다.
- 관행적으로 원자료보다 saar를 더 중요하게 보는 경우 - 미국 gdp, 고용, 자동차, 주택 등 - 계절성이 매우 큰 경우가 많고, saar변환으로 치명적인 artifact가 발생할 수 있고, 사후에 계절조정방식의 변화에 따라 수십년치 자료 전체가 변동되는 경우가 생기니 조심한다.
- fred에는 이 경우 수정전 과거자료를 따로 보여준다. alfred.
4) 자료의 주기, 선행성, 후행성을 확인한다.
- 주기성을 갖는 자료들은 최소 주기의 2배 이상의 기간을 갖는 자료가 필요하다.
- 충격의 확산이 반영되는 자료들은 충격이 완전히 사라지는 시기까지 비교해야 한다.
- 이런 경우 길면 수십년치가 필요하다. ex) 대공황 이후 모든 자료, 원자재 순환, 금리 순환 등.
- 예를 들어 2년 주기를 갖는 순환이 존재하는 경우 자료의 최소빈도는 연도별(2개 이상)이지만 적어도 반기(4개 이상), 혹은 분기(8개 이상) 이상의 빈도를 갖는 자료가 필요.
- 자료의 기간은 적어도 4년 이상이 필요.
- 이보다 짧다면 해석시 조심하거나 결론을 유보해야.
- 이처럼 자료간, 자료내 순환, 선행성, 후행성이 존재하는 경우 밀고 당긴 자료(leading, lagging)와 비교할 필요가 있다. 혹은 auto-correlation, cross-correlation을 확인해 본다.
5) 원자료를 비교할지, 전년비, 전분기비, 전월비, 전주비, 전일비와 비교할지를 선택한다.
- 월별 자료의 경우 흔히 원자료, 전년비, 전월비를 사용한다.
- 그러나 6개월 전과 비교하거나 2년 전과 비교하는 경우는 종종 볼 수 있다.
- 추세(저주파)가 사라지면서 원자료에 보이지 않던 순환(고주파)이 드러날 수 있다.
- 메르스, 사드같은 특별한 일회성 사건의 발생시는 2년 전과 비교할 수 있다.
- 추세와 계절성을 갖는 자료의 경우에 2년 전과 비교하면 노이즈가 감소할 수 있다.
- 분기별 주기성(분기 결산 등)을 갖는 자료의 경우에 3개월전(qoq), 분기합산(quarterly sum), 3개월 이동평균(3ma)을 구해서 비교할 수도 있다. 이 때 6개월 전(6-month change)과 비교할 수도 있다.
- 연평균 10%의 증가를 보이는 경우 월별 변동이 +/-10%라면 1년 전은 노이즈의 범위에 포함되지만, 2년 전은 노이즈를 벗어났을 가능성이 높다.
- 이 경우 기준시점의 노이즈를 줄이기 위해, 1년 전 자료를 중심으로 몇개월 평균값을 구해 사용할 수 있다. (개편전 통계청의 경기선행지수전년동월비가 이런 방식을 적용. 지금은 순환변동치)
6) 상관관계를 확인하기 위해 비교할 기간을 선택한다.
- 보유 자료의 전체기간을 대상으로 보는 것이 첫번째이지만 그런 경우에 실제로 존재하는 관계를 놓칠 수 있다.
- 주기가 존재한다면 적어도 주기의 반 이상을 대상으로 비교하는 것이 좋다.
미국 금리, 원자재는 30년 이상의 주기.
미국 경기는 10년 혹은 4-5년의 주기.
투자 순환은 4-5년 이상.
한국의 재고 순환은 2년 이상.
2000년대 한국의 주가도 2년. 홀짝.
- 존재하는 주기의 반보다 짧은 기간을 대상으로 상관관계를 보면 없는 상관관계를 만들어낼 수 있다.
- 많은 경우 5년, 10년이면 충분.
case 1. 주식과 채권
초단위 이하의 초고빈도 데이타.
최근 20여년간 주가전년동월비와 미국채 10년물의 관련성이 높다.
상관관계를 보는 것은 어떻게 하는 것이 좋은가?
많이들 주가 전일대비 변동률(dod %)과 금리 전일차(d-d %p)에 대한 1년 동안의 상관관계를 본다.
그러나 이렇게 일별 자료를 보는 것과 주별, 월별, 연별 자료를 보는 것은 다르다.
그러니 백명이 모이면 백가지 숫자를 가지고 상관관계에 대해 얘기를 한다.
또한 대부분 어떤 자료를 어떻게 분석해서 상관관계를 구했는지 명확하게 밝히지 않는다.
만약 분석/학술 목적이 아니라 투자 목적으로 자산간의 상관관계를 확인하려면 어떻게 하는 것이 좋을 까?
주식의 가격와 채권의 가격을 비교해야 한다.
주식의 가격은 명확하다.
채권의 금리는 가격이 아니다.
쉬운 것은 채권etf의 가격을 이용하는 것이다. ief 등.
그러나 20년 이하에 불과한 자료만을 알 수 있을 뿐이다.
지난 백년동안의 채권 자료는?
현실적으로 shiller교수가 제공하는 10년물 채권금리에서 월별 복리 재투자를 가정하고 직접 구하는 방법밖에 없다.
http://runmoneyrun.blogspot.kr/2016/02/once-in-lifetime-opportunity-2016.html쉴러 교수의 자료를 바탕으로 채권 가격지수 계산
http://www.econ.yale.edu/~shiller/data.htm쉴러 교수의 자료
동등하게 비교하기 위해서는 주식에 대한 배당 재투자도 마찬가지로 계산해야 한다.
이렇게 계산한 자료를 가지고 수익률 간의 상관관계를 구하면 당연히 금리와 주가를 대상으로 계산한 것과는 차이가 난다.
case 2. correlation matrix
많은 외국 증권사들이 오랫동안 만들어왔고, 최근 국내 증권사도 많이들 만들고 있다.
한 눈에 자산 간의 관계를 파악하는 데 도움이 된다.
그러나 대부분 필요한 정보를 누락하고 있다.
그들 간에 컨센서스가 별로 없다는 것은 내가 안다.
더구나 내 상식과 그들의 상식이 같은지 확인할 방법이 없다.
그러니 수십개의 자산간에 존재하는 수백개의 상관관계를 나타내는 숫자와 색깔이 무엇을 의미하는지 파악한다고 생각하는 것도 제작자를 제외하면 착각일 수 있다.
case 3. usdkrw vs kospi
나는 원달러와 코스피는 실시간으로 확인할 수 있는 자료 중 서로 다른 자산 군에 속하면서 가장 높은(?) 상관관계를 보인다고 믿고 있다.
그런데 2017년 2월부터 9월까지 한국의 채권3년물, 달러, kospi200 선물의 가격에서 전혀 다른 모습을 확인할 수 있다.
- 이어서
--------------
추가
http://runmoneyrun.blogspot.kr/2018/03/correlation-usdkrw-kosp-ktb.html