Opening
- 미래 예측 시나리오에서 과거 정보를 활용하여 미래를 예측하는 "시계열 데이터"가 갖는 의미를 생각해 봅시다. 코로나가 촉발된 2020년 2월 이전과 이후로 급변하는 시점에 시계열 데이터 분석은 어떤 관점으로 하면 좋을까요?
- [예시 답안]
- 코로나로 인해서 다양한 산업들의 희비가 엇갈리고 있습니다.
- 기업들이 작년도 실적(과거 데이터)를 기반으로 미래를 예측하는 것이 더욱 불투명해지고 있는 환경입니다.
- 이런 상황에서는 내부 데이터 보다는 외부 데이터(관련 산업의 추이 변화, 글로벌 시장 동향, 소비자 감성 지수 등) 양상을 반영해서 데이터를 분석하는 관점이 필요하다고 생각합니다.
Check-up 항목
- 시계열 데이터에서 stationary(정상성)과 Non-stationary(비정상성)에 대해서 설명해 봅시다.
- [예시 답안]
- Stationary(정상성): 시간이 변해도 통계적 특성이 일정한 시계열이다. 통계적 특성이 일정한 정도에 따라서 Strongly Stationary(강정상) Weakly Stationary(약정상)으로 구분된다. 일반적으로 약정상 시계열 정도만 되어도 정상성을 띈다고 본다. 평균, 분산, 왜도, 첨도 등 모든 통계적 특성이 동일하면 강정상, 평균과 분산의 통게적 특성이 동일하면 약정상으로 구분한다.
- Non-stationary(비정상성): 시간에 따라 통계적 특성이 변한다. 시계열 데이터가 non_stationary 하다면 평균, 분산, 공분산은 시간의 함수가 될 수 없다.
Closing
- 주식데이터를 기간을 너무 길게 다운로드하시면 모델의 예측이 매우 안 좋을 수 있습니다.
- 비교적 안정적인 회사의 데이터를 이용하시거나
- 아니면 기간을 줄여 데이터를 다운받으시는게 루브릭을 만족할 결과를 얻으실 수 있으실 겁니다.
- 노드 도입부에 질문했듯이, 코로나 이전과 이후로 주식 시장도 엄청난 변화를 맞이했습니다. 프로젝트를 수행할 때 이 부분을 감안해서 예측을 해본다면 어떤 방법을 시도해 볼 수 있을까요?
- [예시 답안]
- 코로나 이전과 이후로 기간을 끊어서 예측해 보거나 코로나 수혜주의 비 수혜주의 종목으로 구분해서 예측 모델을 돌려보는 방법 등이 있을 것 같네요.
참고자료
- [13-6] pandas.Series.rolling은 어떻게 동작하는 것일까요?
moving_avg = ts_log.rolling(window=12).mean()
- 참고자료

'성장하기' 카테고리의 다른 글
[E-14] 폐렴아 기다려라! (0) | 2021.02.25 |
---|---|
[서평] 비즈니스 머신러닝 (1) | 2021.02.22 |
[E-12] 인공지능으로 세상에 없던 새로운 패션 만들기 (0) | 2021.02.18 |
[E-11] 뉴스 요약봇 만들기 (0) | 2021.02.16 |
[영작] Silicon Valley: Big Success From Startup (0) | 2021.02.04 |
댓글