카테고리 없음
평균값을 구하는 다양한 방법:이동평균, 누적평균, 가중이동평균, 지수이동평균
thrcle
2025. 1. 22. 21:59
안녕하세요 오니입니다🐰
편의점 주문량 수요예측을 하는 과제를 진행하면서, 변화가 빠른 편의점 채널 특성상 트렌드가 변하는 주기가 짧은 상품군들이 있었습니다.
이런 경우 다양하고 복잡한 알고리즘의 머신러닝, 딥러닝 기법보다는 오히려 베이직한 통계기반이 더 적절할 수 있겠다는 생각이 들었는데요. 그래서 준비한 이번 포스팅에서는 평균을 구하는 여러 방법론들에 대해 정리해보겠습니다. (feat. G선생)
💡Point
- 트리계열의 모델의 경우 시간에 대한 개념이 변수에 직접적으로 반영되지 않기 때문에 최신 주문량값에 더 가중치를 부여하여 학습하고 싶다면 파생변수로 활용할 수도 있습니다. 다만 data leakage를 주의해야합니다. 미래 데이터가 사용되지 않도록, 학습-검증 데이터셋으로 나눌 경우 계산을 별도로, 시간순서를 잘 지켜서 진행해야합니다
다음과 같이 7일동안의 주문량이 있다고 가정해보면
이동평균 Moving Average
- 윈도우 사이즈만큼 최신 과거 데이터의 갯수만큼의 평균을 구하는 것입니다
누적 평균 Cumulative Average
지수 이동 평균 Exponentially Weighted Average
- 지수함수의 특징은 x값이 증가함에 따라 증가폭이 크다는 것
- 여기서 헷갈릴 수 있는 개념은 이동평균이긴 하지만 윈도우 사이즈를 설정하지는 않는다는 점입니다.
- 윈도우를 설정하면서 가중치의 개념을 가져가고 싶다면 👉 가중이동평균
- 지수 이동 평균의 경우 가중치 설정을 통해 유연하게 최근 데이터에 더 높은 비중을 부여할 수 있다는 것이 특징 !
- 값이 작을수록 오래된 데이터가 더 오랜 시간 동안 영향을 미칩니다.
- α 값이 클수록 최근 데이터에 더 큰 영향을 주며, 사실상 작은 윈도우 사이즈를 사용하는 것과 유사한 효과를 냅니다.
가중 이동 평균 Weighted Moving Average
- 데이터값의 위치마다 가중치를 다르게 부여하여 평균을 계산하는 방식. 최근 데이터에 더 많은 가중치를 부여하고 싶을 때 유용