기술 트랜드

시계열 예측 모델로 키워드 조회수 분석하기 #1 ARIMA, Prophet, 머신러닝 비교

마정스 2025. 3. 14. 15:38
반응형

많은 온라인 마케터나 데이터 분석가, 온라인 쇼핑몰 운영자들은 검색 키워드에 대한 관심이 높을 거예요. 그들 중 가끔은 키워드 조회수 데이터를 보고 "이걸로 미래를 예측할 수 있지 않을까?"라는 생각을 해보셨을 겁니다. 뿐만 아니라 어쩌면, 그런 생각도 하고 관련 실제 예측을 위해 알고리즘이나 도구를 활용하실 거예요. 이때 시계열 모델이 떠오르기 쉽지만, 모든 키워드 조회수 데이터가 시계열로 분석하기에 적합하지 못한 경우도 있어요. 오늘은 데이터의 특성을 파악해 시계열 모델 적용 여부를 판단하고, 적합하지 않을 경우 대안이 뭐가 있는 정리 해 보겠습니다.

시계열 예측 모델로 키워드 조회수 분석하기
시계열 예측 모델로 키워드 조회수 분석하기

 

반응형

 

  키워드 조회수 데이터와 시계열 데이터

키워드 조회수 데이터의 일반적 특성

키워드 조회수 데이터는 사람들이 검색창에 입력한 키워드의 빈도를 시간별, 일별, 월별로 보여줍니다. 예를 들어, "아이폰 15"는 신제품 발표 때 폭발적으로 늘었다가 관심이 줄어들고, "겨울 코트"는 매년 겨울에 검색량이 올라가는 식이죠. 이런 데이터는 언뜻 시간에 따라 움직이는 것처럼 보이지만, 항상 규칙적인 패턴을 보이진 않습니다.

 

시계열 데이터의 의미와 조건

시계열 데이터는 시간 순서대로 기록된 데이터로, **과거 값이 미래 값과 어떤 관계성의 특징**이 있어야 합니다. 주식 가격(어제 가격이 오늘에 영향), 기온(계절에 따라 주기적 변화) 같은 경우가 대표적이죠. 즉, 데이터에 **연속성**, **자기상관성**(과거와의 연관성), **추세**나 **계절성**이 있어야 시계열로 다룰 수 있습니다.

 

두 데이터가 같을 때와 다를 때

  • 같을 때: "설날 음식"처럼 매년 1~2월에 검색량이 올라가는 키워드는 계절성이 뚜렷해 시계열로 볼 수 있습니다.
  • 다를 때: "특정 스캔들"처럼 한 번 터지고 끝나는 키워드는 과거 데이터가 미래를 예측하는 데 별 도움이 안 되죠. 이런 경우는 시계열 데이터라고 보기 어렵습니다.

 

  시계열로 적합한지 확인하는 방법

데이터를 바로 모델에 넣기 전에, 시계열로 다룰 수 있는지 확인해야 합니다.

  1. 데이터의 연속성 확인
    • 데이터가 매일, 매주 등 일정 간격으로 기록?
    • 중간에 날짜가 비어 있거나(결측치), 너무 불규칙하다면 시계열 분석이 힘들어집니다.
    • 예: 하루는 100건, 다음 날 데이터 없음, 그 다음날 50건 → 연속성 부족.
  2. 자기상관성 분석
    • 오늘 검색량이 어제나 지난주 검색량과 관련이 있을까?
    • 이를 확인하려면 ACF(자기 상관함수) 차트를 그려보세요. 과거 데이터와 현재 데이터가 상관관계가 없으면 시계열 모델로는 예측이 어렵습니다.
    • 예: "계절별 패션 키워드(예: '겨울 코트')"처럼 매년 겨울마다 반복되는 키워드는 자기상관성이 높을 수 있습니다. 하지만, "유행 밈"처럼 특정 시기만 급등하는 키워드는 자기상관성이 낮을 수 있습니다.
  3. 추세 확인
    • 시간이 지나면서 검색량이 점점 늘어나거나 줄어드는 경향을 보이는가?
    • 예: "전기차"는 기술 발전과 함께 점점 늘어나는 추세를 보일 수 있습니다.
  4. 계절성 유무
    • 특정 주기(월별, 계절별)로 반복되는 패턴을 보이는가?
    • 예: "수능 대비"는 매년 11월 근처에서 검색량이 급등합니다.

위 4가지 질문이 모두 "예"라면 시계열 모델로 분석할 가능성이 높습니다. "아니요"가 많다면 대안 모델을 고민해야 합니다.

 

 

  시계열 모델이 적합하다면 어떤 모델을 써야 할까?

대표적인 세 가지 모델을 간단히 정리합니다.

① ARIMA

  • 특징: 주로 비계절적 데이터나 약한 계절성 데이터에 적합. 과거 값과 오차를 활용해 예측.
  • 예시: "스마트폰"처럼 점진적으로 늘어나는 키워드.

② SARIMA

  • 특징: 명확한 계절성이 존재하는 데이터에 적합. 주기적 패턴이 뚜렷할 때 사용.
  • 예시: "여름휴가"처럼 여름마다 올라가는 키워드.

③ Prophet

  • 특징: 추세와 계절성을 자동으로 찾아주고, 휴일이나 이벤트를 반영 가능. 비전문가도 쉽게 사용.
  • 예시: "블랙프라이데이 세일"처럼 특정 날짜에 영향을 받는 키워드.

 

  시계열로 적합하지 않다면?

데이터가 불규칙하거나 자기상관성이 없으면 시계열 모델은 무의미합니다. 

① 머신러닝 모델 (XGBoost, LightGBM)

  • 특징: 과거 패턴보다 외부 요인(날씨, 뉴스, 이벤트 등)을 활용해 예측.
  • 예시: "마스크" 검색량은 팬데믹 뉴스나 공기질 데이터로 더 잘 설명될 수 있습니다.

② 이벤트 기반 모델

  • 특징: 갑작스러운 사건에 반응하는 키워드 분석에 적합. 예측보다 탐지가 목표.
  • 예시: "지진"은 발생 시점에만 검색량이 폭등.

③ 이상치 탐지 모델

  • 특징: 급등/급락을 감지해 트렌드 변화를 포착.
  • 예시: "연예인 스캔들"이 터졌을 때 바로 알아차리기.

 

 

 

검색 키워드 조회수 데이터는 겉보기엔 시계열처럼 보여도, 실제로는 그렇지 않을 때가 많습니다. 데이터 특성을 자세히 확인한 뒤 적합한 모델을 선택해야 합니다.

반응형