본문 바로가기
성장하기

2장. 예측 모델링 리뷰 : [알고리즘 마케팅] 인공지능을 활용한 마케팅 자동화

by 예시카의 일상 블로그 2021. 1. 16.

 

★ 이 글은 모두연 풀잎스쿨 14기 "힙한 알고리즘 마케팅" 수업 교재인 [알고리즘 마케팅] 2장을 정리한 것입니다.

 

교재 내용이 좀 어려워서 '예측 마케팅'에 대해서 잘 정리된 블로그 글을 첨부합니다. 먼저 읽으시고 개념을 잡으신 뒤에 2장 내용을 읽으시면 도움이 되실 듯 합니다. 

 

★ 관련 내용 보기



02. 예측 모델링 리뷰

  • 배경: 알고리즘 마케팅을 실행하기 위해서는 '가용한 데이터에 기반을 둔 행동'과, '그에 따른 결과를 평가'하는 방법론이 필요하다.
  • 내용: 예측 모델링을 가능하게 하는 머신 러닝과 경제적 모델링의 기초를 공부하겠다. 
  • 목표: 마케팅에서 자주 사용되는 주요 예측 모델링의 능력과 한계를 공부하고, 다른 방법과의 관계를 설명하겠다. 

 

2.1 기술적, 예측적, 처방적 분석

  • 비즈니스 측면에서 데이터 분석 방법은 보통 3가지로 나뉜다. 
    • 기술적 분석: 데이터 요약, 데이터 품질 측정 및 관련성 분석을 위한 방법. 어떻게 관찰된 결과가 영향을 받는지, 최적화될 수 있는지를 설명하지 않음. (e.g. 세일즈 데이터 분석, 장바구니 분석 - 특정 제품과 같이 구매되는 다른 제품을 찾아냄)
    • 예측적 분석: 관찰된 데이터 또는 결과 이전의 확률을 사용해 가능한 결과들을 예측하는 데 집중함. 여기에서 예측은 꼭 미래에 대한 예측을 나타내는 것이 아님. 입력 변수의 변화가 생겼을 때 출력 변수의 변화를 예측하는 것을 포함함. (e.g. 수요 예측, 소비 성향 모델링 - 프로모션에 따른 고객의 구매 확률 예측)
    • 처방적 분석: 최적의 의사결정을 위해 의사 결정과 미래의 경과 사이의 의존성에 대한 모델링을 의미함 (e.g. 가격/이익 모델링 - 가격 할인이 얼마만큼의 이익을 가져다줄 것인지를 예측해 최적의 할인 가격을 결정하는 것)
  • 마케팅 영역에서 주로 이 3가지 데이터 분석 방법에 기반한 예측 모델링이 기본이 되어, 마케팅 프로세스를 자동화한다. 

 

2.2 경제적 최적화

  • 마케팅은 특정 비즈니스 행동을 취함으로써 특정 비즈니스 목적을 달성하고자 하는 활동이다. 
  • 마케팅 모델 설계를 위한 고려사항은 아래와 같다. 
    • 수리적 지표: 비즈니스 목표는 최적화할 수 있는 수리적 지표로 표현되어야 한다. 
    • 데이터 종합의 수준: 수집할 수 있는 데이터의 범위 또는 데이터 수집의 문제를 고려해야 한다. 
    • 모델 세분화 수준: 모델은 다양한 세분화 수준에서 설계될 수 있다. 같은 목적이라 하더라도 가능한 행동의 영역, 가용 데이터, 비즈니스 지식의 정도에 따라 모델이 달라질 수 있다. 

 

2.3 머신 러닝

  • 최적화의 목적은 데이터와 마케팅 전략의 함수로 표현될 수 있다. 
  • 경제적 모델링 프로세스는 모델의 목적과 직접 관련된 회사 또는 고객 지표 (e.g. 특정 프로모션에 반응하는 고객의 경향)만 상관한다. 대부분의 마케팅 전략과 그에 따른 행동은 지표를 결정하는 것이 아니라, 지표에 영향을 미치는 것이다. 따라서, 통제 또는 비 통제된 변수와 지표 사이의 기능적 의존관계에만 관심이 있다. 
  • 앞으로 감독 학습, 표현학습, 특정 마케팅 문제를 다루는 특수 모델들에 대해서 주로 설명하고 알고리즘적으로 깊이 들어가지는 않는다. 

 

2.4 감독 학습

  • 모델링 작업은 가능한 샘플 x, y로부터 추출되는 분포 p(y|x)의 학습으로 좁혀질 수 있다. 특징의 m차원 벡터를 확률 값으로 연결해 주는 함수 p는 연속적 y 값 또는 개별적 y 값의 확률 밀도 함수로 표현할 수 있다. 
  • 많은 응용에서 모든 분포 값을 알 필요는 없고 입력 x 값에 따라 y 값을 예측해주는 함수만 알면 된다. 
  • 이런 분포나 함수의 학습은 데이터가 학습 과정을 안내해 주는 응답 변수를 담고 있기 때문에 감독 학습이라고 한다. 
  • 감독 학습은 2가지로 나뉜다. 
    • 응답 변수가 유한한 등급으로 나뉘는 경우에는 분류 문제가 되고,
    • 응답 변수가 연속적 함수인 경우에는 회귀 문제가 된다. 

 

2.4.1 모수(Parametric)/비모수(Nonparametric) 모델

  • 예측 모델의 중요한 요소 중 하나는 모수/비모수 모델의 선택이다. 
  • 모수 모델은 데이터 분포가 몇 개의 모수에 의해 함수로 형태로 정해진다고 가정하기 때문에 분포 예측 문제는 모델 적합의 문제로 재정의 할 수 있다. 모델 적합은 분포 모델이 데이터에 최적 적합할 수 있게 모델 모수를 선택하는 것이다. 
  • 비모수적 모델은 학습 데이터가 많아짐에 따라 모수의 개수도 많아진다고 가정하고, 일부의 경우에는 각각의 데이터 포인트가 모수가 될 수 있다. (e.g. 가장 많이 사용하는 비모수 모델은 KNN 알고리즘이다.)
  • 비모수적 방법의 단점은 데이터 차원이 높아질수록 분석 공간이 더욱 희박(sparse)해진다는 것이다. 이런 문제는 데이터의 전체적인 모수를 학습할 수 있는 모수적 방법에 의해 해결될 수 있다. 

 

2.4.2 최대 가능성 추정

  • 모델 적합은 그 자체로 최적화 문제이기 때문에 최적화될 목적 함수를 정해야 한다. 
  • 최대 가능성은 데이터 생성 분포와 이것의 추정 값 사이의 차이를 최소화하는 것으로 표현된다. 
  • 최대 가능성은 모델 함수가 경험 함수와 일치하는 모델 모수의 최적화로 볼 수 있다. 

 

2.4.3 선형 모델

  • 특징과 응답 사이의 관계가 선형 함수로 표현된다는 점에서 선형 모델이다. 둘 사이의 관계가 선형이 아니라면 모델은 데이터를 정확하게 표현하지 못한다. 
  • 분류 모델은 클래스를 구분하는 경계가 직선으로 표현된다는 점에서 선형 모델이 된다. 경계가 직선으로 구분되지 못하면 모델은 데이터를 정확하게 표현하지 못한다.

 

2.4.3.1. 선형 회귀 분석

  • 회귀 분석 모델의 목표는 결과 y에 대한 x 값을 예측하는 것이고, 회귀 분석 모델은 선형 함수로 표현될 수 있다. 
  • 추정 오류를 최소화하는 것은 가능성을 최대화하는 것과 같은 의미이다. 
  • 선형 회귀 분석은 가장 기본적인 예측 모델링 방법으로 최대 가능성 원리에 기반을 두고 어떻게 모델 적합을 하는지에 관한 좋은 예가 된다. 

 

2.4.3.2 로지스틱 회귀와 이진 분류

  • 입력 x가 0과 1의 두 가지 값으로 정의되는 이진 분류 모델에 어떻게 최대 가능성 원리가 적용되는가? 목표는 2개 클래스를 구분하는 선분을 찾는 것이다. 
  • 이름에는 로지스틱이 들어있지만 모델은 분류 모델이다. 기울기 하강(Gradient Descent)과 같은 수학적 방법으로 최적의 가중치를 구한다. 
  • 로지스틱 함수는 2개의 커브가 데이터를 구분하지만 클래스의 결정 경계는 여전히 직선이다. 비모수 방법인 KNN 표면은 로지스틱보다 복잡한 모양을 띠고 있다. 로지스틱 회귀의 표면은 로지스틱 커브에 의해 표현되는 좀 더 단순한 모양이다. 

 

2.4.3.3 로지스틱 회귀와 다항 분류

  • 로지스틱 회귀는 여러 클래스가 있는 사례들로 확장될 수 있다. 
  • 실제 값의 벡터를 클래스 확률의 벡터로 사상하는 일반적인 방법으로 사용될 수 있다. 
  • 선형이 아닌 모델로 각 값이 해당 클래스의 상대적 비중을 결정하는 벡터를 생성하고, 이 비중들을 클래스 확률로 정규화하기 위해 '소프트맥스'라는 함수를 활용한다. 그러면, 각 클래스에 속할 확률을 더 했을 때 1이 되므로 특정 클래스에 속할 비중을 객관적으로 판단할 수 있다. 

 

2.4.3.4 나이브 베이즈 분류기

  • 나이브 베이즈 분류기는 텍스트 분류에 자주 사용하므로 검색 및 추천 서비스에 많은 도움이 된다. 
  • 텍스트 안에서의 단어는 서로 독립적이 아니지만 특징이 단어일 때 이 텍스트 분류에서 잘 작동한다. 특징 사이의 의존성이 특정한 구조를 갖고 있고, 서로 상쇄되기 때문이다. 
  • 일반적인 경우 나이브 베이즈 분류기는 비선형이다. 하지만 특정 조건하에서 선형인 경우도 많이 있으므로 종종 선형으로 기술되기도 한다. 

 

2.4.4 비선형 모델

  • 선형 모델은 비선형 데이터에서는 잘 작동하지 않는다. 보다 복잡한 문제에는 다른 해법이 필요하다.
  • 여기서 두 가지 방법을 살펴보고, 뉴럴 네트워크 등과 같은 방법은 후반부에서 다룬다. 

 

2.4.4.1 특징 사상과 커널 기법

  • 선형 모델이 아닌 데이터가 다른 공간으로 사상(mapping)되면 선형적이 될 수 있다. e.g. 선형적으로 분류되지 않는 1차원 데이터 세트를 2차원으로 사상할 경우 선형적으로 분류된다. 
  • 한 특징 공간을 더 높은 차원의 특징 공간으로 변환시키는 것을 '특징 사상'이라고 한다. 하나 또는 그 이상의 차원을 추가하는 것은 풀고자 하는 회귀 분석 또는 분류 알고리즘에 대한 보다 많은 유연성을 제공한다. 하지만 보다 높은 차원이 특징 벡터를 생산하는 사상 함수를 정의하는 방법이 필요하다. 
  • 커널은 원래 특징 벡터를 사이의 거리 함수이므로 차원의 확장성은 숨어 있다. 따라서 커널을 고차원이나 무한 차원으로 만들 수 있지만 이것은 계산적으로 간단하다. 이를 커널 트릭이라고 하고 많은 머신 러닝 알고리즘이 사용하고 있다. 
  • 커널 방법 중 가장 유명한 것은 서포트 벡터 머신(SVM: Support Vector Machine)이다. 기본적인 SVM은 선형 분류와 회귀 분석 방법이지만, 비선형 의존성(결정 경계선이 비선형)을 학습하기 위해 커널화 될 수 있다. 

 

2.4.4.2 적응 베이시스와 의사 결정 트리

  • 커널 기법의 단점은 커널 함수가 학습되는 것이 아니라 모수로서 정의돼야 한다는 것이다. 커널 함수는 결정 경계의 모양에 한계가 있고 여러 개의 커널 모수를 적용해 이를 보완할 수 있긴 하지만 때로는 다른 방법을 적용하는 것이 더 나을 수도 있다. 
  • 의사 결정 트리는 선형 결정 경계를 사용해 특징 공간을 계속 분할한다.  

 

2.5 표현 학습

  • 지금까지 공부했던 감독 학습 방법들은 입력 독립 변수와 응답 변수 사이의 관련성을 설명하는 데 도움이 된다. 
  • 하지만 입력 변수들은 데이터 탐구와 모델 트레이닝을 복잡하게 하는 얽힌 중복 구조를 가질 수 있다. 중복 데이터와 상관관계를 제거함으로써, 즉 얽혀 있는 데이터를 풀어냄으로써 모델링의 원래 목적에 부합하는 데이터 표현을 찾아낼 수 있다. 
  • 머신 러닝 방법론은 크게 감독과 비감독 머신 러닝으로 나뉜다.
    • 감독 방법론은 조건 확률 밀도 p(y|x)인 입력 변수와 응답 사이의 관련성을 다룬다. 
    • 비감독 방법의 목표는 비 조건적 밀도 p(x)를 모델링하기 위한 입력 데이터 구조 또는 패턴을 학습하는 것이다. 즉, 특징 또는 샘플 사이의 관계성을 찾기 위한 디자인 행렬만 분석한다.
    • 비감독 방법의 대표적인 것이 '클러스터링'이다. 클러스터링은 '유사성 지표'에 의존하여 데이터 샘플을 비슷한 특성을 갖고 있는 클러스터로 나누고 다른 특성을 갖고 있는 데이터는 다른 클러스터로 분류되게 하는 것이다. 
    • 비감독 학습은 데이터 탐구 및 분석을 위한 다양한 마케팅 응용에 사용된다. 고객 데이터 클러스터링과 그 결과 분석은 마케팅 분석에서 가장 중요한 기술 중 하나이다. 
    • 프로그램 기반 응용에서는 데이터 탐구 및 인터액티브 분석보다 자동화 쪽이 더 중요하다. 표현학습은 이 측면에서 유용하게 사용할 수 있는 비감독 방법이다. 

 

2.5.1 중요 요소 분석

  • 중요 요소 분석(PCA, Principal Component Analysis)은 압축되고 독립된 데이터 표현을 찾는 강력한 방법이다. PCA는 특정한 성질을 갖도록 데이터를 변형시키고 데이터의 구조를 설명하는 수학적인 방법이다. 

 

2.5.1.1 탈상관 관계

  • 고객의 취향과 생각을 완벽히 파악할 수 없지만, 고객의 취향과 생각, 결정들을 반영하는 구매와 같은 특정한 신호를 관찰할 수 있다. 이런 방법으로 얻은 데이터는 중복된 데이터를 포함할 것이다. 마치 동일한 물체를 다양한 각도로 촬영한 사진들처럼 중복된 내용을 포함하고 서로 관련이 있는 것처럼 차원들은 서로 관련이 있을 것이다. 
  • 이 문제를 통계적으로 독립적인, 보다 적은 수의 특징을 찾고 중복이 적으며 보다 구조화된 데이터를 만드는 것으로 변환시킬 수 있다. PCA는 각 특징 값들이 상관관계가 없이 통계적으로 독립적이며 동시에 정규분포를 따른다는 가정하에 이런 문제에 적용할 수 있다.

 

2.5.1.2 차원 수 감소

  • PCA의 중요한 특징은 중요 벡터가 분산의 크기로 정렬된다는 것이다. 이는 고분산 차원이 보통 저분산 차원보다 더 많은 정보를 담고 있고 보다 강한 신호를 보낸다는 점에서 의미가 있다. 
  • PCA에 의해 상관관계가 해제된 경우에는 z1과 z2는 동일한 중요성을 갖지 않고, z2는 정보 유실이 별로 없는 상태에서 버려질 수 있다. 이 성질은 여러 가지 방법으로 사용될 수 있다. 
    • 첫 번째 응용은 차원 수 감소다. 즉 m차원 데이터가 m보다 작은 k차원 데이터로 변화되는 것이다. 
    • 두 번째 응용은 디자인 행렬의 저 차원(row rank approximation) 근사다. 차원 수 감소와 마찬가지로 Vk를 만들기 위해 V의 가장 덜 중요한 열을 제거할 수 있다. 
  • 저 차원 추정은 희박하거나 잡음이 많거나 중복이 많은 데이터를 처리하는 데 도움이 되므로, 특히 검색과 추천 등과 같은 마케팅 응용에서 유용하다. 저 차원 추정은 두 개체 사이의 상호 작용을 설명하는 데이터에서 많이 사용한다. 
    • 행렬로 고객(행)과 제품(열) 사이의 구매 횟수(상호 작용 지표)를 행렬로 표현할 수 있다. 이 행렬은 매우 띄엄띄엄(sparse) 채워져 있다. 왜냐하면 고객 레벨에서 구매는 가능한 제품들 중 일부에서만 이뤄지지 때문이다. 그리고 많은 제품은 서로 비슷하고, 많은 고객은 비슷한 구매 성향을 갖기 땜누에 데이터 사이의 상관관계가 높다. 
    • 검색 환경에서 제품 설명과 같은 텍스트들은 각 단어에 해당하는 벡터들로 모델링 된다. 여기서 벡터의 길이는 사용한 전체 단어 수와 같다. 따라서 텍스트의 집합은 텍스트 문서(행), 단어(열)의 행렬로 표현된다. 이 행렬은 짧은 문장일 경우 희박하고, 비슷한 단어들은 자주 함께 등장하므로 중복이 많다. 
  • 행렬의 각 원소는 고객과 제품 사이, 단어와 문서 사이의 관련성 척도다. 원데이터는 잡음이 많고 불완전하지만, 관련성을 벡터의 곱으로 표현해주면, 각 상의 관련성을 예측하는 깔끔한 관련성 모델을 만들 수 있다. 관련성 추정 오류를 최소화하는 벡터의 저 차원 근사를 사용하게 되면 희박하고 중복이 많은 표현을 압축이 적도 밀도가 높은 벡터로 바꿔줄 수 있다. 이렇게 차원 수 감소는 앞으로 자주 사용할 강력한 모델링 기술이다. 

 

2.5.2 클러스터링

  • 클러스터링은 비슷한 개체들을 묶어주는 과정이다. 다른 말로 하면 클러스터 안의 데이터는 높은 유사성을 갖고, 서로 다른 클러스터의 데이터는 낮은 유사성을 갖도록 데이터를 분할하는 과정이다. 
  • 고객 세그멘테이션은 가장 빈번하게 사용되는 클러스터링 사례이다.
    • 고객 세그멘테이션은 고객을 인구 통계학적 특성, 고객 행동, 구매 행동 등에 따라 비슷한 지표를 갖고 있는 몇몇의 클러스터로 나누는 것이다.
    • 각각의 세그먼트는 프로파일 벡터 공간(Profile Vector Space)의 중심과 특징 값의 차이에 의해 설명되고, 전형적인 클러스터는 '디지털 채널을 주로 사용하는 30세 이하의 가격에 민감한 고객'과 같은 방법으로 서술된다. 
    • 따라서 세그멘테이션은 수동적인 분석에 사용할 수 있게 대규모의 데이터를 몇 개의 포인트로 요약할 수 있게 해 준다. 
    • 세그멘테이션은 기업의 마케팅 분석에서 가장 전략적인 프로젝트 중 하나다. 왜냐하면 기업의 마케팅 전략은 고객 세그먼트와 그에 따른 필요를 분석하는 것이기 때문이다. 
    • 전략적 분석보다 실행에 중점을 둔 프로그램 응용은 세그멘테이션의 결과를 추가 특징으로 사용한다. 예를 들어 나이 소득, 월간 지출 등과 같은 변수를 갖고 있는 고객 프로파일 벡터는 할인 사냥꾼(bargain hunter), 브랜드 충성 패셔니스타 (brand loyal fahionista) 등과 같은 세그먼트 이름이 붙여진다. 
    • 이런 추가 특징들은 다른 특징과 마찬가지로 예측의 정확성과 해석 가능성을 높여주기 위해 예측 모델링에 사용할 수 있다. 이 측면에서 클러스터링은 특징 엔지니어링이 일환으로 간주될 수 있다. 

데이터 분포를 이용한 클러스터링 예시

 

2.6 다른 특수 모델들

  • 표준 감독 학습과 비감독 학습 방법들은 마케팅 응용에서 발생하는 전형적인 모델링의 필요성을 충족시킨다. 대부분의 마케팅 문제들은 상대적으로 깔끔한 방법으로 예측 모델링 기법을 적용할 수 있다. 
  • 하지만 몇몇 경우는 비즈니스 목적과 원시적인 예측 모델링 사이의 되어주는 특별한 데이터 분석 기법 도는 복잡한 경제적 모델이 필요하다. 
  • 이 중 일부는 경제학, 다른 것들은 게임 이론, 생물학, 사회 과학에서 개발됐다. 여기에서는 머신 러닝 툴킷에 추가되는 몇 가지 특별한 방법을 살펴보자.

 

2.6.1 고객 선택 이론

  • 고객 선택의 이해와 예측은 마케팅 및 경제학에서 가장 중요한 문제 중 하나다. 왜냐하면 수요의 개념이 제대로 이해되지 않으면 제품 디자인, 상품 구성 기획, 유통 등에 관한 중요한 질문에 답할 수 없기 때문이다. 
  • 이 장에서는 선택의 개수가 정해져 있는 개별 선택 문제들을 살펴본다. 예를 들어 몇 가지 제품 중에서 선택하는 소비자, 특정 서비스를 구독하느냐 안 하느냐의 문제 등이다.
  • 의사 결정자가 일관된 방법으로 최상의 옵션을 선호하는 의사 결정을 한다고 가정한다. 이 경우, 의사 결정자에게 주어진 옵션의 효용에 비례하는 가상의 수리적 지표를 만들 수 있다. 
  • 고객 선택 모델은 개인과 대안 사이의 알려진 성질을 활용해 만들어진다. 

 

2.6.1.1 다항 로지트 모델

  • MNL(Multinomial Logit Model)라고도 하는 다항 로지트 모델은 잔여 오류가 독립이자 검벨 분포를 따른다고 가정하는 랜덤 효용 모델에서 나왔다.
  • 검벨 분포는 어떤 분포에서 랜덤 하게 추출되는 최댓값 또는 최솟값을 설명하는 데 사용한다.
    • 예를 들어 정규 분포를 따르는 배치에서 랜덤 한 숫자의 배치를 뽑고 그 배치에서 최댓값을 선택하면 이 최댓값의 분포는 검벨 분포가 된다. 이는 지진, 제품 결함, 기게 설비 고장 등과 같은 극단적인 사건을 설명하는 데 유용하다.
    • 예를 들어 배치로 먹는 양을 만드는 제약 회사가 있다고 가정해 보자. 이 회사는 어떤 배치의 화학 성분이 특정 값 이상이 될 확률을 구하는 데 검벨 분포를 사용할 수 있다. 
  • 다항 로지트 모델은 아래와 같은 중요한 성질이 있다. 
    • 관계없는 다른 대안의 독립성: 선택 모델링이 답해야 하는 가장 중요한 질문 중 하나는 '한 가지 대안의 효용이 어떻게 다른 대안에 영향을 미치는가?'이다. 예를 들어 어떤 제조사는 가격을 인하하거나 신제품을 출시했을 때 얼마만큼의 고객 셰어를 경쟁사로부터 뺏어올 수 있는지 알고 싶을 것이다. MNL 모델은 한 대안의 확률을 증가시키거나 감소시킬 때 다른 대안에게 일률적으로 영향을 미칠 것이라고 가정한다. 
    • 효용 모델의 완전성: 잔존 오차의 독립성은 효용 모델이 선택에 영향을 미치는 모든 요인을 설명한다고 가정한다. 
    • 한계 선택 확률: 의사 결정자가 한계 상태, 즉 확률이 0.5 근처이면 작은 효용의 변화가 선택 확률에 커다란 영향을 미친다는 것을 의미한다. 선택 확률이 매우 높거나 낮으면 효용이 급격하게 변하더라도 확률에는 큰 변화가 없다. 예를 들어 주문 배달을 제공하는 온라인 소매 업체는 중간 정도의 마켓 셰어를 갖고 있는 지역에 투자할 때 높은 ROI를 기대할 수 있고, 마켓 셰어가 매우 높거나 낮은 지역에 대한 투자는 ROI가 낮을 것이다. 

 

2.6.1.2 다항 로지트 모델 추정

  • 효용 모델의 모수들이 학습 데이터 샘플로부터 어떻게 추정되는지 살펴보자. n 명의 의사결정자 j 개의 대안 및 실제 선택으로 이뤄진 데이터로 구성된 효용 모델에 포함된 특징 Xni을 알고 있다고 가정해 보자. Yni는 의사 결정자 n 명의 대안 j에 대한 관찰된 선택이다. 의사 결정자가 이 대안을 선택했으면 1, 그렇지 않았으면 0의 값을 갖는다. 

 

2.6.2 생존 분석

  • 가장 기본적인 로지스틱 회귀와 같은 분류 방법들은 '고객 행동의 확률을 추정'하는 강력한 툴이다. 예를 들어 고객이 홍보 이메일에 반응할 확률은 구매 횟수와 같은 고객의 특징을 설정하고 고객이 이전 이메일에 응답했는지에 대한 이진 변수를 응답 레이블로 설정해 모델을 만들 수 있다. 이런 방법은 실제로 많이 사용하고 앞으로 많이 다루겠지만 몇 가지 단점도 있다. 
    • 첫째, 많은 마케팅 응용에서 사건의 확률 대신 사건이 일어날 때까지 시간을 추정하는 것이 더 편리하고 능률적이다. 예를 들어 마케팅 시스템이 다음 구매까지 또는 구독 취소까지의 시간을 추정하는 것이 이런 사건들이 일어날 확률을 계산하는 것보다 더 유용하다. (왜냐 하면, 타이밍적으로 이에 대한 대응 행동을 할 수 있으므로)
    • 둘째, 마케팅 데이터는 분류 모델에 의해 제대로 분석될 수 없는 미지 데이터를 많이 포함하고 있다. 구독 예로 돌아가 취소하지 않은 고객과 (취소할 예정이지만) 아직 취소하지 않은 고객을 구분하는 것은 거의 불가능하다. 왜냐하면 우리는 특정 시점의 예측 모델을 개발하는 것일 뿐, 모든 고객의 결과가 알려질 때까지 기다리는 것은 아니기 때문이다. 우리는 이미 과거에 취소한 고객을 알고 그들을 부정적인 샘플로 분류하지만 나머지 고객들은 취소할 것인지 안 할 것인지 모르기 때문에 그들을 긍정이나 부정으로 분류하는 것은 무의미하다. 
    • 따라서, 현재 관찰된 결과에 따라 결정된 이진법 변수에 의해 분류 모델을 사용하는 것은 정확하지 않고, 이런 문제를 해결하려면 다른 통계적 방법이 필요하다. 
  • 사건까지의 시간(Time-to-event) 모델링과 불충분 데이터 처리에 대한 체계는 원래 의료 및 생물학 분야에서 발전됐다. 이런 연구들의 목적은 특정 의료 행위 이후의 생존을 연구하는 것이었으므로 이 연구는 생존 분석으로 알려졌다. 
    • 특정 의료 행위 이후의 생존을 연구하는 것이었으므로 생존 분석으로 알려졌다. 특정 사건(e.g. 죽음)이 일어날 때까지의 시간을 예측하고 이 시간이 치료의 성질, 개인 그리고 다른 독립 변수들에 따라 어떻게 달라지는지를 수학적으로 설명하는 것이다. 
    • 이 가정은 구매와 같은 마케팅 사건에는 정확히 들어맞지 않지만 첫 번째/두 번째/다음 구매에 대한 모델을 별도로 구성함으로써 이 문제를 해결할 수 있다. 이 시점에서 사건의 분포만을 다룰 뿐, 생존 시간과 치료/고객의 성질 사이의 상관관계는 다루지 않는다. 
  • 마케팅에서 보는 치료는 인센티브 또는 프로모션이다. 이벤트는 구매, 할인 오퍼 사용, 구독 취소 또는 마케터가 영향을 미칠 수 있는 다른 행동이다. 치료의 결과는 응용에 따라 특정 사건에 가속 또는 감속될 수 있다. 광고의 목적은 구매 행동을 앞당기는 데 있고, 고객 유지 오퍼의 목적은 취소 행동을 뒤로 미루는 데 있다. 
  • 어떤 이벤트는 연구 시점에 관찰되지 않았기 때문에 미정이다. 미정 결과는 결과가 분석 시점에 알려지지 않았기 때문일 수도 있고 (고객은 아직 구매를 하지 않았지만 나중에 구매할 수도 있다) 고객 데이터가 없어졌기 때문일 수도 있다.(e.g. 브라우저 쿠키 제거 등) 미정 결과의 레코드를 삭제된 기록이라고 한다. 분석 시점에는 치료 시점 데이터와 선택 사항인 사건 발생 시점 데이터가 있다. 

 

2.6.2.1 생존 함수

  • 생존 시간의 분포는 생존 함수라는 생존 확률에 의해 기술된다. 생존 함수는 개인이 시작 시간부터 시간 t까지 생존할 확률로 정의된다. 생존 함수는 고객 그룹의 역학을 설명하는 기본적인 특징이다. 생존 함수가 급격히 떨어진다는 것은 대부분의 고객이 특정 이벤트를 곧 경험한다는 뜻이다. 생존 함수가 천천히 떨어지면 대부분의 고객은 특정 이벤트를 상대적으로 먼 미래에 경험한다. 
  • 생존 확률은 특정 시간에 구매하지 않을 확률이다. 생존 커브는 고객의 역학을 요약하고, 각 고객 그룹의 커브는 서로 비교될 수 있다. 예를 들어 판촉이 행해진 고객의 생존 커브는 판촉이 행해지지 않은 고객의 생존 커브와 비교될 수 있고, 판촉 효과는 그래프로 측정될 수 있다. 

 

2.6.2.2 위험 함수

  • 생존 함수는 (사망) 이벤트가 일어나지 않을 확률, 즉 생존 확률을 다루지만 위험 함수는 (사망) 이벤트가 발생할 위험을 다룬다. 이 관점은 치료와 같은 다른 요소들이 생존 시간에 어떻게 영향을 미치는지를 분석하는 데 용이하다. 

 

2.6.2.3 생존 분석 회귀

  • 기본적인 생존 함수와 위험 함수는 특정 고객군의 퍼포먼스를 설명하거나 고객군 사이의 차이를 설명하는 데 사용할 수 있다. 이는 어떻게 생존 및 위험 함수가 마케팅 활동이나 고객 특징에 따라 영향을 받는지 이해하고 예측하는 데 충분하지 않다.
  • 이 문제는 생존 시간이 독립 변수인 관찰 요소의 함수로서 예측된다는 점에서 분류 및 회귀 분석 문제와 비슷하다. 

 

2.6.3 경매 이론

  • 경매 서비스의 기본 목표는 광고 화면과 같은 제한된 자원을 대상으로 구매자 간의 경쟁을 붙이는 것이다. 이런 문제에 대한 일전적인 접근 방법은 각 구매자가 입찰을 하고 자원은 최고가를 제시한 입찰자에게 파는 것이다. 
  • 입찰자는 입찰되는 자원이 특정한 가치가 있고 그들은 그 가치 이하로 입찰하기 원하기 때문에 경매에 참여한다. 입찰자는 물건의 가치를 알맞게 추정하는 것이 매우 중요하다. 경매는 경매 방식에 따라 다음과 같은 종류로 나뉜다. 
    • 개인적인 가치: 각 입찰자는 다른 입찰자와 상관없이 독립적으로 물건을 평가하고 입찰가는 다른 입찰가의 입찰가와 상관없이 독립적이다. 
    • 상호 의존적인 가치: 물건의 실제 가치는 입찰자에게 알려져 있지 않고, 각 입찰자는 각자 물건의 가치를 추정하지만 다른 입찰에 대한 정보는 추정에 도움을 준다. 다른 입찰자가 더 낮은 가격에 입찰한 것을 알게 될 경우 입찰가를 낮출 수 있다. 
    • 공통 가치: 가치(석유의 매장량, 장기 회사 실적 등)는 입찰자들에게 알려지고 모든 입찰자에게 동일하게 적용된다. 
  • 가치는 입찰자 간에 종종 상호 의존적이지만 다른 입찰가를 알았을 때 이를 활용할 수 있는 입찰자의 능력은 경매 종류에 따라 달라진다. 네 가지의 이론적으로 연구되고 실제로 많이 사용되는 주요 경매 방식은 다음과 같다. 
    • 공개 입찰: 모든 입찰자는 다른 입찰가를 볼 수 있다. 
      • 공개 가격 상승 경매(Open ascending-price auction, 영국식 경매): 입찰가는 낮은 가격부터 올라간다.
      • 공개 가격 하강 경매(Open descending-price auction, 네덜란드식 경매): 입찰가는 높은 가격부터 내려간다.
    • 비공개 입찰: 입찰자는 다른 입찰가를 볼 수 없다. 
      • 최고가 비공개 경매(First-price sealed-bid auction): 최고가를 제시한 입찰자가 승리하고 입찰가를 지불한다. 
      • 두 번째 최고가 비공개 경매(Second-price sealed-bid auction): 최고가를 제시한 입찰자가 승리하지만, 최고가 입찰자는 두 번째로 높은 입찰가를 지불한다. 

 

2.7 요약

  • 많은 마케팅 문제는 비즈니스 결과가 최적화 대상이고 비즈니스 액션이 변수인 최적화 문제로 표현될 수 있다. 
  • 액션과 비즈니스 결과 사이의 의존성은 과거 데이터로부터 학습될 수 있다. 이제는 감독 학습 모델로 해결될 수 있다. 
  • 감독 학습의 주요 목표는 입력이 주어졌을 때 조건 분포를 예측하는 것이다. 가장 가능성이 있는 결괏값을 찾는 것으로 압축된다. 감독 학습의 두 가지 주요 분야는 분류와 회귀 분석이다. 
  • 예측 모델 모수의 숫자는 정할 수도 있고(모수 모델) 학습 데이터의 크기에 따라 증가할 수도 있다.(비모수 모델)
  • 모델 적합은 관찰 데이터가 모델 분포를 따르는 확률을 최대화하기 위해 모델 모수를 선택하는 최적화 문제로 간주될 수 있다. 
  • 많은 감독 학습 문제는 선형 모델로 풀 수 있다. 선형 모델은 입력과 출력 사이의 관계가 선형 함수이거나 클래스 사이의 경계가 선형이라는 것을 의미한다. 가장 기본적인 선형 모델은 선형 회귀와 로지스틱 회귀다. 
  • 비선형 의존 관계와 의사 결정 경계는 비선형 모델에 의해 분석될 수 있다. 비선형 모델의 예는 커널 기법, 의사 결정 트리, 뉴럴 네트워크 등이 있다. 
  • 마케팅 데이터는 서로 다른 특징과 지표가 같은 마케팅 프로세스의 연장선상에 있을 수 있으므로 중복 데이터 구조를 가질 수 있다. 이런 구조는 분석과 모델링에 적합하지 않으므로 상관관계를 제거하거나 데이터 차원을 낮추거나 데이터 포인트와 개체를 클러스터링 하는 방법으로 더 나은 데이터를 표현할 수 있다. 이런 작업 중 일부는 주요 요소 분석과 클러스터링 같은 비감독 학습으로 가능하다.
  • 몇몇 마케팅 분석은 일반적인 머신 러닝으로는 해결되기 어렵고 보다 전문적인 모델과 테크닉이 필요하다. 이런 모델의 예로는 고객 선택 모델, 생존 분석, 경매 모델 등이 있다.  

댓글