[E-17] 다음에 볼 영화 예측하기

Opening

최근에 사용했던 추천 서비스 중에서 가장 인상적이었던 서비스 사례에는 어떤 것이 있을까요?
- [예시 답안][예시 답안] 쿠팡
- 내가 본 상품의 연관 상품: 최근에 본 상품과 유사한 카테고리 상품들에 대해서 다른 패키지와 다른 가격대의 상품을 보여주어서 선택해서 고를 수 있어서 편리함
- 김윤경 님, 냉장고를 채울 때가 됐어요!: 정기적으로 반복 구매하는 상품 중 다시 구매하는 기간이 도래한 상품을 추천해 주어서 잊어버리지 않고 구매할 수 있어서 편리함
- 김윤경 님을 위한 추천상품: 다양한 카테고리별로 내가 검색했거나, 구매했던 상품과 유사한 상품을 다양하게 보여주는 것 같은데, 카테고리가 중구난방으로 나와서 쇼핑할 때 산만한 느낌이 들음

Negative Sampling이 무엇이고, Sub-Sampling과는 어떤 점에서 다른지 조사해 보고 토론해 봅시다.
- [예시답안]
- (목표) 원래대로 계산하려면 (단어수) * (임베딩 차원수) * 2 만큼의 Parameter가 필요하다. 단어 수가 엄청 많기 때문에 계산량이 폭증하여 계산을 줄일 필요가 있다.
- 1. Negative-Sampling
  - 주어진 단어 corpus 데이터 외에 임의로 만든 틀린(negative) corpus 데이터를 만들어서 이를 이용해서 학습하는 방법이다.
  - 모든 단어 쌍의 유사도를 계산하는 대신 후보군을 추려서 계산하는 식으로 소프트맥스 계산량 자체를 줄이는 방법이다. 컨텍스트에 등장하는 단어(Positive Sample)와 등장하지 않는 단어(Negative Sample) 5~20개 정도를 빈도수^r 에 비례하게 확률적 뽑아 이 단어들에 대해서만 소프트맥스를 계산하는 방법이다.
- 2. Sub-Sampling
  - 자주 등장하는 단어를 학습에서 제외하는 방법이다. 제외 확률을 sqrt(빈도수)에 반비례하게 만들어 드물게 나오는 단어는 기회가 있을 때 꼭 학습하고 자주 나오는 단어는 드물게 학습하는 방법이다.

이 노드의 프로젝트를 진행하면서 평가 지표로 Recall@20과 MRR@20 을 사용하고 있는데, 적용할 때 어떤 기준으로 적용해야 할지 논의해 보세요.
- [예시 답안]
- Recall@20과 MRR@20 지표 중에는 하나라도 내가 원하는 것이 있으면 고객이 만족할 경향이 있으므로, Recall@20 지표가 더 신뢰가 간다고 생각한다.
- Precision보다 Recall 지표를 선호하는 이유는, 앞으로 고객이 어떤 영화를 좋아할지 예측하는 것보다 (싫어할 수 있는 영화를 추천했을 때, 고객 만족도가 더 심하게 떨어질 가능성이 있으므로), 모델이 추천한 결과 중에서 얼마나 맞췄는지를 파악하는 Recall 지표가 더 영화 컨텐츠에 맞다고 생각한다.

Word2Vec 체크리스트

Word2Vec(이하 W2V)은 현재(2019.10.14) SOTA에서 사용되는 모델은 아니지만 Motivation이나 학습 방법, NLP에 필요한 기술들을 많이 다루고 있어 꼭 공부하고 넘어가야 하는 모델이 아닌가 싶습니다. W2V에서

orill.tistory.com

단어 임베딩 Word2Vec, Negative sampling, Subsampling

Issue

www.sallys.space

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`