Opening
- 최근에 사용했던 추천 서비스 중에서 가장 인상적이었던 서비스 사례에는 어떤 것이 있을까요?
- [예시 답안][예시 답안] 쿠팡
- 내가 본 상품의 연관 상품: 최근에 본 상품과 유사한 카테고리 상품들에 대해서 다른 패키지와 다른 가격대의 상품을 보여주어서 선택해서 고를 수 있어서 편리함
- 김윤경 님, 냉장고를 채울 때가 됐어요!: 정기적으로 반복 구매하는 상품 중 다시 구매하는 기간이 도래한 상품을 추천해 주어서 잊어버리지 않고 구매할 수 있어서 편리함
- 김윤경 님을 위한 추천상품: 다양한 카테고리별로 내가 검색했거나, 구매했던 상품과 유사한 상품을 다양하게 보여주는 것 같은데, 카테고리가 중구난방으로 나와서 쇼핑할 때 산만한 느낌이 들음
Check-up 항목
- Negative Sampling이 무엇이고, Sub-Sampling과는 어떤 점에서 다른지 조사해 보고 토론해 봅시다.
- [예시답안]
- (목표) 원래대로 계산하려면 (단어수) * (임베딩 차원수) * 2 만큼의 Parameter가 필요하다. 단어 수가 엄청 많기 때문에 계산량이 폭증하여 계산을 줄일 필요가 있다.
- 1. Negative-Sampling
- 주어진 단어 corpus 데이터 외에 임의로 만든 틀린(negative) corpus 데이터를 만들어서 이를 이용해서 학습하는 방법이다.
- 모든 단어 쌍의 유사도를 계산하는 대신 후보군을 추려서 계산하는 식으로 소프트맥스 계산량 자체를 줄이는 방법이다. 컨텍스트에 등장하는 단어(Positive Sample)와 등장하지 않는 단어(Negative Sample) 5~20개 정도를 빈도수^r 에 비례하게 확률적 뽑아 이 단어들에 대해서만 소프트맥스를 계산하는 방법이다.
- 2. Sub-Sampling
- 자주 등장하는 단어를 학습에서 제외하는 방법이다. 제외 확률을 sqrt(빈도수)에 반비례하게 만들어 드물게 나오는 단어는 기회가 있을 때 꼭 학습하고 자주 나오는 단어는 드물게 학습하는 방법이다.
- 자주 등장하는 단어를 학습에서 제외하는 방법이다. 제외 확률을 sqrt(빈도수)에 반비례하게 만들어 드물게 나오는 단어는 기회가 있을 때 꼭 학습하고 자주 나오는 단어는 드물게 학습하는 방법이다.
Closing
- 이 노드의 프로젝트를 진행하면서 평가 지표로 Recall@20과 MRR@20 을 사용하고 있는데, 적용할 때 어떤 기준으로 적용해야 할지 논의해 보세요.
- [예시 답안]
- Recall@20과 MRR@20 지표 중에는 하나라도 내가 원하는 것이 있으면 고객이 만족할 경향이 있으므로, Recall@20 지표가 더 신뢰가 간다고 생각한다.
- Precision보다 Recall 지표를 선호하는 이유는, 앞으로 고객이 어떤 영화를 좋아할지 예측하는 것보다 (싫어할 수 있는 영화를 추천했을 때, 고객 만족도가 더 심하게 떨어질 가능성이 있으므로), 모델이 추천한 결과 중에서 얼마나 맞췄는지를 파악하는 Recall 지표가 더 영화 컨텐츠에 맞다고 생각한다.
참고자료
'성장하기' 카테고리의 다른 글
[E-19] BERT로 영화리뷰 감성분류하기 (0) | 2021.03.16 |
---|---|
[E-18] 문자를 읽을 수 있는 딥러닝 (0) | 2021.03.11 |
[E-16] 흐린 사진을 선명하게 (0) | 2021.03.04 |
[E-15] 트랜스포머로 만드는 대화형 챗봇 (0) | 2021.03.01 |
[E-14] 폐렴아 기다려라! (0) | 2021.02.25 |
댓글