Opening
- 지난 시간에는 이미지 데이터를 다루어 보았는데요. 오늘은 텍스트 데이터를 다루어 볼 것입니다.
- 다른 데이터도 마찬가지이겠지만 텍스트 데이터는 전처리 과정이 조금은 복잡하고 여러울 수 있습니다.
- 모델이 학습할 수 있는 형태로 바꾸어 주는 전처리 과정을 이번 노드를 통해서 익숙해지셨으면 좋겠습니다.
- Encoder 와 Decoder란 무엇일까요? 텍스트 데이터에서는 어떻게 이 용어가 사용될까요??
- 텍스트 데이터를 처리할 때 패딩이 무엇일까요? 왜 필요할까요?
- 소비자의 감성 분석을 응용할 수 있는 분야에는 어떤 것이 있을까요?
- 상품 후기 분석을 통한 상품 개선
- 신규 상품 기획을 위한 상품 카테고리별 고객 정서 파악
- 경쟁사 대비 브랜드 정성 지수 모니터링 등
Check-up 항목
- 학습 노드에 Conv1D를 활용한 텍스트 처리에 대해서도 나오는데 실제 산업현장에서 쓰인 사례에는 어떤 것들이 있을까요?
- 1D CNN 욕설 필터 사례 : www.inven.co.kr/webzine/news/?news=198156
- 학습노드에서 다양한 모델사용을 소개했으니, 프로젝트에서도 다양한 모델을 사용해 결과를 보고 모델마다 왜 다르게 평가되는지 토론을 유도하면 좋을 것 같습니다.
- Padding 방식을 문장 뒷쪽('post')과 앞쪽('pre') 중 어느쪽으로 하느냐에 따라 RNN을 이용한 딥러닝 적용 시 성능 차이가 발생합니다. 두 가지 방식을 한번씩 다 적용해서 RNN을 학습시켜 보면서 그 결과를 비교해 보세요. 어떤 방식이 더 유리한가요? (pre가 더 유리함)
- 텍스트 데이터를 임베딩 한다는 것은 어떤 의미일까요? 데이터 처리에 어떤 장점이 있을까요?
- 단어 임베딩은 단어의 의미를 효과적으로 표현하기 때문에 one-hot encoding보다 학습 성능을 높일 수 있다.
- 또한 대량의 데이터로 단어 임베딩을 미리 학습 시켜 두면, 문서 분류와 같은 과제에서 더 적은 데이터로도 학습된 임베딩을 사용하여 높은 성능을 낼 수 있다.
Closing
- 노드를 학습하실때는 영어를 전처리하여 한 단어를 4차원 혹은 16차원으로 임베딩하는 것을 해보았습니다. 이번에 프로젝트로 제출하실 과제는 정제되지 않은 한국어 텍스트들을 가지고 똑같이 벡터로 표현하는 것인데 전처리 과정이 조금 까다롭습니다.
- 프로젝트를 시작하신 분들 중에 전처리에서 힘들었던 점이나 의문이 들었던 점이 있으실까요?
- 감성 분석 모델의 성능을 최대한으로 끌어올릴 수 있는 방법에는 어떤 것들이 있는까요?
- Word2Vec 임베딩 pre-trained 모델을 활용하면 그렇지 않은 경우보다 5% 이상의 성능 향상이 가능합니다.
- 적절한 모델 구성, 하이퍼파라미터 조정 등 다양한 방법을 시도해 보세요.
'성장하기' 카테고리의 다른 글
2장. 예측 모델링 리뷰 : [알고리즘 마케팅] 인공지능을 활용한 마케팅 자동화 (0) | 2021.01.16 |
---|---|
파타고니아, 파도가 칠 때는 서핑을 (0) | 2021.01.14 |
리테일 4.0 필립 코틀러 (0) | 2021.01.13 |
[E-3] 카메라 스티커앱을 만들어 봅시다 (0) | 2021.01.12 |
모두연 풀잎 스쿨의 퍼실리테이터란? (2) | 2021.01.12 |
댓글