[E-4] 영화 리뷰 텍스트 감성 분석하기

Opening

지난 시간에는 이미지 데이터를 다루어 보았는데요. 오늘은 텍스트 데이터를 다루어 볼 것입니다.
다른 데이터도 마찬가지이겠지만 텍스트 데이터는 전처리 과정이 조금은 복잡하고 여러울 수 있습니다.
모델이 학습할 수 있는 형태로 바꾸어 주는 전처리 과정을 이번 노드를 통해서 익숙해지셨으면 좋겠습니다.
Encoder 와 Decoder란 무엇일까요? 텍스트 데이터에서는 어떻게 이 용어가 사용될까요??
텍스트 데이터를 처리할 때 패딩이 무엇일까요? 왜 필요할까요?
소비자의 감성 분석을 응용할 수 있는 분야에는 어떤 것이 있을까요?
- 상품 후기 분석을 통한 상품 개선
- 신규 상품 기획을 위한 상품 카테고리별 고객 정서 파악
- 경쟁사 대비 브랜드 정성 지수 모니터링 등

학습 노드에 Conv1D를 활용한 텍스트 처리에 대해서도 나오는데 실제 산업현장에서 쓰인 사례에는 어떤 것들이 있을까요?
- 1D CNN 욕설 필터 사례 : www.inven.co.kr/webzine/news/?news=198156
학습노드에서 다양한 모델사용을 소개했으니, 프로젝트에서도 다양한 모델을 사용해 결과를 보고 모델마다 왜 다르게 평가되는지 토론을 유도하면 좋을 것 같습니다.
Padding 방식을 문장 뒷쪽('post')과 앞쪽('pre') 중 어느쪽으로 하느냐에 따라 RNN을 이용한 딥러닝 적용 시 성능 차이가 발생합니다. 두 가지 방식을 한번씩 다 적용해서 RNN을 학습시켜 보면서 그 결과를 비교해 보세요. 어떤 방식이 더 유리한가요? (pre가 더 유리함)
텍스트 데이터를 임베딩 한다는 것은 어떤 의미일까요? 데이터 처리에 어떤 장점이 있을까요?
- 단어 임베딩은 단어의 의미를 효과적으로 표현하기 때문에 one-hot encoding보다 학습 성능을 높일 수 있다.
- 또한 대량의 데이터로 단어 임베딩을 미리 학습 시켜 두면, 문서 분류와 같은 과제에서 더 적은 데이터로도 학습된 임베딩을 사용하여 높은 성능을 낼 수 있다.

노드를 학습하실때는 영어를 전처리하여 한 단어를 4차원 혹은 16차원으로 임베딩하는 것을 해보았습니다. 이번에 프로젝트로 제출하실 과제는 정제되지 않은 한국어 텍스트들을 가지고 똑같이 벡터로 표현하는 것인데 전처리 과정이 조금 까다롭습니다.
프로젝트를 시작하신 분들 중에 전처리에서 힘들었던 점이나 의문이 들었던 점이 있으실까요?
감성 분석 모델의 성능을 최대한으로 끌어올릴 수 있는 방법에는 어떤 것들이 있는까요?
- Word2Vec 임베딩 pre-trained 모델을 활용하면 그렇지 않은 경우보다 5% 이상의 성능 향상이 가능합니다.
- 적절한 모델 구성, 하이퍼파라미터 조정 등 다양한 방법을 시도해 보세요.

2장. 예측 모델링 리뷰 : [알고리즘 마케팅] 인공지능을 활용한 마케팅 자동화 (0)	2021.01.16
파타고니아, 파도가 칠 때는 서핑을 (0)	2021.01.14
리테일 4.0 필립 코틀러 (0)	2021.01.13
[E-3] 카메라 스티커앱을 만들어 봅시다 (0)	2021.01.12
모두연 풀잎 스쿨의 퍼실리테이터란? (2)	2021.01.12