본문 바로가기
성장하기

[E-4] 영화 리뷰 텍스트 감성 분석하기

by 예시카의 일상 블로그 2021. 1. 13.

Opening


  • 지난 시간에는 이미지 데이터를 다루어 보았는데요. 오늘은 텍스트 데이터를 다루어 볼 것입니다.
  • 다른 데이터도 마찬가지이겠지만 텍스트 데이터는 전처리 과정이 조금은 복잡하고 여러울 수 있습니다.
  • 모델이 학습할 수 있는 형태로 바꾸어 주는 전처리 과정을 이번 노드를 통해서 익숙해지셨으면 좋겠습니다.
  • Encoder 와 Decoder란 무엇일까요? 텍스트 데이터에서는 어떻게 이 용어가 사용될까요??
  • 텍스트 데이터를 처리할 때 패딩이 무엇일까요? 왜 필요할까요?
  • 소비자의 감성 분석을 응용할 수 있는 분야에는 어떤 것이 있을까요?
    • 상품 후기 분석을 통한 상품 개선
    • 신규 상품 기획을 위한 상품 카테고리별 고객 정서 파악
    • 경쟁사 대비 브랜드 정성 지수 모니터링 등

Check-up 항목


  • 학습 노드에 Conv1D를 활용한 텍스트 처리에 대해서도 나오는데 실제 산업현장에서 쓰인 사례에는 어떤 것들이 있을까요?
  • 학습노드에서 다양한 모델사용을 소개했으니, 프로젝트에서도 다양한 모델을 사용해 결과를 보고 모델마다 왜 다르게 평가되는지 토론을 유도하면 좋을 것 같습니다.
  • Padding 방식을 문장 뒷쪽('post')과 앞쪽('pre') 중 어느쪽으로 하느냐에 따라 RNN을 이용한 딥러닝 적용 시 성능 차이가 발생합니다. 두 가지 방식을 한번씩 다 적용해서 RNN을 학습시켜 보면서 그 결과를 비교해 보세요. 어떤 방식이 더 유리한가요? (pre가 더 유리함)
  • 텍스트 데이터를 임베딩 한다는 것은 어떤 의미일까요? 데이터 처리에 어떤 장점이 있을까요?
    • 단어 임베딩은 단어의 의미를 효과적으로 표현하기 때문에 one-hot encoding보다 학습 성능을 높일 수 있다.
    • 또한 대량의 데이터로 단어 임베딩을 미리 학습 시켜 두면, 문서 분류와 같은 과제에서 더 적은 데이터로도 학습된 임베딩을 사용하여 높은 성능을 낼 수 있다.

Closing


  • 노드를 학습하실때는 영어를 전처리하여 한 단어를 4차원 혹은 16차원으로 임베딩하는 것을 해보았습니다. 이번에 프로젝트로 제출하실 과제는 정제되지 않은 한국어 텍스트들을 가지고 똑같이 벡터로 표현하는 것인데 전처리 과정이 조금 까다롭습니다.
  • 프로젝트를 시작하신 분들 중에 전처리에서 힘들었던 점이나 의문이 들었던 점이 있으실까요?
  • 감성 분석 모델의 성능을 최대한으로 끌어올릴 수 있는 방법에는 어떤 것들이 있는까요?
    • Word2Vec 임베딩 pre-trained 모델을 활용하면 그렇지 않은 경우보다 5% 이상의 성능 향상이 가능합니다.
    • 적절한 모델 구성, 하이퍼파라미터 조정 등 다양한 방법을 시도해 보세요. 

영화리뷰 감성분석

댓글