Medium에 재미있는 글이 하나 올라왔습니다.
제목은, "Using Deep Learning to Classify a Reddit User by their Myers-Briggs Personality Type"...
딥러닝을 이용하여 Reddit 사용자를 MBTI 유형별로 분류하겠다는 건데요.
* 왜 Reddit인가?
- Reddit을 살펴보니, MBTI 16가지 유형에 해당하는 subreddit(DC의 갤러리에 해당)들이 다 있었다고 합니다.
- 따라서 그 subreddit 내부의 포스팅들을 유형별 학습데이터로 사용할 수 있었습니다.
* 학습 및 테스트 자료 확보
- Reddit의 포스팅을 긁어와서 해결.
* 사용한 딥러닝 모델
- fast.ai가 공개한, 사전에 학습된 LSTM 기반 언어 모델을 추가학습을 통해 개선하여 사용.
- 기본 구조는 LSTM 기반 Encoder-Decoder 모델
이 모델은 학습 자료를 encoder를 통해 해석한 뒤, 그 해석을 decoder를 이용하여 우리가 원하는 결과로
가공하는 타입의 모델입니다. 예를 들어 기계번역 모델이 이에 해당합니다.
- 1차로 reddit 포스팅에 대해 학습을 진행하여, reddit 사용자의 말투(speech pattern)를 이해하도록 Encoder를 훈련
- 2차로 포스팅을 MBTI 유형별로 분류할 수 있도록 Decoder를 훈련
* 결과 요약
- 테스트 데이터(검증 데이터)에 대한 confusion matrix는 아래와 같습니다.
이 표는 실제 유형과 판별된 유형의 수를 표시합니다. 예를 들어 실제로는 ENTP 타입인데
신경망이 INTJ로 판별한 사람의 수는 20입니다.
- 전체적인 분류 성공률은 22%로, 무작위로 추정했을 때의 예상 성공률 6%보다 매우 높습니다.
- 이는 신경망이 reddit 포스팅에서 MBTI 유형과 연결되는 유의미한 패턴을 찾아냈다는 것을 의미.
* 한계점
- 학습 및 테스트 자료가 16가지 MBTI 유형에 해당하는 subreddit에 한정되었다는 점
(학습 자료의 수도 충분치 않은 편이며, 이 subreddit에 포스팅한 사람들의 성격이
정말 그 MBTI 유형이 맞을까 하는 문제도 있습니다.)
* 사견
- 제목만 보고 빵 터지고, 읽으면서 '이게 되긴 되는구나'했습니다.
- 비슷한 일을 국내 모 사이트들에 해보면 어떨까 싶습니다. 사실 이건 결과가 잘 나오면 문제가 될 것 같지만요.
(개선해서 "*** 탐지기"하는 식으로 만들어버리면...흠좀무)
재미로 보기에 딱인 것 같아요 ㅋㅋ