기글은 아니구요.. 와대는 가기 싫어서...
특정 싸이트의 자유게시판에 3/22 전체 올라온 게시글을 제목,내용별로 크롤링 했습니다.
처음이라 제목이랑, 내용만 했고
지금은 보강해서 그 특정싸이트에 맞게 제목,글쓴이,날짜,시간,코멘트까지 다 수집할 수 있도록 만든 상태입니다.
단순히 갯수만 따졌을때 3600건 정도 올라왔지만, 운영자 삭제랑 자진삭제를 빼고나니 2500건 정도 됩니다.
깜빡하고 csv파일로 저장하는걸 까먹었네요.
처음 소감은 재밌네요. 자주 해보고싶어요. 물론 텍스트 분석쪽으로 논문 쓸 생각은 없고, 머신러닝 돌리는 쪽으로 생각중입니다. (제가 속한 분야가 그게 더 낫더라구요. 물론 그렇게 완벽한 데이터셋을 찾기가 너무 힘듭니다 ㅠ 근데 찾으면 졸업논문은 하이패스..)
잡설은 그만하고 본문으로 넘어가서
제목만 따로 모아 놓아서 분석해봤고, 키워드 100만 뽑았습니다.
나중에는 한글자는 빼고 통계를 내야할거 같은데.. 아무튼
게임,아이즈,교학사,북한,갤럭시,축구,버닝썬,화사,아이폰,감학의,승리,미국,볼리비아 이렇게 나오네요.
취미+이슈 골고루 보입니다.
제목부근에 연이어 사용된 단어들을 보면 이슈를 더 잘 알수 있습니다. 앞으로도 잘 애용해야겠습니다.
이부진 프로포폴, 어벤져스 엔드게임, 대한민국 볼리비아, 전남친 샌드위치 는 오랫만이네요.
김학의 버닝썬은 연관이 없을거 같지만 현 연예계 주요 이슈라서 연관이 되었나 봅니다.
다음은 게시글 내용의 키워드를 최빈 100개로 뽑아봤습니다.
제목이랑 별 차이는 없네요. 미국,정부,기사,김지은,선수 이렇게 됩니다.
눈에 띄는 키워드가 있습니다. '김지은'
그래서 '김지은' 단어가 어떻게 씌였는지 연관 단어들을 살펴 보았습니다.
굉장히 많은 단어가 나오지만 최근 여성관련 이슈로 보이네요.
다음은 게시글 내용 부분 연이어서 사용된 단어 목록입니다.
르네상스 프로젝트, 정의용 국가안보실, 페이트 시리즈(?) , 김의성 주진우, 유시춘 이사장, 윤지오 아프리카
마지막 취준생 임산부는 사회적 약자계층으로 연관된듯 하네요.
저 특정싸이트 IP차단 안당했으면 좋겠군요. ㅎㄷㄷ;
크롤링 쉽게 해주는 싸이트가 있던데 나중에 급하면 그런것도 사용해 봐야겠습니다.
재밌네요. 다음번엔 시계열 회귀분석에 도전해봐야겠어요..
그것보다 딥러닝 (이미지 분석)이 급한데 말이죠 ㅠㅠ