요즘 다시 R을 하고 있는데, 데이터 사이언스 쪽 하시는 교수님들이 자꾸 R에서 Python으로 넘어가기 귀찮아 하시는지 알겠더라구요.
사실 파이썬 배우기 전에 R을 먼저 배웠습니다. 그당시에는 진도 빼느라 잘 몰랐는데 Python이랑 병행해보니 차이가 느껴지네요.
저도 R보단 Python을 선호하고 Python파였는데 (크롤링 하고 바로 분석할 수 있으니) 오랫만에 다시 R을 해보니까 생각이 좀 달라졌습니다.
Python은 말 그대로 컴퓨터 프로그래밍 언어여서 C같은 기존의 언어의 매쏘드나 언어체계를 따라갑니다.
R은 통계학자들이 만든거라 그런지 확실히 사회과학쪽 사람들이 접근하기가 좋습니다. 즉 SPSS를 그냥 스크립트 언어로 바꾸고 대용량 처리와 확장성을 도모했다고 생각하면 편하겠네요. (물론 SPSS도 스크립트로 명령을 내릴 수 있습니다만, 그러라고 만든게 아니죠..)
따라서 R은 컴퓨터 프로그래밍의 사용 원리만 알고 있으면 (영미권에서는 이걸 '코드(code)'를 안다 라고 표현하더라구요) 오히려 저 같은 사회과학에 종사하는 사람들이 사용하기 편하더군요.
이 부분에 관련해서 단적으로 보여주는 예가 파이썬에서 판다스 패키지 내 명령어를 사용하려하면 'pd.어쩌구'를 붙여서 어느 패키지에 있는지 명시를 해줘야 하지만 R에서는 그런게 없죠.. 다른 패키지랑 충돌 나면 어떻게 하지? 하는 생각을 하게 됩니다.
아무튼 두 가지를 해보니 어느 경우엔 R을 사용하고 Python을 사용해야하는지 알겠네요.
그리고 왜 R이 각광 받는지 체감도 해봤네요.
커멘드 치는게 익숙하지 않은 사람들을 위해 GUI환경에서 사용할 수 있는 무료 프로그램인 Jamovi는 R과 연동되서 돌아갑니다.
저처럼 탈 윈도우를 지향하는 사람한테는 참 고마운 프로그램입니다. (ANOVA까지는 가능해서 논문 쓰는데 충분합니다.)
기존 사회과학에서 사용하는 통계방법론을 사용해야한다면 R이고
CS쪽에서 건너온 것들은 Python 입니다. Python에서도 사회과학 통계방법을 쓸 수 있지만 패키지의 기능이나 정교함은 R이 확실히 낫더라구요.
결론은 둘다입니다. -_-
크롤링 하고 연결망 분석도 해야하니...
https://brunch.co.kr/@hvnpoet/83