요즘 로봇 배제 표준(robots.txt) 관심 있다 보니 여러웹사이트의 로봇 배제 표준(robots.txt)을 접속(?), 조회(?) 해봤습니다.

로봇 배제 표준(robots.txt)통해 웹사이트 개방 하게 되면 예를들어 구글에서 site : http://gigglehd.com/ 검색하면 기글하드웨어에 관한 검색결과가 나오게 됩니다.

기글 검색.png

 


하지만 웹사이트에서 웹사이트 개방 안한 "parkoz.com"만 해도 검색하면 site:parkoz.com 다음과 같이 parkoz.com내에 검색결과가 나오게 됩니다.

파코즈 검색결과.png

 




이제 국내 하드웨어 사이트에  로봇 배제 표준(robots.txt) 설정을  보겠습니다.

우선 보드나라 로봇 배제 표준(robots.txt) 설정입니다. 검색 구글 검색에 되도록 웹사이트가 개방이 되어 있습니다.
구글로 검색 해보면 해당 웹사이트는 검색이 되는데, Mediapartners-Google 봇은 접근이 안되게 막았군요.
Mediapartners-Google봇은 뭔지 모르겠습니다..

User-agent: * 
Disallow: 

User-agent: Mediapartners-Google
Disallow:

Sitemap:http://www.bodnara.co.kr/newscommon_sitemap.xml
Sitemap:http://www.bodnara.co.kr/newscommon_legacy_sitemap.xml
Sitemap:http://www.bodnara.co.kr/comm_sitemap.xml
Sitemap:http://www.bodnara.co.kr/comm_legacy1_sitemap.xml
Sitemap:http://www.bodnara.co.kr/comm_legacy2_sitemap.xml
Sitemap:http://www.bodnara.co.kr/comm_legacy3_sitemap.xml

Sitemap:http://www.bodnara.co.kr/warranty_spec.xml
Sitemap:http://www.bodnara.co.kr/product_sitemap.xml
Sitemap:http://www.bodnara.co.kr/tag_sitemap.xml

http://www.bodnara.co.kr/robots.txt

------------------------------------------------------------------------------

다음은 케이벤치(kbench) 웹사이트 인데요. 해당 웹사이트도 개방이 되어 있습니다.
하지만 해당 설정에 문제점을 발견 했는데요. 


#
# robots.txt
#
# This file is to prevent the crawling and indexing of certain parts
# of your site by web crawlers and spiders run by sites like Yahoo!
# and Google. By telling these "robots" where not to go on your site,
# you save bandwidth and server resources.
#
# This file will be ignored unless it is at the root of your host:
# Used:    http://example.com/robots.txt
# Ignored: http://example.com/site/robots.txt
#
# For more information about the robots.txt standard, see:
# http://www.robotstxt.org/robotstxt.html
#
# For syntax checking, see:
# http://www.frobee.com/robots-txt-check

User-agent: *
Crawl-delay: 10
# Directories
Disallow: /includes/
Disallow: /misc/
Disallow: /modules/
Disallow: /profiles/
Disallow: /scripts/
Disallow: /themes/
# Files
Disallow: /CHANGELOG.txt
Disallow: /cron.php
Disallow: /INSTALL.mysql.txt
Disallow: /INSTALL.pgsql.txt
Disallow: /INSTALL.sqlite.txt
Disallow: /install.php
Disallow: /INSTALL.txt
Disallow: /LICENSE.txt
Disallow: /MAINTAINERS.txt
Disallow: /update.php
Disallow: /UPGRADE.txt
Disallow: /xmlrpc.php
# Paths (clean URLs)
Disallow: /admin/
Disallow: /comment/reply/
Disallow: /filter/tips/
Disallow: /node/add/
Disallow: /search/
Disallow: /user/register/
Disallow: /user/password/
Disallow: /user/login/
Disallow: /user/logout/
# Paths (no clean URLs)
Disallow: /?q=admin/
Disallow: /?q=comment/reply/
Disallow: /?q=filter/tips/
Disallow: /?q=node/add/
Disallow: /?q=search/
Disallow: /?q=user/password/
Disallow: /?q=user/register/
Disallow: /?q=user/login/
Disallow: /?q=user/logout/

http://www.kbench.com/robots.txt

Disallow: /admin/, Disallow: /?q=admin/ 설정 만봐도 뭔지 아실수 있을겁니다.  그에 대한 문제점은 밑에 있는 웹사이트에서 발췌 했는데요.

"누가 봐도 관리자 페이지를 robots.txt로 차단한 경우죠? robots.txt는 모든 사용자가 볼 수 있기 때문에, 이런 경우 오히려 관리자 페이지가 어디에 있는지 누구나 알 수 있게 하는 역효과만 일으킵니다.
관리자 페이지의 경우,
- robots.txt를 이용한 차단을 피하고,
- CMS를 사용하는 경우 기본 설정을 변경하여, 로그인을 필요로 하는 고유의 관리자 페이지 설정을 해주고,
- 해당 관리자 페이지에 noindex 메타 태그를 적용하여 차단하는 것이 좋습니다."

출처 : 더 나은웹 : https://ko-kr.facebook.com/betterweb/posts/297906003718627

그외 해당 웹사이트 로봇 배제 표준(robots.txt) 설정 보면 복잡합니다. 해당 문제점을 아신분 리플 바랍니다.

---------------------------------------------------------------------------------------------------------------

다음은 파코즈 하드웨어 인데요. 검색엔진 검색이 안되게 검색봇 접근을 막았습니다. 
검색 차단 확인기를 통해 확인해보니, 입력하신 페이지에 noindex 메타 태그가 있어서 검색이 되지 않습니다, 사이트가 완전히 차단되어있습니다.

약 1년전쯤에 제가 해당 운영자분께 여쭤 봤더니 포털의 상업 검색 서비스를 막고 있다고 하셨습니다...

솔직히 그렇게 할거면 뭐하로 인터넷 웹사이트 만들었는지 생각이 듭니다. 차라리 인트라넷으로 웹사이트 만드는게 나을 거라 생각이 듭니다.
민간한 내용이 있으면 접근을 못하게 설정하면 될것 같은데 이해가 가지 않습니다.


User-agent: *
Disallow: /

http://www.parkoz.com/robots.txt

-----------------------------------------------------------------------------
다음은 기글하드웨어 인데요. 다음과 같이 웹사이트가 공개 되어 있습니다.

User-agent: *
Allow: /

http://gigglehd.com/robots.txt

------------------------------------------------------------------------------------

다음은 쿨엔조이 인데요. 다음과 같이 웹사이트가 공개 되어 있습니다.


User-agent: *
Allow: /

http://www.coolenjoy.net/robots.txt

------------------------------------------------------------------------

다음은 2cpu 웹사이트 입니다. 웹사이트 공개(혹은 개방)이 되어 있는데요, 해당설정에 Disallow: /adm 접근을 못하게 하였습니다.
앞서 말했듯이 "Disallow: /adm" 설정으로 접근을 못하게 한것은 "우리 웹사이트 어느 위치에 관리자 페이지 접근을 하지 말아주세요" 라는 중요한 정보를 홍보하는 문제가 생기게 됩니다. 그외에 문제가 되는 설정을 발견하신분 리플 달아시주면 도움이 될것 같습니다.


User-agent: * 
Disallow: /adm
Disallow: /cheditor5
Disallow: /extend
Disallow: /install.bak
Disallow: /js
Disallow: /lib
Disallow: /skin
Disallow: /zmSpamFree
Allow: /


https://www.2cpu.co.kr/robots.txt

--------------------------------------------------------------------------------------------

다음은 브레인박스 웹사이트 인데요. 웹사이트는 개방 되어 있는데, "Disallow: /newsettings/" 접근을 막았군요. 잘한 설정인지는 모르겠습니다. 잘 아시는 분 리플 바랍니다.


User-agent: *

Disallow: /newsettings/

http://www.brainbox.co.kr/robots.txt


----------------------------------------

끝으로 웹사이트 개방만 해놓고 끝이라고 생각 하지 않습니다. 로봇 배제 표준(robots.txt) 설정에 관한 관심과 관리도 필요하다고 생각합니다.
안그러면 웹사이트에 트래픽을 줄수 있기 때문입니다.
한예로 다나와에서 HMSE_Robot 설정을 막았습니다. 왜 막았는지 HMSE_Robot가 뭔지 검색해보니 트래픽을 많이 먹는 봇이란걸 알게 되었습니다.
HMSE_Robot봇이 1초에 3번씩 접속을 한다고 합니다.

902675.png

사진 출처 : Ohyung Blog :: 뭐야 이 미친 로봇은;;;

http://ohyung.net/486

그리고 네이버 봇도 트래픽을 상당히 많이 차지 하는데요. 네이버 봇은 "cowbot, naverbot, yeti" 등이 3가지 종류가 되는데요.
트래픽을 상당히 차지 합니다.

awstat_yeti_2.gif
사진 출처 : yeti crawler(네이버 검색봇)가 트래픽을 처먹고 있다
http://blog.publisher.name/674

그리고 위 사진에서 빙봇(Bingbot)도 상당한 트래픽을 많이 차지 합니다.

이들 트래픽을 많이 일으키는 봇(HMSE_Robot, cowbot, naverbot, yeti, Bingbot)만 차단 혹은 관리만 해도 트래픽 유지 관리에 도움 될걸로 생각됩니다.

--추가--

바이두봇(Baidu Spider)도 상당히 트래픽을 많이 차지 한다고 합니다.

" 바이두 봇 : 엄청 나게 긁어가면서 거의 3초 단위로 방문함...하여 트래픽 소모양이...장난아님, 이 놈들 봇 이름도 무시무시..baidu spider.."

트래픽 초과의 원인을 알았습니다.
출처 : https://www.x86.co.kr:447/lounge/502763

그리고 다음봇도 트래픽을 많이 차지 한다는 얘기도 있습니다.

"서버를 옮겼음에도 ,
밀어 닥치는 트래픽에 서버가 정신을 못차리네요.

원인은 다음봇.
daumoa 라는 이름으로 들이닥칩니다. ㅋㅋ"

출처 :
아.. 정말 쓸데없는 다음봇, 차단했더니 서버가 쾌적.
http://nalab.kr/?mid=bokdo&document_srl=27372102&listStyle=viewer


물론 구글 봇도 트래픽을 많이 차지 할수도 있는데요. 차단하시면, 방문자수가 확 줄어 들겁니다... 
그러면 크롤링 횟수를 조절 하는게 가장 나을 것 같습니다.
검색봇을 모두다 막으면, 검색사이트를 통해 들어오는 방문자가 줄어들수 있으니, 크롤링을 조절한다 든지, 값어치(?) 못하고 트래픽만 부담하는 봇을 차단한다든지 방법을 쓰면 좋을것 같습니다. 

검색봇 관리만해도 트래픽에 많은 도움이 될거라 생각됩니다.

2013년 인터넷 트래픽의 60% 이상이 사람이 아닌 봇에 의해 발생
http://www.bodnara.co.kr/bbs/article.html?num=104522