robots.txt 저장 방법 안내
1. 홈페이지 전체가 모든 검색엔진에 노출되는 것을 원하지 않을 때
User-agent: *
Disallow: / 2. 홈페이지 전체가 모든 검색엔진에 노출되기를 원할 때
User-agent: *
Disallow: (Ex1과 비교했을 때 "/"가 빠져 있습니다. robots.txt를 작성하지 않으면 모두 검색허용으로 간주됩니다.)
3. 홈페이지 디렉토리의 일부만 검색엔진에 노출하고 싶을 때
User-agent: *
Disallow: /my_photo/
Disallow: /my_diary/ (이렇게 작성하면 로봇은 my_photo, my_diary라는 폴더에 속한 웹문서에 접근할 수 없습니다.)
4. 홈페이지 전체가 수집되길 원하지만 특정 검색엔진을 거부하고 싶을 때
User-agent: EvilRobot
Disallow: / 위의 예에서는 "EvilRobot"이라는 이름을 가진 로봇만을 배제하게 됩니다.
('네이버'에 대해서 막고 싶다면 NaverBot을 User-agent로 설정해주시면 됩니다. Naverbot은 네이버 로봇의 이름입니다.)
5. 홈페이지 전체가 수집되길 원하지만 특정 검색엔진에게만 노출되기를 원할 때
User-agent: *
Disallow: /
User-agent: NaverBot
Allow: /
User-agent: Yeti
Allow: / (이 경우 NaverBot, Yeti 만이 웹문서를 수집해갈 수 있습니다.)
6. 웹로봇의 방문 주기를 지정(초 단위)하고 싶을 때
User-agent: NaverBot
User-agent: NaverBot
Crawl-delay: 30
User-agent: Yeti
Crawl-delay: 30
이 경우 NaverBot, Yeti는 홈페이지에 포함된 웹문서를 30초 간격으로 수집하게 됩니다.
해당 옵션을 지정하지 않으면 일반적으로 약 10 ~ 20초 간격으로 1페이지씩 수집을 진행합니다.
다만, 해당 기능은 웹로봇을 운용하는 업체별로 기능상의 차이가 있을 수 있기 때문에 각 업체별 로봇 운용 현황을 확인하신 후 사용하시기 바랍니다.
"robots.txt"를 작성하는 것과 유사한 방법으로 HTML문서의 (HEAD)와 (/HEAD)태그 사이에
(META NAME="ROBOTS" CONTENT="NOINDEX, NOFOLLOW, NOARCHIVE")라는 메타태그를 추가하면 로봇은 웹 문서를 색인하거나 저장할 수 없습니다.
이 방법은 다소 번거롭기는 하지만 문서 하나하나에 대해 정확하게 명시를 해주기 때문에 가장 확실하게 로봇의 접근을 막을 수 있는 방법입니다
로봇 배제에 대한 보다 자세한 내용은 http://www.robotstxt.org/에서 확인할 수 있습니다
출처:http://help.naver.com/customer/etc/webDocument02.nhn
'▣컴퓨터 활용팁' 카테고리의 다른 글
블로그에 방문자를 늘리기 메타블로그 사이트 모음 (0) | 2010.08.07 |
---|---|
유무선 공유기 애니게이트 아이폰 / 아이팟 터치 무선랜 (Wi-Fi) 연결방법 (0) | 2010.05.15 |
인터넷 익스플로러 8 mshtml.dll 오류 (0) | 2010.01.09 |
익스플로러 오류 - hungapp 해결 요령 (0) | 2009.12.31 |
QOOK 인터넷의 경우 TCP/IP등록정보 세팅하는법을 모르겠습니다 (0) | 2009.12.05 |