이번 글에서는 웹페이지를 운영함에 있어서 우리의 사이트에 어떠한 로봇들이 접근하는 것을 허락할지에 관한 표준을 정의하는 robots.tet의 정의와 사용방법에 대하여 다루겠습니다.
# robots.text의 정의
robots.txt는 로봇 배제 표준을 포함하고 있는 텍스트 문서(robots exclusion standard.text)의 줄임말입니다. 로봇 배제 프로톸콜이라고 부르기도 하며 웹사이트에 로봇이 접근하는 것을 방지하기 위한 규약 중 하나로 일반적으로 접근 제한에 대한 설명을 이 로봇 배제 표준에 기입합니다.
- robots.text를 기입하는 곳은 루트 디렉토리로만 한정되어있습니다.
robots.text의 역사는 그리 길지 않습니다. 1994년에 처음으로 만들어진 이래 현재까지 28년가량의 시간이 지났으며, HTML의 개발연도인 1990년대와 비슷한 시기에 등장하였습니다. robots.text는 인터넷과 여러 브라우저에서 추천하는 하나의 권고사항이며 인터넷상에서 돌아다니는 수많은 로봇들의 행동 방향을 제한하거나 금지하는 것을 그 목적으로 둡니다.
- 이는, 로봇은 막지만 사람은 막지 못하는 현상이 벌어질 수도 있음을 뜻합니다.
# robots. text의 사용방법
로봇 배제 표준에는 총 3가지 항목들에 대한 기입 방식을 통하여 그 규칙을 세웁니다. 항목들은 user-agent, allow, disallow이며, 각 항목의 입력 방식에 대해서는 아래에서 자세히 살펴보겠습니다.
(1) User- agent
user-agent는 컴퓨터를 직접 사용하는 사용자를 대신하여 작동하는 로봇을 포함한 모든 소프트웨어를 일컫는 말로, 콘텐츠와 최종 사용자간의 상호작용을 검색, 렌더링 하는 것을 말합니다. 따라서 로봇 배제 표준 내에 기입되는 User- agent는 지금 이 규칙이 누구를 대상으로 하는가를 알리는 것으로 이해하시면 됩니다.
- 우리가 robots.text를 사용하면서 일반적으로 생각해야할 에이전트는 총 4가지이며, Googlebot(구글의 검색엔진) / Googlebot-news (구글의 뉴스 검색엔진) / Batbot(뱃봇) / * (모든 대상) 과 같습니다.
(2) Allow, disallow
allow는 허용한다는 뜻을, disallow는 허용하지 않는다라는 뜻을 가지고 있습니다. 따라서 우리는 로봇이 접근하지 않기를 원하는 문서나 디렉터리에 관해서는 disallow 항목에 삽입함으로서 접근을 막을 수 있습니다. 모든 것을 허용하고 일부를 허용하지 않을지, 모든 것을 허용하지 않고 일부를 허용할 지에 따라서 allow와 disallow의 용법이 결정되며 이는 사용자의 상황에 따라서 유연하게 사용하시면 되겠습니다.
# 구글이 말하는 robots.text
구글이 보유하고 있는 검색엔진인 구글 봇은 이 로봇 배제 표준을 엄격히 준수합니다. 따라서, 우리가 robots.text에 어떠한 방식으로 표준을 정의하는지에 따라서 구글에 검색이 될지 안 될지를 결정합니다. 따라서 우리는 robots.text를 올바르게 정의해야 하며 현명하게 사용해야 합니다.
robots.text의 올바른 사용방식은 과도한 페이지를 소유한 웹사이트 내에서 의미 없어진 페이지 또는 디렉터리에 대해서 로봇의 접근을 차단하여 로봇이 우리의 사이트를 더 편하게 돌아디닐 수 있도록 하는 것이며,, 이러한 방식으로의 사용이 불필요한 일반적인 사용자의 경우에는 상시 허용을 하는 것이 현명하다 할 수 있습니다.
이번 글에서는 웹페이지를 운영함에 있어서 우리의 사이트에 어떠한 로봇들이 접근하는 것을 허락할지에 관한 표준을 정의하는 robots.tet의 정의와 사용방법에 대하여 다루겠습니다.
# 본문과 관련된 다른 글
[검색엔진의 작동원리] 색인(index) 생성의 정의
https://rpglab12.tistory.com/entry/검색엔진-작동원리-색인-index-생성-정의
[검색엔진의 작동원리] 색인(index) 생성의 정의
이번 글에서는 검색엔진의 작동과정의 3단계중 크롤링의 다음 단계인 색인 생성의 정의와 그 과정에 대하여 다루겠습니다. # 색인(index)의 정의 색인은 어디에서 그 단어가 쓰이느냐에 따라서 굉
rpglab12.tistory.com
검색엔진 작동원리 크롤링(crawling) 정의
https://stockbroker.tistory.com/entry/검색엔진-작동원리-크롤링-crawling-정의
검색엔진 작동원리 크롤링(crawling) 정의
이번 글에서는 구글 검색엔진의 작동과정 중 하나인 크롤링(crawling)이 어떠한 것인지에 대하여 말씀드리겠습니다. # 크롤링(crawling)의 사전학적 정의 크롤링(crawling)은 그 단어의 뜻만을 들여다본
stockbroker.tistory.com
댓글