본문 바로가기
카테고리 없음

구글 검색엔진 작동원리 크롤링(crawling) 정의와 과정

by 성오 2022. 6. 27.
반응형

이번 글에서는 구글 검색 엔진의 작동과정 중 첫 번째 과정에 해당하는 크롤링의 정의와 함께 구글이 크롤링할 때에 거치는 일련의 과정들, 구글 크롤링에서 제외되는 이유에 대하여 다루겠습니다.

 

# 크롤링의 정의

  크롤링은 무수히 많은 컴퓨터들의 저장되어 있는 수집하여 분류하는 작업을 말합니다. 또한, 이러한 크롤링을 행하는 소프트웨어들을 크롤러라고 칭하며 구글에서는 이를 크롤러 라고도 말하고 구글봇이라고도 부릅니다.

 

  검색엔진이 검색에 대한 결과를 검색자들에게 제공하는 과정을 3가지 단계로 축약하자면 크롤링 색인 생성 검색결과 노출입니다. 이는, 크롤링이 검색엔진의 뼈대를 이루는 시작점임을 의미하며 크롤러의 오류가 발생했을 때에는 그 이후 모든 과정의 오류가 생김을 의미하기도 합니다.

  • 실제로는 크롤러의 오류가 생겨도 기존에 노출되던 페이지들의 노출은 지속 노출되기 때문에 검색 사이트 전체에 커다란 타격을 주지는 못하지만, 1초를 다투는 삶을 살아가는 이들에게만은 커다란 타격으로 다가갑니다.
 

 

# 구글에게 크롤링이 필요한 이유

  위에서 언급했듯이 구글은 구글을 이용하는 검색자들에게 검색 결과를 노출하기 위하여 먼저 수많은 웹페이지들에 분산되어 있는 정보들을 수집하고 분류하며 저장할 필요성이 있습니다. 그래야지만 자신이 정보 수용자와 정보 제공자를 이어주는 가교가 지어지기 시작하기 때문입니다.

 

  또한, 이러한 크롤링 기술은 바닷가의 존재하는 모래알처럼 무수히 많은 인터넷상의 웹페이지들에 정보를 대상으로 하는 것이기 때문에 그 기술은 굉장히 광범위한 영역을 커버할 수 있어야 하며 사용자가 제공하기를 원하지 않는 정보는 수집 및 저장하지 않도록 하는 분별적인 크롤링 기술 또한 기치고 있어야 하기에 전문적인 기술을 요합니다.

 

 

# 구글의 크롤링 과정

  크롤링의 핵심은 링크입니다. 링크에 대해서 설명하기 위해서 한가지 간단한 정의에 대해서 말씀드리자면 우리가 마주하는 웹은 ‘HTML’이라는 프로그래밍 언어로 이루어져 있습니다. HTML의 풀네임은 Hyper Text Markup Language 이며 이중, HT HyperText가 바로 링크를 뜻합니다.

 

  즉, 웹페이지들은 반드시는 아니지만, 웹페이지라는 역할을 하기 위하여 무수히 많은 링크들을 포함하고 있습니다. 그 링크들은 자신의 웹페이지안에서 자신의 웹페이지 안으로 들어가는 링크일 수도 있으며 자신의 웹페이지에서 다른 웹페이지로 이동하는 링크일수도 있습니다.

 

  구글 봇은 크롤링을 시작하며 웹페이지상에 무수히 많이 뿌려져 있는 이 링크들을 타고 유영합니다. 그리고 유영하는 동안 들리는 지점지점 마다 정보를 수집하고 분류하며 색인합니다. 여기서 색인이란 저작물의 분류와 저장을 말하며 색인 이후에는 검색 노출로 이어집니다.

  • 이것이 웹페이지 소유자가 사이트의 색인을 검색엔진에 제출하지 않더라도 검색 노출이 진행되는 이유입니다.

 

 
 

# 구글 크롤링에서 제외되는 경우

  구글 크롤러는 위에서 보았듯이 링크를 타고다니며 정보를 수집하기에 자칫 무분별하거나 모든 페이지를 수집하는 것처럼 보여집니다. 하지만, 실제 그 동작과정은 그렇지 않습니다. 지적 재산권 침해 등의 문제를 방지하기 위하여 사이트들은 robots.txt라는 텍스트 문서를 포함하고 있으며 이 텍스트 문서는 자신의 웹페이지 상에서의 크롤링 법칙을 의미합니다. 구글 봇은 이 robots. txt를 통하여 우선적으로 크롤링의 대상여부를 결정합니다.

  • 즉, robots.txt를 통하여 본인의 페이지 상에서의 크롤링을 금지한다면 크롤링이 진행되지 않습니다.
 

  또한, 로그인이 필요한 웹사이트 예를 들면 해피캠퍼스 등의 정보 매매 사이트 등의 정보는 수집하지 않습니다. 이렇듯이 크롤링의 대상은 인터넷의 모든 대상이 아니며 나름의 규칙을 따라 진행됩니다.

  • 하지만, 대부분의 경우에 크롤링 오류는 시간이 지나면 해결되기에 장기간의 오류가 아닌이상 걱정하지 않으셔도 됩니다.
 

 

여기까지 구글 검색 엔진의 작동과정 중 첫 번째 과정에 해당하는 크롤링의 정의와 함께 구글이 크롤링할 때에 거치는 일련의 과정들, 구글 크롤링에서 제외되는 이유에 대하여 다루었습니다.

반응형

댓글