robots.txt 정리

No Filled

커뮤니티 관련 작업을 진행하다 보니 SEO 관련 작업 중요도가 높다.

robots.txt 관련 작업을 하면서 알게 된 내용을 다시 정리하고자 한다.

크롤러

크롤러는 웹사이트의 페이지를 탐색하고 인덱싱하는데 사용된다. ex) Googlebot

다음과 같은 동작을 한다고 한다.

여기서 크롤러가 웹사이트의 어떤 부분을 크롤링할 수 있는지 또는 크롤링할 수 없는지를 지시할 수 있도록 해주는 것이 robots.txt이다.

보통 다음과 같이 사용된다.

robots.txt

User-agent: *
Disallow: /private/
Allow: /private/public-page.html
Sitemap: http://www.example.com/sitemap.xml

robots.txt 파일을 사용하지 않고도 개별 페이지에서 noindex 메타 태그를 사용하면 페이지의 인덱싱을 막을 수 있다고 한다.

<head>
  <meta name="robots" content="noindex" />
</head>