Tệp robots.txt được tạo ra nhằm thêm nội dung các quy tắc chặn các công cụ tìm kiếm thu thập và lập chỉ mục các liên kết URLs của trang web, nếu bạn không thêm tệp robots.txt mặc định sẽ cho phép các công cụ tìm kiếm thu thập. Cấu trúc của tệp robots.txt
User-agent: Tên bot của công cụ tìm kiếmDisallow: Liên kết bị chặn
Allow: Liên kết cho phép
Sitemap:
Ví dụ về tệp robots.txt cho Blogspot
User-agent: Googlebot
User-agent: Bingbot
User-agent: Twitterbot
User-agent: Facebot
Disallow:
User-agent: *
Disallow: /feeds
Disallow: /search
Disallow: /search?*
Disallow: *max-results=*
Disallow: *?showComment=*
Allow: /search/label/template-blogspot-ban-hang
Allow: /search/label/template-blogspot-mien-phi
Allow: /search/label/thiet-ke-blogspot
Allow: /search/label/blogger-templates
Allow: /search/label/blog
User-agent: Mediapartners-Google
Allow: /
Sitemap: https://www.layout.vn/sitemap.xml
Hướng dẫn chặn link bài viết, trang hoặc chặn tất cả
- Chặn trang (page)+ Ví dụ 1: chặn tất cả các trang
User-agent: Googlebot
User-agent: Twitterbot
User-agent: Facebot
Disallow: /p
Allow: /
User-agent: Mediapartners-Google
Allow: /
Sitemap: https://www.domain.com/sitemap.xml
Nếu chặn tất cả page thì có thể thêm các page ấn định như: Allow: /p/about-us.html
+ Ví dụ 2: chặn 1 trang chỉ định bởi người chặn
User-agent: Googlebot
User-agent: Twitterbot
User-agent: Facebot
Disallow: /p/code.html
Allow: /
User-agent: Mediapartners-Google
Allow: /
Sitemap: https://www.domain.com/sitemap.xml
- Chặn 1 bài viết (post)
Disallow: /2019/09/post-title.html
- Chặn tất cả
Disallow: *?showComment=*
Disallow: *?spref=fb
Disallow: *?spref=tw
Disallow: *?spref=gp
Disallow: *?spref=pi
Disallow: *?utm_source=*
Với quy tắc thêm (*) này, không cần biết liên kết nào cứ liên kết có các giá trị đằng sau dấu (*) đều sẽ bị chặn.
Tổng hợp
