Robots.txt Là Gì? Hướng Dẫn Tạo File robots.txt Cho Website

Robots.txt là công cụ tuyệt vời giúp bạn quản lý website của mình. Nếu bạn có một trang web, tạo lập file robots.txt là điều cần thiết. Vậy nó là gì? Nó có cấu tạo, đặc điểm gì và làm sao để chỉnh sửa, tạo lập một một tệp robots.txt

Bài viết này sẽ giải đáp những thắc mắc đó giúp bạn có được những kiến thức bổ ích và đưa ra cho mình sự lựa chọn tốt nhất cho công cuộc quản lý website.

Mời bạn tham khảo một số dịch vụ tại Nef Digital:

Giới thiệu về  robots.txt

Trước khi ứng dụng Robots.txt bạn cần có được những thông tin cơ bản về chúng. Chúng ta cùng đi tìm hiểu về khái niệm, cấu trúc, đặc điểm hạn chế của robots.txt trong phần trình bày bên dưới.

Robots.txt là gì?

Robots.txt là tệp tin văn bản nằm ở trong thư mục gốc của một trang web. Nó cung cấp và hướng dẫn các công cụ tìm kiếm cách thu thập thông tin. Cụ thể là nó lập ra các chỉ mục về cho phép hay không cho phép thu thập dữ liệu trong tài nguyên một website. Hay nói cách khác, tệp Robots.txt là công cụ để ngăn các phương tiện truy cập dữ liệu lấy quá nhiều thông tin từ trang web của bạn.

Cấu tạo cơ bản của robots.txt

Tệp Robots.txt có cấu trúc khá đơn giản và dễ hiểu. Chúng có những từ kết hợp từ khóa và giá trị được xác định trước mà các coder sử dụng để lập trình như User-agent, Allow, Disallow, Crawl-delay, Sitemap. Trong đó:

User-agent: Chỉ định những trình thu thập dữ liệu được đưa vào các chỉ thị. Bạn có thể thêm dấu * để cho phép tất cả các trình được thu thập thông tin. Hoặc bạn cũng có thể chỉ định trình thu thập thông tin cụ thể bằng cách thêm tên nó vào phía sau.

Disallow: Chỉ thị có các trình thu thập thông tin (được cho phép) không thu thập những tệp, url hoặc thông tin cụ thể nào đó.

Allow: Chỉ thị cho phép truy cập tệp, thư mục con hoặc thông tin nào. Điều này chỉ được áp dụng cho Googlebot.

Crawl-delay: Thời gian mà bạn cho phép trình tìm kiếm chờ đợi trước khi thu thập thông tin của trang tiếp theo trong trang web của bạn. Thường thì các lập trình viên gán cho nó đơn vị là mili giây. Điều ngày ngoại trừ Googlebot, nó không bị ràng buộc bởi tiêu chí này.

Crawl-delay thường được sử dụng khi trang web quá lớn ( có hàng ngàn trang) và bạn không muốn quá tải khi phải liên tục đáp ứng yêu cầu của trình tìm kiếm thông tin. Ngoài trường hợp này ra, trang web thông thường không cần phải dùng đến chỉ thị này.

Sitemap: Đây là chỉ thị hỗ trợ các trang tìm kiếm nhằm mục đích xác định vị trí của sơ đồ XML. Tuy nhiên, ngay cả khi không có chỉ thị này của robots.txt, các trang tìm kiếm vẫn có thể tìm thấy được. 

Một số lưu ý robots.txt

Khi tạo lập file, ta cần chú ý những điều sau để có được hiệu quả sử dụng và quản lý tốt nhất bao gồm:

  • Tệp robots.txt cần được đặt trong thư mục root (cấp cao nhất) của trang web để dễ dàng tìm thấy.
  • Robots.txt phân biệt chữ thường và chữ hoa. Vì thế, khi viết chương trình, lập trình viên phải cẩn thận viết đúng kiểu chữ, nếu không tệp sẽ không đảm bảo chạy đúng mục đích.
  • Một số trình tìm kiếm có quyền lực chọn bỏ qua robots.txt trong trang web của bạn. Chúng thường là các trình thu thập bất chính, phần mềm độc hại hoặc người dọn dẹp các địa chỉ email.
  • Robots.txt cần được thêm vào ở cả tên miền gốc và tên miền phụ của website.

Nhược điểm của robots.txt

Robots.txt cũng có những hạn chế nhất định. Lệnh của robots.txt không phải sẽ được tất cả các trình tìm kiếm hỗ trợ. Phần lớn là phụ thuộc vào trình tìm kiếm có chịu tuân theo chỉ thị của robots.txt trong trang web bạn không. Vì thế, nếu muốn bảo mật thông tin một cách tốt nhất, bạn nên cài mật khẩu trên máy chủ.

Những công cụ tìm kiếm khác nhau thường phân tích cú pháp chỉ thị theo những cách hiểu khác nhau. Vì vậy, lúc lập trình web, cần cân nhắc những cú pháp thích hợp nhất.

Các URL liên kết đến trang web của bạn không nằm trong danh sách chỉ thị không được phép truy cập mặc dù bạn đã để robots.txt làm việc đó. Để khắc phục việc này, cách tốt nhất là bảo vệ các tệp trên máy chủ bằng mật khẩu.

Mời tham khảo thêm: Lợi Ích Của Seo & 6 Giá Trị Bất Biến Từ Việc Seo Website

Tầm quan trọng của robots.txt

Như đã đề cập ở trên, Robots.txt giúp bạn hướng dẫn các bọ tìm kiếm truy cập đúng với mong muốn của mình. Ngoài ra, Robots.txt có ảnh hưởng nhiều đến chất lượng SEO, nếu bạn viết sai cấu hình trong Robots.txt, thứ hạng và lượng truy cập trang web của bạn có thể bị giảm xuống.

Ngoài ra, nếu bạn định sử dụng URL rút gọn cho liên kết của trang web, robots.txt làm cho quy trình liên kết đó trở nên dễ dàng hơn.

Hướng dẫn tạo file robots.txt cho website

Trước khi tạo tệp robots.txt, bạn cần kiểm tra xem nó đã tồn tại trong web của mình chưa bằng cách truy cập đến link https://www.tênmiền.com/robots.txt trong một cửa sổ trình duyệt. Nếu bạn thấy có một cấu trúc tương tự như bên dưới thì đồng nghĩa với việc nó đã có sẵn trong trang web của bạn.

User-agent: *
Allow: /

Nếu đã có tệp robots.txt, bạn không cần phải làm mới mà chỉ cần chỉnh sửa. 

Cách chỉnh sửa tệp robots.txt

Để chỉnh sửa, bạn dùng ứng dụng khách FTP, kết nối với thư mục gốc trong trang web của mình. Sau đó, tải tập tin robots.txt về máy tính và mở lên bằng một trình soạn thảo bất kỳ.

Lúc này, bạn có thể chỉnh sửa các chỉ lệnh theo mong muốn của mình theo cấu trúc đã nêu ở trên. Sau khi chỉnh sửa lệnh, bạn nên kiểm tra có hợp lệ hay chưa.

Cách kiểm tra sự hợp lệ cho robots.txt

Bạn có thể làm điều này tốt hơn và dễ dàng hơn ở tùy chọn tester của Google Search Console. Các bước tiến hành là:

  • Đăng nhập tài khoản Google Search Console
  • Đến mục Crawl, chọn robots.txt Tester
  • Click vào nút TEST
  • Nếu robots.txt đã hợp lệ, nút test chuyển sang màu xanh và hiện chữ ALLOWED. Nếu robots.txt chưa hợp lệ, những chỗ tạo lỗi sẽ được đánh dấu.
  • Mặc dù bạn có thể xem nội dung robots.txt của mình bằng cách điều hướng tới robots.txt URL nhưng cách tốt nhất để kiểm tra và xác nhận nó là thông qua tùy chọn robots.txt Tester của Google Search Console.
  • Sau khi kiểm tra ổn, bạn đưa tệp lên thư mục gốc trên web của mình. Để báo cho Google bạn đã thay đổi  robots.txt, nhấp vào nút Submit 2 lần theo điều hướng của Google.

Robots.txt với WordPress?

Nếu trang web của bạn được làm trên nền tảng WordPress, bạn không thể sửa chữa tập tin bằng cách thông thường vì  WordPress sử dụng tệp robots.txt ảo. Bạn có thể xem nội dung của robots.txt bằng cách gõ theo cú pháp https://www.tênmiền.com/robots.txt . 

Nếu bạn không muốn các công cụ tìm kiếm tìm thấy mình, bạn có thể chọn chặn tất cả các trình tìm kiếm khi đang xây dựng một trang web trong WordPress. Sau khi hoàn thiện, bạn chọn mở ra cũng dễ dàng.

Robots.txt tối ưu cho SEO

Một trang web được xây dựng luôn đi kèm với mong muốn được nhiều người truy cập với nhiều mục đích khác nhau. Vì thế, thiết kế Robots.txt phù hợp với tiêu chuẩn SEO là điều cần thiết.

Lúc này, bạn cần kiểm tra xem robots.txt của mình có chặn phần nào của trang web mà bạn muốn nó được tìm kiếm không. Ngoài ra, không được chặn thư mục CSS hoặc JS Google, lập chỉ mục cho phép nó xem trang web của bạn như một người dùng thực sự.

Nếu bạn đang dùng web trên nền tảng WordPress, bạn không cần phải làm bất kỳ thao tác nào vì WordPress đã làm nó một cách tốt nhất rồi.

Ngoài ra, bạn không nên chỉ định các quy tắc khác nhau cho những trình tìm kiếm khác nhau. Nhiều quy tắc sẽ loạn và gây nhầm lẫn, điều này dẫn đến những tác động tiêu cực đến chất lượng SEO của trang web. Cách tốt nhất là bạn nên sử dụng một bộ quy tắc chung tiêu chuẩn nhất.

Cách tạo mới tệp robots.txt

Nếu web của bạn chưa có tệp robots.txt, đây là lúc bạn cần làm một tệp mới. Cách làm cũng không có gì phức tạp. Điều đầu tiên bạn cần có là một trình soạn thảo văn bản bất kỳ. Chương trình Notepad dễ dàng sử dụng nhất. Câu lệnh của robots.txt cơ bản là:

# Group 1

User-agent: Googlebot
Disallow: /nogooglebot/

# Group 2

User-agent: *
Allow: /

Một số lưu ý khi thiết lập chỉ lệnh trong robots.txt

Một số lưu ý như: 

  • Phân biệt chữ hoa và chữ thường
  • Sử dụng chính xác cấu trúc câu lệnh
  • Không nên thêm các ký tự đặc biệt
  • Một câu lệnh nên được viết trong một dòng
  • Không được dùng khoảng trắng phía trước câu lệnh

Một số quy tắc lập lệnh của robots.txt

Không cho phép thu dữ liệu trong toàn bộ website

User-agent: *
Disallow: /

Không có phép trình tìm kiếm thu thập dữ liệu một thư mục và nội dung thư mục đó

User-agent: *
Disallow: /calendar/
Disallow: /junk/

Cho phép một trình thu thập truy cập

User-agent: Googlebot-news
Allow: /
User-agent: *
Disallow: /

Cho phép tất cả các trình ngoại trừ một trình nào đó

User-agent: Unnecessarybot
Disallow: /
User-agent: *
Allow: /

Không cho phép truy cập vào dữ liệu một trang web

User-agent: *
Disallow: /private_file.html

Chặn một hình từ Google Image

User-agent: Googlebot-Image
Disallow: /images/dogs.jpg

Chặn tất cả hình từ Google Image

User-agent: Googlebot-Image
Disallow: /

Không được truy cập tệp thuộc cùng một loại

User-agent: Googlebot
Disallow: /*.gif$

Không được truy cập dữ liệu nhưng cho phép hiện quảng cáo

User-agent: *
Disallow: /
User-agent: Mediapartners-Google
Allow: /

Khớp với URL

User-agent: Googlebot
Disallow: /*.xls$

Trên đây là một số câu lệnh cơ bản thường gặp của một file robots.txt. Các bạn có thể dựa vào đây tự làm cho mình một file hoàn chỉnh. Vậy là qua bài viết này, bạn đã nắm được một số thông tin cơ bản của file robots.txt. Từ nay, bạn hoàn toàn có thể chủ động trong việc quản lý website của mình.

Công ty Cổ Phần Nef Digital
Hotline: 024.6655 4848
Email: Sales@nef.vn – Admin@nef.vn
Facebook: https://www.facebook.com/nefdigital

Viết một bình luận