Robots.txt Là Gì? Cách Tạo Tệp Robots.txt Cho Trang Web

Robots.txt Là Gì? Cách Tạo Tệp Robots.txt Cho Trang Web

Robots.txt là gì? Robots.txt là một tệp tin văn bản nằm bên trong thư mục gốc của website. Nó cung cấp hướng dẫn để các công cụ tìm kiếm thu thập thông tin về trang của bạn nhằm mục đích lập chỉ mục. Trong bài viết này, chúng tôi sẽ chia sẻ đến bạn thông tin chi tiết về file Robots.txt là gì? Cách tạo file Robots.txt.

File robots.txt là gì?

File robots.txt là một tập tin văn bản đơn giản có dạng file .txt. Đây là một phần của Robots Exclusion Protocol (REP) chứa một nhóm những tiêu chuẩn Web quy định cách Robot Web (hay Robot của các công cụ tìm kiếm) thu thập dữ liệu trên trang, truy cập, index nội dung và cung cấp nội dung đó cho người dùng.

File robots.txt là gì?
File robots.txt là gì?

REP còn bao gồm những lệnh như Meta Robots, Page-Subdirectory, Site-Wide Instructions. Nó hướng dẫn những công cụ của Google xử lí các liên kết. (ví dụ: Follow hoặc Nofollow link).

Trên thực tế, tạo robots.txt WordPress giúp nhà quản trị trang web có thể linh hoạt, chủ động hơn trong việc cho phép hay không cho những con bot của công cụ Google Index một số phần nào đó trong trang của mình.

Xem thêm bài viết: Atozsolutions – Thiết Kế Website Giá Rẻ – Uy Tín – Chuẩn SEO

Cú pháp của file robots.txt

Các cú pháp được xem là ngôn ngữ riêng của những tập tin robots.txt. Có 5 thuật ngữ được sử dụng phổ trong một file robots.txt. Bao gồm:

  • User-agent: Phần này là tên của những trình thu thập, truy cập dữ liệu web. (ví dụ: Googlebot, Bingbot,…)
  • Disallow: Được dùng nhằm mục đích thông báo cho các User-agent không thu thập bất kì dữ liệu URL cụ thể nào. Mỗi URL chỉ được sử dụng cho 1 dòng Disallow.
  • Allow (chỉ áp dụng cho bọ tìm kiếm Googlebot): Lệnh thực hiện thông báo cho Googlebot rằng nó sẽ truy cập một trang hay thư mục con. Mặc dù những trang hay thư mục con của nó có thể không được phép.
  • Crawl-delay: Thông báo cho các Web Crawler biết rằng nó cần phải chờ bao nhiêu giây trước khi tải và thu thập nội dung của trang. Tuy nhiên, lưu ý rằng bọ tìm kiếm Googlebot của Google không thừa nhận lệnh này. Bạn cần phải cài đặt tốc độ thu thập dữ liệu trên Google Search Console.
  • Sitemap: Được dùng để cung cấp các vị trí của bất kì Sitemap XML nào được liên kết với URL này. Lưu ý lệnh này chỉ được hỗ trợ bởi những công cụ như: Google, Ask, Bing và Yahoo.

Tại sao bạn cần phải tạo file robots.txt?

Việc tạo robots.txt cho trang web giúp quản trị viên có thể kiểm soát việc truy cập của các con Bots đến các khu vực nhất định trên trang web. Điều này vô cùng nguy hiểm nếu các bạn vô tình sai một vài thao tác nào khiến cho Googlebot không thể index nội dung trên trang của bạn. Tuy nhiên, việc tạo tệp robots.txt vẫn thật sự hữu ích bởi một số lí do:

Vai trò của robots.txt
Vai trò của robots.txt
  • Ngăn chặn tình trạng trùng lặp nội dung (Duplicate Content) xuất hiện trong website (lưu ý rằng những Robot Meta thường là lựa chọn tốt hơn cho việc này)
  • Giữ một số dữ liệu trên trang ở chế độ riêng tư
  • Giữ những trang kết quả tìm kiếm nội bộ không hiển thị trên SERP
  • Chỉ định vị trí của Sitemap
  • Ngăn những công cụ tìm kiếm tiến hành Index một số tệp nhất định trên trang web của bạn (hình ảnh, PDF, …)
  • Sử dụng lệnh Crawl-delay để tiến hành cài đặt thời gian. Việc này giúp ngăn máy chủ của bạn bị quá tải khi các trình thu thập dữ liệu tải nhiều nội dung cùng một lúc.

Tìm hiểu: Atozsolutions – Thiết Kế Website Cao Cấp Cho Doanh Nghiệp, Uy Tín, Chuẩn SEO

Một số điểm hạn chế của file robots.txt

Một số trình duyệt tìm kiếm không hỗ trợ các lệnh trong tệp robots.txt

Không phải công cụ tìm kiếm nào cũng hỗ trợ các lệnh được đề cập trong file robots.txt. Chính vì vậy, cách tốt nhất để bảo mật dữ liệu đó là cài mật khẩu cho các tệp riêng tư trên máy chủ.

Mỗi trình dữ liệu có cú pháp phân tích dữ liệu hoàn toàn khác nhau

Thông thường đối với những trình dữ liệu uy tín sẽ tuân theo quy chuẩn của các lệnh trong tệp robots.txt. Tuy nhiên, mỗi trình tìm kiếm sẽ có những cách giải trình dữ liệu hoàn toàn khác nhau. Một số trình sẽ không thể hiểu được câu lệnh được đề cập ở tệp robots.txt. Do đó, các web developers cần phải nắm rõ cú pháp của từng công cụ thu thập dữ liệu trên website.

Một số điểm hạn chế của file robots.txt
Một số điểm hạn chế của file robots.txt

Bị tệp robots.txt chặn nhưng công cụ Google vẫn có thể index

Cho dù trước đó bạn đã tiến hành chặn một URL trên website nhưng URL đó vẫn còn xuất hiện thì lúc này Google vẫn tiến hành Crawl và index cho URL đó của bạn.

Bạn nên xóa URL đó trên trang web nếu nội dung bên trong không quá quan trọng nhằm bảo mật cao nhất. Bởi vì nội dung trong URL này vẫn có thể xuất hiện khi người dùng tìm kiếm chúng trên Google.

Xem thêm: Thiết Kế Website Bán Hàng Trực Tuyến Chuyên Nghiệp

Một số lưu ý khi dùng tệp robots.txt

Bên dưới là một số lưu ý khi dùng file robots.txt mà bạn cần phải biết:

  • Việc chỉ định những lệnh cho từng User-agent là không cần thiết. Lý do là vì hầu hết những User-agent đều từ một công cụ tìm kiếm và đều tuân theo một quy tắc chung.
  • Tuyệt đối không được sử dụng file robots.txt nhằm mục đích ngăn chặn các dữ liệu riêng tư như thông tin người dùng vì Googlebot sẽ bỏ qua những lệnh trong tệp robots.txt nên khả năng bảo mật không cao.
  • Để bảo mật dữ liệu cho trang web cách tốt nhất là dùng mật khẩu riêng cho các tệp hoặc URL không muốn truy cập trên website. Tuy nhiên, bạn không nên lạm dụng lạm dụng lệnh robots.txt vì đôi khi nó sẽ phản tác dụng.

File robots.txt nằm ở đâu trên cùng một trang web?

Khi bạn tạo trang web bằng nền tảng WordPress, nó sẽ tự động tạo ra một file robots.txt đặt ngay bên dưới thư mục gốc của server.

Vị trí của file robots.txt
Vị trí của file robots.txt

Ví dụ, nếu site của bạn đặt trong thư mục gốc của địa chỉ là atozsolutions.vn. Bạn có thể truy cập tệp robots.txt ở đường dẫn atozsolutions.vn/robots.txt, kết quả như sau:

User-agent: *

Disallow: /wp-admin/

Allow: /wp-admin/admin-ajax.php

Hãy nhớ rằng đây là một tập tin ảo, được WordPress tự động tạo khi cài đặt và không thể chỉnh sửa (mặc dù nó vẫn hoạt động). Thông thường, tập tin robots.txt mặc định của WordPress được đặt trong thư mục gốc, thường là public_html hoặc www (hoặc tên miền website). Để tạo một tập tin robots.txt riêng cho trang web của bạn, bạn cần tạo một tập tin mới để thay thế tập tin cũ trong thư mục gốc đó.

Xem thêm: Giải đáp: Chi phí duy trì website gồm những gì và bao nhiêu tiền? 

3 cách tạo file robots.txt WordPress đơn giản

Trên thực tế, việc tạo ra file robots.txt WordPress giúp cho các nhà quản trị web linh hoạt, chủ động hơn trong việc cho phép hoặc không cho các con bot của công cụ Google index một số phần nào đó trong trang của mình.

Nếu sau khi kiểm tra, bạn cảm thấy website của mình không có tệp robots.txt hoặc đơn giản là bạn đang muốn thay đổi tệp robots.txt của mình. Bên dưới là 3 cách để bạn có thể tự tạo robots.txt cho WordPress:

Cách 1: Sử dụng Yoast SEO

  • Bước 1: Đầu tiên, bạn đăng nhập vào trang quản trị web của bạn trên WordPress.
  • Bước 2: Lựa chọn mục SEO > Chọn Tools.
  • Bước 3: Chọn File editor.

Như vậy, bạn sẽ thấy được mục robots.txt và .htaccess file. Đây là nơi mà bạn có thể tạo file robots.txt.

Cách 2: Tạo bằng bộ Plugin All in One SEO

Bạn có thể dùng bộ Plugin All in One SEO để tạo ra một file robots.txt WordPress. Đây cũng là một plugin tiện ích cho WordPress đơn giản và nhanh chóng.

3 cách tạo file robots.txt WordPress đơn giản
3 cách tạo file robots.txt WordPress đơn giản

Để tạo file robots.txt WordPress, bạn tiến hành thực hiện theo một số bước sau:

  • Bước 1: Tiến hành truy cập giao diện chính của Plugin All in One SEO Pack. Nếu các bạn chưa có bộ Plugin, hãy tải về TẠI ĐÂY.
  • Bước 2: Lựa chọn All in One SEO > Chọn Feature Manager > Nhấp vào Activate cho mục Robots.txt.
  • Bước 3: Tạo lập và tiến hành điều chỉnh file robots.txt WordPress cho phù hợp với trang của bạn.

Cách 3: Tạo rồi tải file robots.txt qua FTP

Nếu các bạn không muốn dùng plugin để tạo file robots.txt WordPress thì có thể tự tạo tệp robots.txt thủ công. Để tạo file robots.txt WordPress bằng tay bằng phương pháp tạo rồi tiến hành upload file robots.txt thông qua FTP, bạn có thể thực hiện theo những bước sau đây:

  • Bước 1: Tiến hành Notepad hoặc Textedit để tạo mẫu file robots.txt WordPress.
  • Bước 2: Mở FTP > Lựa chọn thư mục public_html > Chọn file robots.txt > Chọn Upload.

Xem thêm: Mẫu Thiết Kế Website Nội Thất Đẹp, Chuyên Nghiệp, Giá Rẻ

Làm thế nào để kiểm tra website đã có file robots.txt không?

Nếu các bạn vẫn băn khoăn và chưa biết trang web của mình đã có file robots.txt hay chưa thì vẫn có thể kiểm tra. Hãy nhập Root Domain của bạn, sau đó thêm đuôi /robots.txt vào cuối URL. Nếu các bạn không thấy xuất hiện trang .txt thì chắc chắn website của bạn chưa được tạo robots.txt cho WordPress.

Ví dụ: Nhập Root Domain (atozsolutions.vn) > chèn /robots.txt vào cuối (kết quả là atozsolutions.vn/robots.txt) > Nhấn Enter. Và đợi kết quả là biết ngay nhé!

Câu hỏi thường gặp liên quan đến file robots.txt

  • Kích thước tối đa của một file robots.txt là bao nhiêu?

Trả lời: Kích thước tối đa của một file robots.txt Khoảng 500 kilobyte.

  • File robots.txt WordPress nằm ở đâu trên trang web?

Trả lời: Bạn có thể tìm file robots.txt WordPress tại vị trí domain.com/robots.txt.

  • Làm cách nào để có thể tiến hành chỉnh sửa robots.txt WordPress?

Trả lời: Bạn có thể thực hiện theo cách thủ công hay dùng một trong nhiều plugin WordPress SEO như Yoast. Khi đó, bạn có thể chỉnh sửa robots.txt từ WordPress backend.

  • Điều gì xảy ra nếu Disallow vào nội dung Noindex trong file robots.txt?

Trả lời: Nếu Disallow vào nội dung Noindex trong file robots.txt thì Google sẽ không bao giờ thấy lệnh Noindex. Bởi vì nó không thể Crawl dữ liệu trang.

Vậy là bạn đã hiểu được Robots.txt là gì? Robots.txt là file vô cùng quan trọng trong trang web của bạn. Vì vậy, bạn hãy kiểm tra và tạo file để trang web hoạt động tốt nhất nhé. Nếu còn có bất kỳ thắc mắc nào, hãy cmt bên dưới để ATOZ giải đáp chi tiết nhé.