Trong quá trình tối ưu SEO cho website WordPress, file robots.txt đóng một vai trò vô cùng quan trọng. Đây là công cụ giúp bạn kiểm soát cách các công cụ tìm kiếm thu thập dữ liệu và lập chỉ mục nội dung trên website. Trong bài viết này, ATOZ Solutions sẽ giải thích file robots.txt là gì, cách hoạt động, tại sao cần tạo file robots.txt, cũng như hướng dẫn bạn 3 cách tạo file robots.txt WordPress đơn giản, dễ thực hiện.
File robots.txt là gì?
File robots.txt là một tệp văn bản đơn giản với phần mở rộng .txt, thuộc về Robots Exclusion Protocol (REP). File này chứa các chỉ dẫn cho các công cụ tìm kiếm (search engine bots) về việc thu thập dữ liệu, truy cập và lập chỉ mục nội dung trên website.
Nói cách khác, robots.txt WordPress giúp bạn quyết định phần nào của website được các bot “cào dữ liệu” và phần nào cần bảo mật hoặc không hiển thị trong kết quả tìm kiếm.

>>> Đọc thêm: Domain là gì? Vai trò và cách lựa chọn Domain tối ưu cho Website
Cú pháp cơ bản của file robots.txt
Một file robots.txt được viết theo ngôn ngữ riêng của các tệp robots.txt, với các thuật ngữ phổ biến sau:
- User-agent: Xác định bot nào sẽ tuân theo quy tắc. Ví dụ: Googlebot, Bingbot.
- Disallow: Chỉ định URL hoặc thư mục mà bot không được phép thu thập dữ liệu. Mỗi URL sử dụng 1 dòng Disallow.
- Allow: Chỉ áp dụng cho Googlebot, cho phép bot truy cập một trang hoặc thư mục con mặc dù thư mục cha bị chặn.
- Crawl-delay: Thông báo cho bot chờ bao nhiêu giây trước khi thu thập dữ liệu để tránh quá tải máy chủ. Lưu ý Google không hỗ trợ lệnh này.
- Sitemap: Chỉ định vị trí sitemap XML để bot dễ dàng tìm kiếm và lập chỉ mục nội dung.
Ví dụ file robots.txt cơ bản trong WordPress:
User-agent: *
Disallow: /wp-admin/
Disallow: /wp-includes/
Sitemap: https://example.com/sitemap.xml
Tại sao bạn cần tạo file robots.txt?
Việc tạo robots.txt WordPress mang lại nhiều lợi ích cho website, đặc biệt là về SEO và bảo mật:
- Ngăn chặn nội dung trùng lặp trên website.
- Giữ một số phần của trang web ở chế độ riêng tư.
- Ngăn trang nội bộ hiển thị trên kết quả tìm kiếm (SERP).
- Chỉ định vị trí sitemap để các công cụ tìm kiếm dễ lập chỉ mục.
- Ngăn Google index các tệp không cần thiết như hình ảnh, PDF.
- Sử dụng Crawl-delay để hạn chế quá tải máy chủ khi bot thu thập dữ liệu.
Những hạn chế của file robots.txt
Dù hữu ích, file robots.txt cũng có một số nhược điểm:
- Một số công cụ tìm kiếm không hỗ trợ tất cả lệnh trong robots.txt.
- Các bot phân tích cú pháp robots.txt theo cách riêng, dẫn đến khác biệt.
- Google vẫn có thể lập chỉ mục các trang bị chặn nếu có liên kết từ website khác.
Vì vậy, robots.txt không phải là phương pháp tuyệt đối để bảo mật dữ liệu.
File robots.txt hoạt động như thế nào?
File robots.txt hoạt động theo 2 bước chính:
- Crawl dữ liệu (Spidering): Bot đi theo các liên kết từ trang này sang trang khác để khám phá nội dung.
- Index nội dung: Dựa trên chỉ dẫn trong robots.txt, bot quyết định trang nào được lập chỉ mục, trang nào bị chặn.
Lưu ý: Nếu website không có file robots.txt hoặc tệp này trống, bot sẽ tự do thu thập dữ liệu tất cả các trang.

>>> Đọc thêm: Google Crawl là gì? Tất tần tật về Google Crawler 2025
File robots.txt nằm ở đâu trên website?
Trong WordPress, file robots.txt thường được đặt trong thư mục gốc của server (public_html hoặc www). Truy cập file tại: https://example.com/robots.txt
Một số lưu ý:
- WordPress tự tạo file robots.txt ảo mặc định, nhưng không thể chỉnh sửa trực tiếp.
- Bạn có thể tạo file robots.txt riêng và upload lên thư mục gốc để thay thế file mặc định.
Cách kiểm tra website có file robots.txt hay không
Để kiểm tra:
- Nhập URL gốc của website + /robots.txt.
Ví dụ: https://example.com/robots.txt - Nếu file xuất hiện, website đã có robots.txt.
- Nếu không thấy, website chưa có file robots.txt hoặc chưa được tạo.
Quy tắc bổ sung trong robots.txt WordPress
Bạn có thể áp dụng các quy tắc khác nhau cho từng bot bằng cách khai báo User-agent riêng:
User-agent: *
Disallow: /wp-admin/
User-agent: Bingbot
Disallow: /
- Tất cả bot bị chặn truy cập /wp-admin/.
- Bingbot bị chặn truy cập toàn bộ website.
3 cách tạo file robots.txt WordPress đơn giản
Cách 1: Sử dụng Yoast SEO
- Đăng nhập WordPress Dashboard.
- Chọn SEO > Tools > File Editor.
- Tại đây bạn có thể tạo và chỉnh sửa file robots.txt trực tiếp.
Cách 2: Sử dụng plugin All in One SEO
- Truy cập giao diện All in One SEO.
- Chọn Feature Manager > Activate Robots.txt.
- Tạo và điều chỉnh file robots.txt theo nhu cầu.
Lưu ý: Plugin này làm mờ thông tin robots.txt để hạn chế rủi ro từ các bots độc hại.

Cách 3: Tạo và upload thủ công qua FTP
- Dùng Notepad hoặc TextEdit tạo file robots.txt.
- Kết nối FTP, vào thư mục public_html.
- Upload file robots.txt lên thư mục gốc.
>>> Đọc thêm: Hướng dẫn cách trỏ tên miền về hosting đơn giản, nhanh chóng
Câu hỏi thường gặp về robots.txt
Khi quản trị website, nhiều người thường thắc mắc về robots.txt và cách sử dụng nó hiệu quả. Dưới đây là những câu hỏi phổ biến nhất:
Câu 1. File robots.txt là gì?
Trả lời: File robots.txt là một tập tin văn bản được đặt ở thư mục gốc của website. Nó giúp hướng dẫn các công cụ tìm kiếm (Googlebot, Bingbot…) về các trang hoặc thư mục nào được phép hoặc không được phép thu thập dữ liệu và lập chỉ mục.
Câu 2. Kích thước tối đa của file robots.txt là bao nhiêu?
Trả lời: Kích thước tối đa của file robots.txt thường là khoảng 500 KB. Nếu file lớn hơn, một số bot có thể chỉ đọc phần đầu của file và bỏ qua phần còn lại, dẫn đến việc lập chỉ mục không đầy đủ.
Câu 3. File robots.txt WordPress nằm ở đâu trên website?
Trả lời: File robots.txt chuẩn được đặt tại thư mục gốc của website, ví dụ: https://www.example.com/robots.txt. Nếu bạn sử dụng nhiều subdomain, mỗi subdomain cần một file robots.txt riêng.
Câu 4. Làm cách nào để chỉnh sửa robots.txt WordPress?
Trả lời: Bạn có thể chỉnh sửa file robots.txt bằng 2 cách chính:
- Qua plugin SEO: Yoast SEO hoặc All in One SEO cho phép tạo và chỉnh sửa file trực tiếp từ WordPress Dashboard.
- Thủ công: Tạo file robots.txt trên máy tính và upload lên thư mục gốc qua FTP.
Câu 5. Điều gì xảy ra nếu Disallow vào nội dung Noindex trong robots.txt?
Trả lời: Nếu bạn chặn một trang Noindex trong robots.txt, Google sẽ không thể đọc lệnh Noindex vì bot không được phép crawl trang đó. Kết quả là trang có thể vẫn xuất hiện trên SERP mặc dù bạn muốn ẩn.
File Robots.txt giúp kiểm soát truy cập bot hiệu quả, tối ưu SEO cho website của bạn. Nếu cần hỗ trợ thiết lập và quản lý file Robots.txt chuẩn, hãy liên hệ ATOZ Solutions để được tư vấn chuyên nghiệp và tận tâm.
Liên hệ:
- Địa chỉ: 1/1 Hoàng Việt, P. 4, Q. Tân Bình, TP. HCM
- Email: [email protected]
- Hotline: +84 968 777 215
- Fanpage: ATOZ Solutions – Giải pháp công nghệ





