File robots.txt là gì và nó có cần cho website hay không

https://www.hostinger.vn/huong-dan/huong-dan-tao-file-robots-txt-cho-wordpress/#WordPressrobotstxt-la-gi-va-ly-do-ban-can-su-dung-no

File robots.txt là gì và vì sao nó quan trọng

Khi bạn tạo mới một website, search engine sẽ gửi những con bọ máy tính (bots) tới để ‘quét’ qua nó và tạo ra một bản đồ chứa các trang web trong nó. Bằng cách này, chúng biết được trang nào cần thể hiện kết quả khi ai đó tìm từ khóa liên quan. Cơ bản như vậy là đã đủ.

Nhưng vấn đề nảy sinh khi các website hiện chứa nhiều thành phần hơn là trang web. WordPress cho phép bạn tạo plugins, thường thì nó có thư mục riêng của chúng. Bạn sẽ không muốn những trang này hiện lên kết quả tìm kiếm, vì thực ra nó không có nội dung giá trị.

File robots.txt tạo ra một bộ chỉ dẫn cho search engine bots. Nó nói với chúng: “Hey, mày có thể xem ở đây, nhưng không đi vào những phòng khác ở kia!”. File này có thể rất chi tiết tùy theo mức độ bạn muốn. Nó cũng dễ tạo và không đòi hỏi kiến thức kỹ thuật gì nhiều.

Trên thực tế, trình tìm kiếm sẽ quét site của bạn kể cả khi bạn không có cài file robots.txt. Nhưng sẽ không đạt hiểu quả cao, do bot sẽ index toàn bộ nội dung của bạn, và quét sâu đến độ có thể nó sẽ hiển thị những nơi bạn không muốn người khác truy cập vào.

Hơn nữa, nếu không có file robots.txt, bạn sẽ có nhiều nhiều loại bots quét tới quét lui toàn bộ site của bạn. Vì vậy sẽ gây ảnh hưởng tiêu cực đến hiệu năng hoạt động của site. Tốc độ trang là yếu tố quan trọng để được tính xếp hạng. Và như bạn biết, không ai thích vào một site truy cập chậm khả (kể cả chủ trang web như chúng ta!). Vì vậy, tạo một file robots.txt chuẩn cho WordPress là cách đơn giản nhưng đạt hiệu quả cao cho website của bạn.

File robots.txt WordPress nằm ở đâu

Khi bạn tạo website WordPress, nó sẽ tự động tạo ra một file robots.txt đặt ngay bên dưới thư mục gốc của server. Ví dụ, nếu site của bạn đặt trong thư mục gốc của địa chỉ yourfakewebsite.com, bạn sẽ có thể truy cập file robots.txt ở đường dẫn yourfakewebsite.com/robots.txt, kết quả ban đầu sẽ tương tự như sau:

  1. User-agent: *
  2. Disallow: /wp-admin/
  3. Disallow: /wp-includes/

Đây là ví dụ file robots.txt cơ bản. Phần sau User-agent: Dấu * có nghĩa là quy tắc được áp dụng cho mọi loại bots trên khắp nơi trên website. Trong trường hợp này, file này sẽ nói cho bots biết là chúng không được phép vào trong file thư mục wp-admin và wp-includes. Rất hợp lý phải không, vì 2 thư mục này chứa rất nhiều file thông tin nhạy cảm.

Hãy nhớ, đây là một file ảo, do WordPress tự thiết lập mặc định khi cài đặt và không chỉnh sửa được (mặc dù nó vẫn hoạt động). Thường thì, vị trí file robots.txt WordPress chuẩn được đặt trong thư mục gốc, thường được gọi là public_html và www (hoặc tên website). Và để tạo file robots.txt cho riêng bạn thì bạn cần tạo một file mới để thay thế file cũ đặt trong thư mục gốc đó.

thư mục gốc của website

Ở hướng dẫn tiếp theo, chúng tôi sẽ chỉ bạn nhiều cách để tạo mới file robots.txt cho WordPress chỉ trong 1 phút. Giờ thì, hãy nghiên cứu về các quy tắc (rules) mà bạn nên sử dụng trong file này.