File robots.txt là gì? 3 cách tạo robots.txt chuẩn SEO 2022

Robots.txt là gì? Tạo dữ liệu này ảnh hưởng như thế nào tới việc Googlebot nhanh Index hoặc không? Làm cách nào để mọi người thiết lập cấu trúc cơ bản của tập thông tin hoàn chỉnh? Qua bài viết dưới đây các bạn sẽ được giải đáp mọi thắc mắc và hướng dẫn những bước cụ thể. Hãy cùng tham khảo ngay thông tin chi tiết nhé!

Robots.txt là một File văn bản đơn giản dưới dạng .txt. Dữ liệu của một phần Robots Exclusion Protocol chứa các tiêu chuẩn Web quy định cách Robot thu thập thông tin, truy cập, Index nội dung và cung cấp mọi thứ cho người dùng. REP cũng chứa những lệnh như Meta Robots, Page-Subdirectory và Site-Wide Instructions.

robots txt 1 1
Robots.txt là một File văn bản đơn giản dưới dạng .txt.

Nhiệm vụ của REP sẽ hướng dẫn công cụ của Google xử lý các liên kết, ví dụ: Follow hay Nofollow Link. Trên thực tế, nhà quản trị giúp các Web linh hoạt hơn bằng việc tạo dữ liệu Robots. Bên cạnh đó, con Bot của công cụ Google sẽ nằm dưới sự kiểm soát rằng có được phép Index một số phần nào đó trong trang cụ thể hay không.

2. Cú pháp của file robots.txt

Các cú pháp được cho là những ngôn ngữ cụ thể của tập tin robots.txt. 5 thuật ngữ phổ biến mà mọi người sẽ thường thấy trong một file dữ liệu là: User-agent, Disallow, Allow, Crawl-delay và Sitemap. Trong phần tiếp theo aetc.edu.vn và bạn sẽ tìm hiểu kỹ hơn về nội dung này.

2.1 Pattern – Matching

Thực tế các file robots khá phức tạp để bạn có thể ngăn cản hoặc cho phép Bot sử dụng tính năng Pattern-Matching và bao quát các tùy chọn của URL. Tất cả các tool của Google và Bing giúp sử dụng 2 biểu thức chính để xác định một trang hay thư mục con mà SEO muốn loại bỏ. Hai ký tự này là:

  • * Đại diện cho bất kỳ chuỗi ký tự nào, được áp dụng cho Bots của các công cụ Google.
  • $ Ký tự phù hợp với URL của phần cuối.

2.2 Định dạng cơ bản của file robots.txt

Tệp Robots có định dạng cơ bản sau:

User-agent:
Disallow:
Allow:
Crawl-delay:
Sitemap:

Tuy nhiên, người dùng có thể bỏ qua các phần Crawl-delay và Sitemap. Trong thực tế thì tập tin chứa nhiều dòng User-agent và nhiều chỉ thị của user hơn. Chẳng hạn các loại lệnh như: DisallowAllowCrawl-delay, … Trong file dữ liệu, bạn chỉ định cho nhiều con Bot khác nhau. Mỗi lệnh thường được viết ly thân, cách nhau bởi 1 dòng hoặc viết liên tục không xuống hàng tùy thuộc vào sự sắp xếp của quản trị viên.

2.3 File robots.txt chuẩn

Để ngăn cản tất cả các Web Crawler không được lấy bất kỳ dữ liệu nào trên website bao gồm cả trang chủ, các bạn hãy làm theo cú pháp sau:

User-agent: *
Disallow: /

Người dùng có thể cho phép mọi trình thu thập thông tin truy cập vào các nội dung trên Website bao gồm cả trang chủ. bằng thuật toán sau:

User-agent: *
Disallow: 

Nhằm chặn trình thu thập, tìm kiếm thông tin của Google (User-agent: Googlebot) tránh lấy những trang có chứa chuỗi URL www.example.com/example-subfolder/, mọi người hãy sử dụng cú pháp sau:

User-agent: Googlebot
Disallow: /example-subfolder/

Để ngăn trình thu thập thông tin của Bing (User-agent: Bing) không có được dữ liệu trên trang cụ thể tại www.example.com/example-subfolder/blocked-page,các bạn hãy sử dụng cú pháp sau:

User-agent: Bingbot
Disallow: /example-subfolder/blocked-page.html
robots txt 3 1
File robots.txt chuẩn

3. Tại sao bạn cần tạo file robots.txt?

Tệp robots kiểm soát quyền truy cập của trình thu thập thông tin ở các khu vực nhất định trên trang Web. Mặc dù điều này có thể gây nguy hiểm nếu bạn vô tình không để Googlebot thu thập dữ liệu toàn bộ Website nhưng có một số trường hợp mà tập robots.txt có thể rất hữu ích. Cụ thể là:

  • Ngăn nội dung trùng lặp xuất hiện trong SERP (lưu ý rằng meta robots thường là lựa chọn tốt hơn).
  • Giữ toàn bộ các mục của trang Web ở trạn thái riêng tư. Ví dụ: Trang mạng của nhóm kỹ sư.
  • Giữ cho các trang kết quả tìm kiếm nội bộ không xuất hiện trên SERP công khai.
  • Chỉ định vị trí của sitemap(s).
  • Ngăn các công cụ tìm kiếm khỏi Index các tệp nhất định trên một Website cụ thể (hình ảnh, PDFs,…).
  • Chỉ định độ trễ lúc thu thập thông tin để ngăn máy chủ bị quá tải khi Crawlers chạy nhiều phần nội dung cùng một lúc.
robots txt 4
Tệp robots kiểm soát quyền truy cập của trình thu thập thông tin

4. File robots.txt hoạt động như thế nào?

Để thu thập dữ liệu các trang Web, các công cụ tìm kiếm đi theo các liên kết từ trang này sang trang khác. Cuối cùng, thu thập thông tin qua hàng tỷ Link và Website. Hành vi này đôi khi được gọi là “thêu thùa”. Do vậy, hai nhiệm vụ chính là:

  • Thu thập thông tin trên Web để tìm hiểu nội dung.
  • Lập chỉ mục nội dung đó để có thể phục vụ cho những người đang tìm kiếm thông tin.
robots txt 5
Thu thập thông tin trên Web để tìm hiểu nội dung

5. Công dụng và hạn chế của robots.txt

Công cụ cho phép Bot của công cụ tìm kiếm được xâm nhập vào dữ liệu nào và không vào tập tin nào. Từ đó, việc lập chỉ mục được chính xác hơn và trang Web có thể Index nhanh hơn. Có thể thấy, File đem lại rất nhiều công dụng nhưng bên cạnh đó cũng tồn tại những hạn chế. Trong nội dung dưới đây hãy cùng aetc.edu.vn tìm hiểu đó là gì.

5.1 Công dụng của robots.txt

Các bạn hãy cùng tìm hiểu lợi ích của tập robot txt là gì?

5.1.1 Chặn công cụ tìm kiếm khi Website chưa hoàn thiện

Trong quá trình mới xây dựng và hoạt động thử Website, bạn cần thời gian để hoàn thiện cấu trúc và nội dung. Chính vì vậy, quản trị viên không muốn các trình duyệt truy cập và Index trang mạng lúc này. Việc này không giúp ích cho SEO và chất lượng web có thể bị đánh giá thấp. Tệp robots.txt hỗ trợ User ngăn chặn những nguy cơ cao.

robots txt 6
Tệp robots.txt hỗ trợ User ngăn chặn những nguy cơ cao

5.1.2 Chặn trang tìm kiếm với các kết quả xấu

Một Website muốn phát triển tốt, quản trị viên cần Google đánh giá URL có lợi. Vì vậy, vấn đề thiết lập các tiêu chuẩn cho trình tìm kiếm sẽ giúp ngăn cản các URL không đạt chuẩn và gây hại đến quá trình hoạt động của trang mạng.

5.1.3 Chặn các công cụ thu thập liên kết website

Một số công cụ nghiên cứu từ khóa như Ahref, Top page, Organic Keyword,… giúp User thu thập dữ liệu trang chỉ với địa chỉ Website. Tuy nhiên, điều này khiến đối thủ có thể biết thông tin và phân tích về Web của bạn. Từ đó “bắt chước” nội dung hoặc cạnh tranh với các từ khóa trên TOP để khắc phục vấn đề mọi người cần sử dụng các lệnh chặn.

robots txt 7
Đối thủ có thể biết thông tin và phân tích về Web của bạn

5.2 Hạn chế của robots.txt

Ưu điểm của robots.txt có nhiều đặc điểm nổi bật. Tuy nhiên, nội dung tiếp theo aetc.edu.vn sẽ đề cập tới những mặt còn tồn tại của file dữ liệu Robots. Cùng xem ngay nhé!

5.2.1 Không phải tất cả các trình duyệt tìm kiếm đều hỗ trợ các lệnh trong tệp robots.txt

Các tiêu chuẩn trên tệp Robots khi được cài đặt không áp dụng cho tất cả Bot của các công cụ tìm kiếm. Một số trình thu thập thông tin có quyền chọn tuân theo tập hoặc không. Do vậy, phương pháp bảo mật dữ liệu tốt nhất chính là sử dụng mật khẩu cho các File riêng tư trên máy chủ.

5.2.2 Mỗi trình dữ liệu có cú pháp phân tích dữ liệu riêng

Một số trình dữ liệu chất lượng sẽ tuân theo quy chuẩn của các lệnh trong tệp. Tuy nhiên, phương thức giải trình dữ liệu của mỗi công cụ tìm kiếm khác nhau. Có những trình sẽ không thể nhận biết được câu lệnh cài trong tệp Robots. Do đó, quản trị viên cần nắm rõ cú pháp cho từng cách thu thập dữ liệu trên Website.

robots txt 8
Hạn chế của robots.txt

5.2.3 Google vẫn có thể index các trang bị tệp robots.txt chặn

Với trường hợp bạn đã ngăn cản một URL hoặc File trên Web nhưng vấn đề đó vẫn xuất hiện trên trang khác thì Google vẫn có thể đọc được và lập chỉ mục. Nội dung trong dữ liệu vẫn sẽ được phát hiện khi tìm kiếm. Nếu URL đó chưa thật sự cần thiết bạn có thể xóa toàn bộ URL trên trang mạng để bảo mật cao nhất.

6. File robots.txt nằm ở đâu trên một website?

Khi bạn xây dựng Website WordPress, hệ thống sẽ tự động tạo ra một File Robot.txt nằm dưới thư mục gốc của server. Ví dụ: Nếu Site đặt trong Folder ban đầu của địa chỉ seodo.com, User có thể truy cập tập tin ở đường dẫn seodo.com/robots.txt, kết quả hiển thị sẽ tương tự như sau:

User-agent: *
Disallow: /wp-admin/
Disallow: /wp-includes/
robots txt 9.webp
Hệ thống sẽ tự động tạo ra một File Robot.txt nằm dưới thư mục gốc của server

Phần sau User-agent: dấu * có nghĩa là quy định được sử dụng cho mọi loại Bots trên Website. Với trường hợp này, File sẽ nói cho Bots không được phép vào trong dữ liệu thư mục wp-admin và wp-includes. Chính vì vậy 2 Folder này chứa rất nhiều tập thông tin nhạy cảm. Để tạo Robots txt cho riêng biệt thì bạn cần một mục mới để thay thế cái cũ.

7. Làm thế nào để kiểm tra website có file robots.txt không?

Nếu người dùng đang phân vân không biết Website của bản thân có tệp robots txt không thì hãy nhập Root Domain và thêm /robots.txt vào cuối URL. Nếu bạn không có .txt xuất hiện thì chắc rằng trang mạng bạn đã không tạo cho WordPress. Tương tự, user có thể kiểm tra seodo.com có tạo File hay không bằng cách như sau: Nhập Root Domain (seodo.com) > điền /robots.txt vào cuối > Nhấn Enter và đợi kết quả.

robots txt 10 800x175 1
Root Domain và thêm /robots.txt vào cuối URL

8. Quy tắc nào cần được bổ sung vào trong file robots.txt WordPress?

Hiện tại, hệ thống đều xử lý một quy tắc tại một thời điểm. Tuy nhiên, nếu bạn muốn áp dụng điều khoản khác nhau cho Bot thì chỉ cần thêm từng nội dung trong phần khai báo User-agent. Ví dụ: Nếu người dùng muốn thiết lập tiêu chuẩn để áp dụng với mọi Bot và mặt khác chỉ dành cho Bingbot, bạn có thể thực hiện như sau:

User-agent: *
Disallow: /wp-admin/
User-agent: Bingbot
Disallow: /
robots txt 11
Hệ thống đều xử lý một quy tắc tại một thời điểm

9. Tìm hiểu 3 Cách tạo file robots.txt WordPress chuẩn SEO 2022

Khi kiểm tra, bạn thấy rằng Website không có tệp robots.txt hay User muốn thay đổi thì có thể tham khảo 3 cách dùng cho WordPress dưới đây:

9.1 Sử dụng Yoast SEO

Bạn có thể điều chỉnh hoặc tạo File txt cho WordPress trên chính Dashboard với cách thực hiện đơn giản. Quản trị viên tiến hành đăng nhập vào Website sau đó nhìn bên trái màn hình, nhấn vào SEO > Tools > File editor.

robots txt 12
Sử dụng Yoast SEO

Tính năng File Editor sẽ không hiển thị nếu WordPress của bạn vẫn chưa được kích hoạt trình quản lý File. Do dó, quản trị viên hãy kích hoạt thông qua File Transfer Protocol – Giao thức truyền tập tin. Khi đó, User sẽ thấy mục robots txt và .htaccess file, nơi giúp tạo dữ liệu.

9.2 Sử dụng bộ Plugin All in One SEO

Ngoài ra, User có thể sử dụng bộ Plugin All in One SEO để tạo File Robot.txt. Đây cũng là một plugin tiện lợi cho WordPress. Để tạo Robots, bạn phải truy cập giao diện chính của Plugin All in One SEO Pack. Tiếp theo, người dùng chọn All in One SEO > Features Manager > Nhấp Active cho mục Robots txt. Lúc này, trên màn hình sẽ xuất hiện nhiều tính năng thú vị.

robots txt 13 800x235 1
User có thể sử dụng bộ Plugin All in One SEO để tạo File Robot.txt

Khi đó, mục robots.txt sẽ hiển thị như một Tab mới trong thư mục lớn All in One SEO. Quản trị viên có thể thiết lập cũng như thay đổi File tại đây.

9.3 Tạo rồi upload file robots.txt qua FTP

Nếu bạn không muốn sử dụng plugin để tạo File Robots WordPress thì có thể tự thiết lập thủ công. User chỉ cần sử dụng Notepad hoặc Textedit để tạo mẫu theo Rule đã đề cập. Sau đó, người dùng upload qua FTP mà không cần Plugin, quá trình này rất đơn giản và không tốn quá nhiều thời gian.

10. Robots.txt vs meta robots vs x-robots

Trên hệ thống có nhiều loại robots. Đầu tiên, robots.txt là một tệp văn bản thực, trong khi meta và x-robot là các lệnh Meta. Bên cạnh đó, cả ba đều có nhiệm vụ và chức năng khác nhau. Robots txt ra lệnh thu thập thông tin trên toàn bộ trang Web hoặc thư mục, trong khi Meta và x-robots có thể lập chỉ mục ở cấp độ trang riêng lẻ (hoặc phần tử trang).

robots txt 14
Robots.txt vs meta robots vs x-robots

Trên đây là tất cả nội dung về chủ đề “File robots.txt là gì? 3 cách tạo robots.txt chuẩn SEO 2022″. Hy vọng rằng qua bài viết các bạn có thể đã nắm rõ về tập tin này và cách sử dụng để có thể tối ưu trang Web theo chuẩn SEO. Nếu có bất kỳ những thắc mắc nào liên quan tới các hoạt động trên Website, hãy liên hệ ngay với aetc.edu.vn để được tư vấn nhé!

Chinh phục top Google nhờ những phương pháp SEO kỹ thuật trong các bài viết sau đây:

      • Slug là gì? Cách tối ưu Slug cho SEO 2022
      • Cách Submit Url lên Google đơn giản và nhanh chóng updated 2022
      • Tổng hợp 10 cách tối ưu tăng tốc website WordPress updated 2022
      • Technical SEO: Chuẩn Hóa SEO Kỹ Thuật Cập Nhật Năm 2022

Related Posts

Leave a Reply

Your email address will not be published. Required fields are marked *