Crawl là gì? Crawl là một phần mềm dành cho Google và các công cụ tìm kiếm khác sử dụng để quét các trang Web. Trình thu thập thông tin chính của Google (Googlebot) sẽ thu thập dữ liệu từ trang này sang trang khác, tìm kiếm nội dung mới hoặc cập nhật mới. Từ đó xếp hạng web theo dữ liệu được truy xuất. Để hiểu rõ hơn về phần mềm này, hãy cùng aetc.edu.vn tìm hiểu kỹ hơn trong bài viết dưới đây nhé!
1. Google crawler hoạt động như thế nào?
Google (hay bất kỳ công cụ tìm kiếm nào) không có hồ sơ đăng ký trung tâm của URLs sẽ được cập nhật dữ liệu mỗi khi một trang mới được tạo. Điều này có nghĩa là Google không tự động nhận biết về các trang mới mà phải sử dụng phần mềm để tìm trên web. Googlebot liên tục dò tìm trên Internet để tìm kiếm và thêm các trang mới vào cơ sở dữ liệu của các trang hiện có của Google.
Khi Googlebot phát hiện ra một trang mới, phần mềm này sẽ hiển thị trang đó trong trình duyệt bằng cách tải tất cả HTML, mã của bên thứ ba, JavaScript và CSS. Thông tin này được lưu trữ trong cơ sở dữ liệu của công cụ tìm kiếm và được sử dụng để lập chỉ mục và xếp hạng trang. Nếu đã được lập chỉ mục, trang đó sẽ được thêm vào Google Index. Đây là một cơ sở dữ liệu siêu khổng lồ nữa của Google.

2. Cách mà Google crawl từng trang website của bạn
Google crawl sẽ hiển thị một trang trong phiên bản mới nhất của trình duyệt Chromium. Trong điều kiện hoàn hảo, Google crawl “nhìn thấy” trang của bạn theo cách bạn đã thiết kế và xây dựng web.
2.1. Kết xuất thông tin từ cả Mobile lẫn Desktop
Googlebot có thể tìm thấy trang web của bạn nhờ vào hai loại trình thu thập thông tin phụ đó là Googlebot Desktop và Googlebot Smartphone. Sự phân chia này là cần thiết để Google lập chỉ mục các trang cho cả SERP trên máy tính và thiết bị di động.
Trước đây, Google đã sử dụng trình thu thập thông tin trên máy tính để bàn để tìm kiếm và hiển thị hầu hết các trang. Nhưng mọi thứ đã thay đổi khi thiết bị di động ra đời. Google nghĩ rằng thế giới đã đủ thân thiện với thiết bị di động nên đã bắt đầu sử dụng Googlebot Smartphone. Phần mềm này sẽ thu thập thông tin, lập chỉ mục và xếp hạng các trang web cho cả SERP trên thiết bị di động lẫn máy tính để bàn.

Tuy nhiên, việc lập chỉ mục ưu tiên trên thiết bị di động diễn ra khó hơn dự kiến. Bởi internet rất lớn và hầu hết các trang web được thiết kế kém thân thiện với thiết bị di động. Điều này khiến Google crawl ưu tiên thu thập thông tin và lập chỉ mục các trang web mới và những trang đã tối ưu hóa hoàn toàn cho thiết bị di động. Một trang web không thân thiện với Mobile, sẽ được Googlebot Desktop thu thập dữ liệu và hiển thị trực tiếp.
Ngay cả khi trang web của bạn đã được chuyển đổi sang tính năng ưu tiên lập chỉ mục trên thiết bị di động, thì vẫn sẽ có một số trang được Googlebot Desktop thu thập thông tin. Vì Google muốn kiểm tra cách trang web của bạn hoạt động trên Desktop. Google không trực tiếp nói rằng sẽ lập chỉ mục phiên bản dành cho máy tính của bạn nếu khác nhiều so với phiên bản dành cho thiết bị di động.
2.2. Kết xuất thông tin từ cả HTML lẫn JavaScript
Googlebot có thể gặp một số rắc rối với việc xử lý và hiển thị các mã nhiều thông tin, lộn xộn. Nếu mã trang của bạn không thân thiện, trình thu thập thông tin có thể không thực hiện đúng cách và cho rằng trang của bạn trống. Đối với kết xuất JavaScript, bạn nên đảm bảo rằng JS của bạn tương thích với Googlebot, nếu không trang của bạn có thể được hiển thị không chính xác.
Hãy lưu ý đến thời gian tải JavaScript đối với trang web của bạn. Nếu một tập lệnh cần hơn 5 giây để tải, Googlebot sẽ không hiển thị thông tin và lập chỉ mục nội dung được tạo bởi tập lệnh đó. Nếu trang web của bạn chứa đầy các phần tử JavaScript nặng, Google khuyên bạn nên kết xuất phía máy chủ. Điều này sẽ giúp cho trang web của bạn tải nhanh hơn và ngăn chặn lỗi JavaScript.
Để xem tài nguyên nào trên trang của bạn gây ra sự cố hiển thị (thực sự xem liệu trang web có gặp bất kỳ sự cố nào không), hãy đăng nhập tài khoản vào Google Search Console. Bạn đi tới phần URL Inspection, nhập URL bạn muốn kiểm tra, nhấp vào nút Test Live URL và nhấp vào View Tested Page.

Sau đó, chuyển đến phần View Tested Page và nhấp vào Resources and JavaScript console messages ở bảng điều khiển JavaScript để xem danh sách tài nguyên mà Googlebot không thể hiển thị. Lúc này, bạn có thể ghi lại danh sách các vấn đề cho quản trị viên web, yêu cầu điều tra và sửa lỗi để Googlebot có thể hiển thị nội dung đúng cách.

3. Điều gì ảnh hưởng đến hành vi Crawl của Google
Những điều ảnh hưởng đến hành vi Crawl là gì? Hành vi của Googlebot đi theo một quy trình và được xác định bởi các thuật toán phức tạp. Điều này giúp trình thu thập thông tin điều hướng trên web và đặt ra các quy tắc xử lý thông tin. Tuy nhiên, hành vi của các thuật toán Google không phải là thứ mà bạn không thể làm gì cả. Chúng ta hãy xem xét kỹ hơn những ảnh hưởng đến hành vi của Crawl và cách bạn có thể tối ưu hóa việc thu thập dữ liệu trên trang của mình.
3.1. Internal links và backlinks
Nếu Google đã biết đến trang web của bạn, Googlebot sẽ kiểm tra các trang chính để cập nhật theo thời gian. Đó là lý do tại sao bạn phải đặt các liên kết đến các trang mới trên các trang có thẩm quyền của web của bạn, đặc biệt là trang chủ.
Bạn có thể làm phong phú thêm trang chủ của mình bằng các tin tức hoặc bài đăng blog mới nhất. Ngay cả khi bạn đã có các trang riêng biệt cho tin tức và một blog. Điều này sẽ cho phép Googlebot tìm thấy và thu thập dữ liệu trên các trang mới của bạn nhanh hơn. Khuyến nghị này là khá rõ ràng, tuy nhiên, nhiều chủ sở hữu trang web vẫn không quan tâm đến, dẫn tới việc lập chỉ mục kém và vị trí thấp.
Về mặt thu thập thông tin, backlinks hoạt động giống nhau. Google sẽ tìm thấy trang của bạn nhanh hơn nếu được liên kết đến từ một số trang bên ngoài đáng tin cậy và phổ biến khác. Vì vậy, nếu bạn thêm một trang mới, đừng quên quảng cáo trên các trang khác. Bạn có thể thử đăng bài với tư cách khách, khởi chạy chiến dịch quảng cáo hoặc thử bất kỳ phương tiện nào khác mà bạn muốn Googlebot nhìn thấy URL của trang mới.
Lưu ý cho các bạn là các liên kết phải dofollow để cho phép Googlebot theo dõi. Mặc dù Google gần đây đã tuyên bố rằng các liên kết nofollow cũng có thể được sử dụng làm gợi ý để thu thập dữ liệu và lập chỉ mục cho trang. Tuy nhiên, bạn vẫn nên sử dụng dofollow để đảm bảo rằng các trình thu thập thông tin của Google nhìn thấy trang.
3.2. Click Depth
Click Depth cho biết trang mới cách trang chủ bao nhiêu cái nhấp chuột. Do đó, Googlebot sẽ biết được cần bao nhiêu “bước” để truy cập một trang. Tốt nhất, tại bất kỳ trang nào của một trang web, trang chủ nên được truy cập trong vòng 3 cú nhấp chuột. Độ sâu nhấp chuột lớn sẽ làm chậm quá trình thu thập dữ liệu và không mang lại lợi ích cho trải nghiệm người dùng.

Bạn có thể sử dụng WebSite Auditor để kiểm tra xem trang web của bạn có bất kỳ vấn đề nào liên quan đến Click Depth hay không. Khởi chạy công cụ và đi tới Site Structure > Pages, và chú ý đến cột Click Depth. Nếu bạn thấy một số trang quan trọng ở quá xa so với trang chủ, hãy xem xét lại việc sắp xếp cấu trúc trang web. Như vậy, bạn có thể thêm bao nhiêu trang mới tùy ý mà không ảnh hưởng tiêu cực đến Click Depth.

3.3. Sitemap
Sitemap là một tài liệu bao gồm một danh sách chứa đầy đủ các trang mà bạn muốn có trong Google. Bạn có thể gửi sơ đồ website của mình cho Google thông qua Google Search Console (Index > Sitemaps) để cho Googlebot biết những trang nào cần truy cập và thu thập thông tin. Sơ đồ trang web cũng giúp cho Google nhận biết nhanh chóng nếu có bất kỳ cập nhật nào mới trên các trang của bạn.
Lưu ý là việc sử dụng Sitemap không đảm bảo rằng Googlebot sẽ thu thập dữ liệu trang web của bạn. Google Crawl có thể bỏ qua sơ đồ trang web của bạn và tiếp tục thu thập thông tin như trước đây. Tuy nhiên, trong nhiều trường hợp, sơ đồ web được cho là rất hữu ích. Do vậy, bạn nên cân nhắc gửi Sitemap đến Google để giúp quá trình SEO nhanh hơn nếu trang web của bạn mới hoặc lớn (có hơn 500 URL).
Bạn có thể tạo một sơ đồ trang bằng WebSite Auditor. Đi tới Preferences > XML Sitemap Settings > Sitemap Generation và thiết lập các tùy chọn bạn cần. Đặt tên cho sơ đồ trang web của bạn (Sitemap File Name) và tải xuống máy tính của bạn để gửi thêm cho Google hoặc xuất bản nó lên trang web của bạn (Sitemap Publishing).

3.4. Cấu trúc chỉ mục (robots.txt)
Khi thu thập dữ liệu và lập chỉ mục cho các trang của bạn, Google sẽ tuân theo một số quy trình nhất định. Chẳng hạn như robots.txt, thẻ noindex, thẻ robots meta và X -Robots-Tag .
Robots.txt là một tệp thư mục gốc giúp hạn chế một số trang hoặc các nội dung từ Google. Khi Googlebot phát hiện ra trang của bạn, phần mềm sẽ xem xét tệp robots.txt. Nếu trang được phát hiện bị hạn chế thu thập thông tin bởi robots.txt, Googlebot sẽ lập tức ngừng thu thập thông tin và tải bất kỳ nội dung, tập lệnh nào từ trang đó. Khi đó, trang này sẽ không xuất hiện trong tìm kiếm.
Tệp Robots.txt có thể được tạo trong WebSite Auditor ( Preferences > Robots.txt Settings).

Thẻ Noindex, thẻ V và X-Robots-Tag là các thẻ được sử dụng để hạn chế trình thu thập thông tin và lập chỉ mục một trang. Thẻ Noindex hạn chế trang được lập chỉ mục bởi tất cả các loại trình thu thập thông tin. Thẻ robots meta được sử dụng để chỉ định cách thu thập thông tin và lập chỉ mục một trang nhất định. Điều này giúp bạn có thể ngăn một số trình thu thập thông tin truy cập trang và giữ trang ở chế độ mở.
Thẻ X-Robots-Tag có thể được sử dụng như một phần tử của phản hồi tiêu đề HTTP. Điều đó có thể hạn chế một trang lập chỉ mục hoặc điều hướng hành vi của trình thu thập thông tin trên trang. Thẻ X-Robots cho phép bạn nhắm mục tiêu đến các loại robot thu thập thông tin riêng biệt (nếu được chỉ định). Nếu loại robot không được chỉ định, hướng dẫn sẽ có hiệu lực cho tất cả các trình thu thập thông tin của Google.
Lưu ý rằng tệp Robots.txt không đảm bảo cho trang được loại trừ khỏi việc lập chỉ mục. Googlebot coi tài liệu này như một đề xuất hơn là một đơn đặt hàng. Điều này có nghĩa là Google có thể bỏ qua tệp robots.txt và lập chỉ mục một trang để tìm kiếm. Nếu bạn muốn trang sẽ không được lập chỉ mục, hãy sử dụng thẻ ngăn lập chỉ mục .
4. Google luôn thu thập hết thông tin tất cả các trang của bạn?
Google không được thu thập hết thông tin tất cả các trang của bạn. Một số trang có thể không có sẵn để Google có thể thu thập thông tin và lập chỉ mục. Dưới đây là các loại trang bạn nên xem xét kỹ hơn:
- Các trang được bảo vệ bằng mật khẩu: Googlebot mô phỏng hành vi của một người dùng ẩn danh không có bất kỳ thông tin đăng nhập nào để truy cập các trang được bảo vệ. Vì vậy, nếu một trang được bảo vệ bằng mật khẩu, phần mềm này sẽ không được thu thập thông tin. Bởi vì Googlebot sẽ không thể truy cập được.
- Các trang bị loại trừ bởi indexing instructions: Đây là các trang bị Google ẩn khỏi hướng dẫn robots.txt, các trang có thẻ noindex, thẻ robot meta và X -Robots-Tag .
- Trang mồ côi: Đây là các trang không được liên kết đến từ bất kỳ trang nào khác trên trang web. Googlebot là một spider-robot, có nghĩa là phần mềm sẽ phát hiện ra các trang mới bằng cách theo dõi tất cả các liên kết tìm thấy được. Nếu không có liên kết nào trỏ đến một trang khác, thì trang đó sẽ không được thu thập thông tin và sẽ không xuất hiện trong tìm kiếm.
Một số trang có thể bị hạn chế trình thu thập thông tin và lập chỉ mục. Đây thường là những trang không có mục đích xuất hiện trong tìm kiếm như trang có chứa dữ liệu cá nhân, chính sách, điều khoản sử dụng, trang lưu trữ, phiên bản thử nghiệm của trang, trang kết quả tìm kiếm nội bộ,… Nếu bạn muốn cung cấp các trang của mình cho Google crawl, bạn không được bảo vệ các trang công khai bằng mật khẩu, liên kết nội bộ.
Để kiểm tra khả năng thu thập dữ liệu của các trang trên web của bạn trong Google Search Console, hãy chuyển đến Index > Coverage report. Chú ý đến các vấn đề được đánh dấu Error (không được lập chỉ mục) và Valid with warning (được lập chỉ mục, mặc dù có vấn đề).

Để biết thêm chi tiết về các vấn đề cũng như tìm hiểu cách khắc phục, hãy đọc hướng dẫn toàn diện về Google Search Console. Bạn cũng có thể chạy kiểm tra lập chỉ mục với WebSIte Auditor. Công cụ này sẽ không chỉ hiển thị các vấn đề với các trang có sẵn mà còn hiển thị cho bạn những trang mà Google chưa thấy. Khởi chạy phần mềm và chuyển đến phần Site Structure > Site Audit.

Lưu ý rằng nếu như bạn không muốn Googlebot tìm thấy hay cập nhật bất kỳ trang nào (một số trang cũ và trang bạn không cần nữa), hãy xóa trang khỏi sơ đồ trang web nếu bạn có. Bạn có thể thiết lập trạng thái 404 Not Found hoặc đánh dấu bằng thẻ noindex .
5. Cách mà Google cho Website bạn xuất hiện ngoài tìm kiếm
Sau khi bạn đưa trang web của mình vào hoạt động, các trang của bạn sẽ không xuất hiện ngay trong tìm kiếm. Nếu trang web của bạn hoàn toàn mới, Googlebot sẽ cần một khoản thời gian để tìm thấy trên web. Trong nhiều trường hợp, bạn có thể mất đến 6 tháng để trang được hiển thị.
Nếu Google đã biết Website của bạn và bạn thực hiện một số cập nhật hoặc thêm trang mới, thì tốc độ xuất hiện của các thay đổi trang web phụ thuộc vào ngân sách thu thập thông tin. Ngân sách thu thập thông tin là lượng tài nguyên mà Google dành để thu thập dữ liệu trên trang web của bạn. Khi đó, Googlebot càng cần nhiều tài nguyên để thu thập dữ liệu, thì trang web sẽ xuất hiện trong tìm kiếm càng chậm.

Việc thu thập thông tin dựa vào phân bổ ngân sách phụ thuộc vào các yếu tố sau:
- Mức độ phổ biến của trang web: Một trang web càng phổ biến, thì càng có nhiều điểm thu thập dữ liệu. Google sẵn sàng chi cho việc thu thập thông tin của trang.
- Tốc độ cập nhật: Bạn càng cập nhật trên trang web của mình thường xuyên, trang web của bạn sẽ càng nhận được nhiều tài nguyên thu thập dữ liệu.
- Số trang: Bạn càng có nhiều trang thì ngân sách thu thập thông tin của bạn sẽ càng lớn.
- Dung lượng máy chủ: Máy chủ lưu trữ của bạn phải có khả năng đáp ứng tất cả các yêu cầu của trình thu thập thông tin đúng lúc.
Lưu ý rằng ngân sách thu thập thông tin không được chi đều trên mỗi trang. Bởi vì một số trang tiêu tốn nhiều tài nguyên hơn (do JavaScript, CSS nặng hoặc do HTML lộn xộn). Vì vậy, ngân sách thu thập có thể không đủ để thu thập thông tin tất cả các trang của bạn nhanh chóng như mong đợi. Các vấn đề về nội dung trùng lặp và URL có cấu trúc không hợp lý cũng ảnh hưởng đến việc thu thập dữ liệu kém.
6. Vấn đề về lỗi khi Google crawl website của bạn
Khi Google crawl Website của bạn, trang web sẽ có một số lỗi xuất hiện và bạn nên tránh gặp phải như lỗi trùng lặp Content và lỗi cấu trúc Url.
6.1. Lỗi trùng lặp Content
Một số trang gặp lỗi trùng lặp Content, có nội dung chủ yếu giống nhau. Điều này có thể xảy ra bởi nhiều nguyên nhân, chẳng hạn như:
- Truy cập trang theo nhiều cách khác nhau: Có hoặc không có www, thông qua http hoặc https;
- Các URL động: Khi nhiều URL khác nhau dẫn đến cùng một trang;
- Thử nghiệm các phiên A / B của các trang.
Nếu không được khắc phục, các vấn đề về trùng lặp Content sẽ dẫn đến việc Googlebot thu thập thông tin nhiều lần trên cùng một trang. Vì phần mềm coi tất cả các trang này là khác nhau. Do đó, tài nguyên thu thập dữ liệu bị lãng phí một cách vô ích. Ngoài ra, nội dung trùng lặp có thể làm giảm vị trí các trang trong tìm kiếm. Bởi vì Google có thể cho rằng chất lượng tổng thể của trang web của bạn thấp.
Trong đa số các trường hợp, bạn không thể loại bỏ hết tất cả những thứ có thể gây ra nội dung trùng lặp. Tuy nhiên, bạn có thể ngăn chặn lỗi trùng Content bằng cách thiết lập các URL chuẩn. Thẻ chuẩn giúp nhận biết trang nào nên được coi là “chính”, từ đó Google sẽ không lập chỉ mục của các URL trỏ đến cùng trang đó. Bạn cũng có thể hạn chế các robot truy cập vào các URL động với sự hỗ trợ của tệp robots.txt.

6.2. Lỗi cấu trúc Url
URL thân thiện với người dùng được đánh giá cao bởi cả con người lẫn thuật toán máy. Googlebot không phải là một ngoại lệ. Googlebot có thể bị nhầm lẫn khi cố gắng hiểu các URL dài và nhiều thông số. Phần mềm càng khó khăn trong việc thu thập thông tin, thì càng có nhiều tài nguyên được sử dụng trên một trang.
Để tránh chi tiêu không lãng phí cho ngân sách thu thập thông tin của bạn, hãy đảm bảo rằng URL thân thiện với người dùng. URL của bạn phải rõ ràng, tuân theo cấu trúc hợp lý, có dấu câu thích hợp và không bao gồm những tham số phức tạp. Nói cách khác, URL thân thiện sẽ giống như sau:
https://example.com/vegetables/cucumbers/pickles
Việc tối ưu hóa ngân sách thu thập thông tin không quá phức tạp. Tuy nhiên, nếu bạn là chủ sở hữu của một trang web lớn (hơn 1 triệu trang) hoặc một trang web trung bình (hơn 10.000 trang) với nội dung thay đổi thường xuyên thì bạn cần lưu ý đến. Còn với những Website nhỏ hơn, bạn chỉ cần tối ưu hóa đúng cách để khắc phục các vấn đề lập chỉ mục đúng lúc.
Trên đây là toàn bộ thông tin xoay quanh câu hỏi “google crawl là gì?”. Trình thu thập thông tin chính của Google (Googlebot) hoạt động theo những thuật toán phức tạp, nhưng bạn vẫn có thể “điều hướng” hành vi của phần mềm để mang đến những điều có lợi cho trang web. Qua bài viết này, aetc.edu.vn hy vọng bạn đọc đã trang bị cho bản thâm thêm nhiều kiến thức bổ ích.
Nguồn: SEO PowerSuite
Chinh phục top Google nhờ những phương pháp SEO kỹ thuật trong các bài viết sau đây:
-
-
- Alt text là gì? Tại sao lại quan trọng trong tiếp cận và SEO Web
- Meta Keyword là gì? Chúng ta còn nên dùng nó không?
- Tìm hiểu các cách kiểm tra Website để biết trang Website bị phạt bởi Google hay không?
- .htaccess file là gì? 4 cách sử dụng hiệu quả cho Web của bạn
-