File Robots.txt là gì? Hướng dẫn 3 cách tạo file robots.txt WordPress – https://tintuc76.com

Trang Nguyễn06/07/2021

File robots.txt giúp cho trình thu thập dữ liệu của các công cụ tìm kiếm biết được khả năng yêu cầu thu thập dữ liệu từ những trang hoặc tệp trên website của bạn. Trong bài viết này mình sẽ chia sẻ một số kiến thức về file robots.txt và hướng dẫn tạo file robots.txt. Cùng xem ngay thôi!

1. File robots.txt là gì?

File robots.txt là một tập tin văn bản đơn thuần có dạng đuôi lan rộng ra txt. Tệp này là một phần của Robots Exclusion Protocol ( REP ) chứa một nhóm những tiêu chuẩn Web pháp luật cách Robot Web ( hoặc Robot của những công cụ tìm kiếm ) thu thập dữ liệu trên web, truy vấn, index nội dung và phân phối nội dung đó cho người dùng .

File robots.txt giúp cho trình thu thập dữ liệu

File robots.txt giúp cho trình thu thập dữ liệu

2. Cú pháp của file robots.txt

Các cú pháp được xem là ngôn từ riêng của những tập tin robots.txt. Có 5 thuật ngữ thông dụng trong một file robots.txt, gồm có như sau :

User-agent: Phần này là tên của các trình thu thập, truy cập dữ liệu web. (Ví dụ: Googlebot, Bingbot,…).

Disallow: Được sử dụng để thông báo cho các User-agent không thu thập bất kì dữ liệu URL cụ thể nào. Mỗi URL chỉ được sử dụng 1 dòng Disallow.

Allow (chỉ áp dụng cho bộ tìm kiếm Googlebot): Lệnh thực hiện thông báo cho Googlebot rằng nó sẽ truy cập một trang hoặc thư mục con. Mặc dù các trang hoặc các thư mục con của nó có thể không được phép.

Những cú pháp được là ngôn ngữ riêng của các tập tin robots.txt

Những cú pháp được là ngôn từ riêng của những tập tin robots.txt

Crawl – delay: Thông báo cho các Web Crawler biết rằng phải đợi bao nhiêu giây trước khi tải và thu thập nội dung của trang. Tuy nhiên, lưu ý rằng bộ tìm kiếm Googlebot không thừa nhận lệnh này và bạn phải cài đặt tốc độ thu thập dữ liệu trong Google Search Console.

Sitemap: Được sử dụng để cung cấp các vị trí của bất kì Sitemap XML nào được liên kết với URL này. Lưu ý lệnh này chỉ được hỗ trợ bởi công cụ Google, Ask, Bing và Yahoo.

3. Tại sao bạn cần tạo file robots.txt?

Việc tạo robots.txt cho website giúp bạn trấn áp việc truy vấn của những con Bots đến những khu vực nhất định trên website. Điều này mang đến nhiều quyền lợi cho bạn bởi nhiều lí do :- Ngăn chặn nội dung trùng lặp Open trong website ( những Robot Meta thường là lựa chọn tốt ) .- Giữ 1 số ít phần của trang ở chính sách riêng tư .- Giữ những trang tác dụng tìm kiếm nội bộ không hiển thị trên SERP .- Chỉ định vị trí của Sitemap .- Ngăn những công cụ của Google Index 1 số ít tệp nhất định trên website của bạn ( hình ảnh từ máy tính, PDF, … ) .- Dùng lệnh Crawl-delay để setup thời hạn, ngăn việc sever của bạn bị quá tải khi những trình thu thập dữ liệu tải nhiều nội dung cùng một lúc .

Tạo robots.txt cho website giúp bạn kiểm soát việc truy cập của các con Bots

Tạo robots.txt cho website giúp bạn trấn áp việc truy vấn của những con Bots

4. Những hạn chế của file robots.txt

File robots.txt mang nhiều ưu điểm như ở trên nhưng vẫn sống sót 1 số ít điểm yếu kém nhất định :- Một số công cụ tìm kiếm hoàn toàn có thể không tương hỗ những lệnh trong tệp robots.txt .- Mỗi trình thu thập dữ liệu sẽ nghiên cứu và phân tích cú pháp theo những cách riêng .- Google vẫn hoàn toàn có thể lập chỉ mục một trang bị tệp robots.txt chặn nếu có những website khác link đến trang đó .

Một số hạn chế của file robots.txt cần lưu ý

Một số hạn chế của file robots.txt cần quan tâm

5. File robots.txt hoạt động như thế nào?

Phương thức hoạt động giải trí của file robots.txt diễn ra như sau :

Bước 1: Crawl (cào/phân tích) dữ liệu trên trang web để khám phá nội dung bằng cách đưa công cụ đi theo các liên kết từ trang này đến trang khác, sau đó thu thập dữ liệu thông qua hàng tỷ trang web khác nhau. Quá trình crawl dữ liệu này còn được biết đến với tên khác là “Spidering”.

Bước 2: Index nội dung đó để đáp ứng yêu cầu cho các tìm kiếm của người dùng. File robots.txt sẽ chứa các thông tin về cách các công cụ của Google nhằm thu thập dữ liệu của website. Lúc này, các con bots sẽ được hướng dẫn thêm nhiều thông tin cụ thể cho quá trình này.

Phương thức hoạt động của file robots.txt

Phương thức hoạt động giải trí của file robots.txt

Lưu ý: Nếu tệp robots.txt không chứa bất kì chỉ thị nào cho các User-agent hoặc nếu bạn không tạo file robots.txt cho website thì các con bots sẽ tiến hành thu thập các thông tin khác trên web.

6. File robots.txt nằm ở đâu trên một website?

Khi bạn tạo website WordPress, web sẽ tự động hóa tạo ra một file robots.txt đặt ngay bên dưới thư mục gốc của server .

Ví dụ: Nếu site của bạn đặt trong thư mục gốc của địa chỉ abcdef.com, bạn sẽ có thể truy cập file robots.txt ở đường dẫn abcdef.com/robots.txt, kết quả ban đầu sẽ tương tự như sau:

User-agent: *

Disallow: /wp-admin/

Disallow: /wp-includes/

Trong đó :

User-agent: * có nghĩa là quy tắc được áp dụng cho mọi loại bots trên khắp nơi trên website. Trong trường hợp này, file này sẽ nói cho bots biết là chúng không được phép vào trong file thư mục wp-admin và wp-includes.

 Vị trí file robots.txt trên một website

Vị trí file robots.txt trên một website

Lưu ý:

– File robots.txt là một file ảo do WordPress tự thiết lập mặc định khi setup và không chỉnh sửa được ( mặc dầu nó vẫn hoạt động giải trí ) .- Vị trí file robots.txt WordPress chuẩn được đặt trong thư mục gốc, thường được gọi là public_html và www ( hoặc tên website ) .- Để tạo file robots.txt cho riêng bạn thì bạn cần tạo một file mới để sửa chữa thay thế file cũ đặt trong thư mục gốc đó .

7. Làm thế nào để kiểm tra website có file robots.txt không?

Để kiểm tra website có file robots.txt không, bạn hoàn toàn có thể thực thi theo những bước dưới đây :

Nhập Root Domain (ví dụ: abcdef.com) > Chèn /robots.txt vào cuối (ví dụ: abcdef.com/robots.txt) > Nhấn Enter.

Chèn abcdef.com/robots.txt

Chèn abcdef.com/robots.txt

Lưu ý: Nếu bạn không có trang .txt xuất hiện, thì chắc chắn website bạn hiện không tạo robots.txt cho WordPress rồi.

8. Quy tắc nào cần được bổ sung vào trong file robots.txt WordPress?

File robots.txt WordPress đều giải quyết và xử lý một quy tắc tại một thời gian. Tuy nhiên, nếu bạn muốn vận dụng những quy tắc khác nhau cho những bot khác nhau thì bạn chỉ cần thêm từng bộ quy tắc trong phần khai báo User-agent cho mỗi bot .Ví dụ : Nếu bạn muốn tạo một quy tắc vận dụng cho tổng thể những bot và một quy tắc khác chỉ vận dụng cho Bingbot, bạn hoàn toàn có thể thực thi như sau :

User-agent: *

Disallow: /wp-admin/

User-agent: Bingbot

Disallow: /

Từ đó, toàn bộ những bot sẽ bị chặn truy vấn / wp-admin / nhưng Bingbot sẽ bị chặn truy vấn hàng loạt website của bạn .

Thêm từng bộ quy tắc trong phần khai báo User-agent cho mỗi bot

Thêm từng bộ quy tắc trong phần khai báo User-agent cho mỗi bot

9. 3 Cách tạo file robots.txt WordPress đơn giản

Trên thực tiễn, tạo robots.txt WordPress giúp những nhà quản trị web linh động, dữ thế chủ động hơn trong việc được cho phép hay không cho những con bot của công cụ Google index một số ít phần nào đó trong trang của mình .Nếu sau khi kiểm tra, bạn nhận thấy website của mình không có tệp robots.txt hay đơn thuần là bạn đang muốn biến hóa tệp robots.txt của mình. Dưới đây là 3 cách tạo robots.txt cho WordPress :

Cách 1: Sử dụng Yoast SEO

Bước 1: Đăng nhập vào website của bạn trên WordPress, khi đăng nhập vào sẽ thấy giao diện của trang WordPress Dashboard.

Bước 2: Chọn mục SEO > Chọn Tools.

Chọn Tools trong mục SEO

Chọn Tools trong mục SEO

Bước 3: Chọn File editor.

Chọn File editor

Chọn File editor

Như vậy, bạn sẽ thấy mục robots.txt.htaccess file. Đây là nơi giúp bạn tạo file robots.txt.

Mục robots.txt và .htaccess file tạo file robots.txt

Mục robots.txt và. htaccess file tạo file robots.txt

Cách 2: Qua bộ Plugin All in One SEO

Bạn có thể sử dụng bộ Plugin All in One SEO để tạo file robots.txt WordPress nhanh chóng. Đây cũng là một plugin tiện ích cho WordPress đơn giản, dễ sử dụng.

Để tạo file robots.txt WordPress, bạn hoàn toàn có thể thực thi theo những bước sau :

Bước 1: Truy cập giao diện chính của Plugin All in One SEO Pack.

Nếu bạn chưa có bộ Plugin, tải về TẠI ĐÂY .

Bước 2: Chọn All in One SEO > Chọn Feature Manager > Nhấp Activate cho mục Robots.txt.

Active cho mục robots.txt

Active cho mục robots.txt

Bước 3: Tạo lập và điều chỉnh file robots.txt WordPress.

Tạo lập và điều chỉnh file robots.txt WordPress

Tạo lập và kiểm soát và điều chỉnh file robots.txt WordPress

Lưu ý: All in One SEO làm mờ đi thông tin của file robots.txt thay vì được chỉnh sửa file như công cụ Yoast SEO. Điều này có thể khiến người dùng hơi bị động một chút khi chỉnh sửa file robots.txt WordPress. Tuy nhiên, tích cực mà nói, yếu tố này sẽ giúp họ hạn chế thiệt hại cho website của mình, đặc biệt một số Malware bots sẽ gây hại cho website.

Cách 3: Tạo rồi upload file robots.txt qua FTP

Nếu bạn không muốn sử dụng plugin để tạo file robots.txt WordPress thì bạn hoàn toàn có thể tự tạo file robots.txt bằng tay thủ công cho WordPress của mình .Để tạo file robots.txt WordPress bằng tay bằng giải pháp tạo rồi upload file robots.txt qua FTP, bạn hoàn toàn có thể thực thi theo những bước sau đây :

Bước 1: Mở Notepad hoặc Textedit để tạo mẫu file robots.txt WordPress.

Bước 2: Mở FTP > Chọn thư mục public_html > Chọn file robots.txt > Chọn Upload.

Upload file robots.txt qua FTP

Upload file robots.txt qua FTP

10. Một số quy tắc khi tạo file robots.txt

Việc tạo file robots.txt cần phải quan tâm 1 số ít quy tắc sau để không bị lỗi :- Để được những con bot tìm thấy thì những file robots.txt WordPress phải được đặt trong những thư mục cấp cao nhất của website .- File txt phân biệt chữ hoa và chữ thường, vì vậy tệp phải được đặt tên là robots.txt ( không phải Robots. txt hay robots. TXT, … ) .

– Không nên đặt /wp-content/themes/ hay /wp-content/plugins/ vào mục Disallow. Điều đó sẽ cản trở các công cụ nhìn nhận chính xác về giao diện blog hay website.

– Một số User-agent chọn cách bỏ lỡ những file robots.txt chuẩn. Điều này khá thông dụng với những User-agent bất chính như Malware robots ( bot của những đoạn mã ô nhiễm ), những trình Scraping địa chỉ E-Mail .

Các quy tắc thường thấy khi tạo file robots.txt

Các quy tắc thường thấy khi tạo file robots.txt- Các tệp robots.txt thường có sẵn và được công khai minh bạch trên web và chỉ cần thêm / robots.txt vào cuối bất kể Root Domain để xem những thông tư của website đó. Điều này có nghĩa là bất kỳ ai cũng thấy những trang bạn muốn hoặc không muốn crawl. Vì vậy, đừng sử dụng những tệp này để ẩn thông tin cá thể của người dùng .- Mỗi Subdomain trên một Root Domain sẽ sử dụng những file robots.txt riêng không liên quan gì đến nhau. Điều này có nghĩa là cả blog.example.com và example.com có những tệp robots.txt riêng. Đây được xem là cách tốt nhất để chỉ ra vị trí của bất kể sitemaps nào được link với domain ở cuối tệp robots.txt .

Đừng sử dụng các tệp robots.txt để ẩn thông tin cá nhân của người dùng

Đừng sử dụng những tệp robots.txt để ẩn thông tin cá thể của người dùng

11. Một số lưu ý khi sử dụng file robots.txt

Khi sử dụng file robots.txt, bạn cần chú ý quan tâm một số ít điểm như sau :- Các link trên trang bị chặn bởi việc robots.txt sẽ không được những bots theo dõi, trừ khi những link này có link với những trang khác. Nếu không, những tài nguyên được link hoàn toàn có thể sẽ không được tích lũy và lập chỉ mục .- Link juice sẽ không được truyền từ những trang bị chặn đến những trang đích. Vì thế, nếu muốn dòng sức mạnh Link juice truyền qua những trang này thì hãy sử dụng một giải pháp khác thay vì tạo robots.txt WordPress .- Không nên sử dụng file robots.txt để ngăn dữ liệu nhạy cảm như thông tin người dùng riêng tư Open trong hiệu quả SERP chính do website chứa thông tin cá thể này hoàn toàn có thể link với nhiều website khác. Do đó những con bots sẽ bỏ quá những thông tư của tệp robots.txt trên Root Domain hay trang chủ của bạn .

Những lưu ý khi sử dụng file robots.txt

Những chú ý quan tâm khi sử dụng file robots.txt

– Nếu muốn chặn trang web khỏi các kết quả tìm kiếm, hãy sử dụng một phương pháp khác thay vì tạo file robots.txt cho WordPress như dùng mật khẩu bảo vệ hay Noindex Meta Directive. Một số công cụ tìm kiếm có rất nhiều User-agent chẳng hạn Google sử dụng Googlebot cho các tìm kiếm miễn phí và Googlebot-Image cho các tìm kiếm hình ảnh.

– Hầu hết những User-agent từ cùng một công cụ đều tuân theo một quy tắc. Do đó, bạn không cần chỉ định những lệnh cho từng User-agent. Tuy nhiên, việc làm này vẫn hoàn toàn có thể giúp bạn kiểm soát và điều chỉnh được cách Index nội dung website .

– Các công cụ tìm kiếm sẽ lưu trữ nội dung file robots.txt WordPress. Tuy nhiên nó vẫn thường cập nhật nội dung trong bộ nhớ cache ít nhất một lần một ngày. Nếu bạn thay đổi tệp và muốn cập nhật tệp của mình nhanh hơn thì hãy sử dụng ngay chức năng Gửi của Trình kiểm tra tệp robots.txt.

Không cần chỉ định các lệnh cho từng User-agent

Không cần chỉ định những lệnh cho từng User-agent

12. Câu hỏi thường gặp về robots.txt

Kích thước tối đa của file robots.txt là bao nhiêu?

Trả lời: Kích thước tối đa của file robots.txt Khoảng 500 kilobyte.

File robots.txt WordPress nằm ở đâu trên website?

Trả lời : File robots.txt WordPress nằm tại vị trí domain.com/robots.txt .

Làm cách nào để chỉnh sửa robots.txt WordPress?

Trả lời : Bạn hoàn toàn có thể triển khai theo cách bằng tay thủ công hoặc sử dụng một trong nhiều plugin WordPress SEO như Yoast, được cho phép bạn chỉnh sửa robots.txt từ WordPress backend .

Điều gì xảy ra nếu Disallow vào nội dung Noindex trong robots.txt?

Trả lời : Nếu Disallow vào nội dung Noindex trong robots.txt thì Google sẽ không khi nào thấy lệnh Noindex vì nó không hề Crawl dữ liệu trang .

Những câu hỏi thường gặp về robots.txt

Những câu hỏi thường gặp về robots.txt

Làm sao tạm ngừng toàn bộ hoạt động thu thập dữ liệu trang web?

Trả lời : Bạn hoàn toàn có thể tạm ngừng hàng loạt hoạt động giải trí thu thập dữ liệu bằng cách trả về một mã hiệu quả HTTP 503 cho mọi URL, gồm có cả tệp robots.txt. Bạn không nên đổi khác tệp robots.txt để chặn hoạt động giải trí thu thập dữ liệu .

Điều gì sẽ xảy ra nếu bạn không có tệp robots.txt?

Trả lời : Nếu tệp robots.txt bị thiếu, trình tích lũy thông tin của công cụ tìm kiếm giả sử rằng toàn bộ những trang có sẵn trên website của bạn đều ở chính sách công khai minh bạch và nó hoàn toàn có thể được thu thập dữ liệu, sau đó thêm vào chỉ mục của nó .

Điều gì sẽ xảy ra nếu robots.txt không được định dạng tốt?

Trả lời : Điều này phụ thuộc vào vào yếu tố : Nếu những công cụ tìm kiếm không hề hiểu nội dung của tệp tin vì nó bị định thông số kỹ thuật sai, họ vẫn truy vấn vào website và bỏ lỡ bất kể điều gì trong robots.txt .

Không nên thay đổi tệp robots.txt để chặn hoạt động thu thập dữ liệu

Không nên biến hóa tệp robots.txt để chặn hoạt động giải trí thu thập dữ liệuMột số mẫu laptop giúp bạn xem file Robots.txt mượt mà và nhanh chóng:

Hy vọng sau khi tham khảo bài viết này bạn đã có những kiến thức về file Robots.txt và hướng dẫn 3 cách tạo file robots.txt WordPress. Cám ơn các bạn đã theo dõi bài viết, hẹn gặp lại các bạn ở những bài viết tiếp theo!

1.335 lượt xem

Bạn có làm được hướng dẫn này không ?



Không

Bài viết liên quan