Sitemap.xml và Robots.txt: Hướng dẫn Tạo, Cấu hình & Submit
TL;DR (làm nhanh theo thứ tự)
- Sitemap: Yoast SEO tự tạo tại
yoursite.com/sitemap_index.xml→ Submit lên GSC - Robots.txt: Kiểm tra tại
yoursite.com/robots.txt→ Đảm bảo không block trang quan trọng - Sitemap = "danh sách trang" cho Google, Robots.txt = "luật chơi" cho bots
- Cả hai đều quan trọng cho Technical SEO, nhưng Yoast đã xử lý tự động phần lớn
Mục tiêu
Hiểu sitemap và robots.txt, kiểm tra cấu hình đúng, submit lên GSC để Google crawl hiệu quả.
Thời gian
10–15 phút kiểm tra và cấu hình (một lần), sau đó tự động.
Chuẩn bị
Website WordPress với Yoast SEO đã cài, đã đăng ký Google Search Console.
1) Sitemap.xml là gì?
Sitemap.xml
Sitemap.xml là file XML chứa danh sách tất cả các trang trên website mà bạn muốn Google index.
Giúp Google:
- Biết website có những trang nào
- Biết trang nào mới được cập nhật
- Biết mức độ quan trọng của từng trang
- Crawl hiệu quả hơn, đặc biệt với website lớn
Website nhỏ có cần sitemap không?
Khuyến nghịCó! Dù website nhỏ (< 50 trang), sitemap vẫn hữu ích:
- Giúp Google phát hiện trang mới nhanh hơn
- Không tốn công sức (Yoast tự tạo)
- Là best practice chuẩn SEO
Kết luận: Mọi website đều nên có sitemap.
2) Tạo và kiểm tra Sitemap với Yoast SEO
- 1
Bước 1: Kiểm tra sitemap đã bật
Trong WordPress admin → SEO → General → Features → kiểm tra XML sitemaps đã On.
- 2
Bước 2: Xem sitemap
Click link See the XML sitemap hoặc truy cập trực tiếp:
https://yoursite.com/sitemap_index.xml - 3
Bước 3: Hiểu cấu trúc sitemap
Yoast tạo sitemap dạng index, bao gồm nhiều sitemap con:
post-sitemap.xml— Danh sách bài viếtpage-sitemap.xml— Danh sách trangcategory-sitemap.xml— Danh sách danh mụcproduct-sitemap.xml— Danh sách sản phẩm (nếu có WooCommerce)
- 4
Bước 4: Submit lên Google Search Console
Vào GSC → Sitemaps → nhập
sitemap_index.xml→ Submit.
Sitemap tự động cập nhật
Yoast SEO tự động cập nhật sitemap khi bạn:
- Publish bài viết mới
- Cập nhật bài viết cũ
- Thêm/xóa trang
Bạn không cần làm gì thêm — chỉ submit sitemap một lần là đủ.
2.1. Loại trừ nội dung khỏi Sitemap
Khi nào cần loại trừ?
Một số trang không nên có trong sitemap:
- Trang Thank you / Confirmation
- Trang Landing page riêng tư
- Trang test / draft
- Trang duplicate / thin content
- 1
Loại trừ 1 bài viết/trang cụ thể
Khi chỉnh sửa bài viết → box Yoast SEO → tab Advanced → Allow search engines to show this post in search results? → chọn No.
- 2
Loại trừ cả post type
Vào SEO → Search Appearance → Content Types → chọn post type → Show in search results? → No.
- 3
Loại trừ taxonomy (category/tag)
Vào SEO → Search Appearance → Taxonomies → chọn taxonomy → Show in search results? → No.
3) Robots.txt là gì?
Robots.txt
Robots.txt là file text nằm ở thư mục gốc website (yoursite.com/robots.txt), chứa các quy tắc cho bots (Google, Bing, v.v.) biết:
- Được phép crawl trang nào
- Không được crawl trang nào
- Sitemap ở đâu
Không có Robots.txt
- Bots crawl tất cả mọi thứ
- Có thể crawl trang admin, plugin files
- Lãng phí crawl budget
- Có thể index nội dung không mong muốn
Có Robots.txt
- Bots chỉ crawl trang được phép
- Bảo vệ trang admin, sensitive files
- Tối ưu crawl budget
- Kiểm soát nội dung được index
3.1. Cú pháp Robots.txt
Cú pháp cơ bản
User-agent: *
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php
Sitemap: https://yoursite.com/sitemap_index.xml
Giải thích:
User-agent: *— Áp dụng cho tất cả botsDisallow: /path/— Không cho phép crawl path nàyAllow: /path/— Cho phép crawl path này (override Disallow)Sitemap:— Chỉ đường đến sitemap
Quy tắc Robots.txt
- 01
User-agent
Xác định bot nào áp dụng rule.
*= tất cả bots,Googlebot= chỉ Google. - 02
Disallow
Chặn crawl path/folder.
Disallow: /= chặn toàn bộ website. - 03
Allow
Cho phép crawl trong folder đã Disallow. Ưu tiên cao hơn Disallow.
- 04
Sitemap
Chỉ đường đến sitemap. Nên có đầy đủ URL (https://...).
3.2. Kiểm tra và chỉnh sửa Robots.txt
- 1
Bước 1: Mở File editor
Vào SEO → Tools → File editor.
- 2
Bước 2: Xem nội dung robots.txt
Yoast hiện nội dung file robots.txt hiện tại. Nếu chưa có, Yoast sẽ tạo nội dung mặc định.
- 3
Bước 3: Chỉnh sửa (nếu cần)
Thêm/sửa rules → Save changes to robots.txt.
Lưu ý
Nếu không thấy File editor, có thể hosting chặn hoặc file permissions không cho phép. Kiểm tra với hosting provider.
4) Robots.txt mẫu cho WordPress
Robots.txt khuyến nghị cho WordPress
User-agent: *
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php
Disallow: /wp-includes/
Disallow: /readme.html
Disallow: /license.txt
Disallow: /xmlrpc.php
Disallow: /?s=
Disallow: /search/
# Sitemap
Sitemap: https://yoursite.com/sitemap_index.xml
Giải thích:
- Chặn
/wp-admin/nhưng cho phépadmin-ajax.php(cần cho AJAX) - Chặn
/wp-includes/(core files không cần index) - Chặn
readme.html,license.txt(file nhạy cảm) - Chặn
/xmlrpc.php(bảo mật) - Chặn trang search (thường là thin content)
4.1. Robots.txt cho WooCommerce
Bổ sung cho WooCommerce
# WooCommerce
Disallow: /cart/
Disallow: /checkout/
Disallow: /my-account/
Disallow: /*?add-to-cart=*
Disallow: /*?orderby=*
Disallow: /*?filter_*
Giải thích:
- Chặn trang Cart, Checkout, My Account (không cần index)
- Chặn URL với parameters (add-to-cart, sort, filter) — tránh duplicate content
5) Test Robots.txt
- 1
Test bằng GSC
Trong Google Search Console → Settings (gear icon) → robots.txt Tester (có thể không còn trong giao diện mới).
Hoặc dùng URL Inspection → nhập URL → xem có bị block không. - 2
Test trực tiếp
Truy cập
yoursite.com/robots.txt→ kiểm tra nội dung hiển thị đúng. - 3
Test với công cụ online
Cảnh báo quan trọng
KHÔNG BAO GIỜ để robots.txt như thế này:
User-agent: *
Disallow: /
Điều này sẽ chặn toàn bộ website khỏi Google! Website sẽ biến mất khỏi kết quả tìm kiếm.
6) Sitemap vs Robots.txt
Sitemap (Nên làm)
Những điểm nên ưu tiên để UI gọn và dễ bảo trì.
- Submit sitemap lên GSC
- Để Yoast tự động tạo và cập nhật
- Kiểm tra sitemap sau khi publish nhiều bài
- Bao gồm tất cả trang muốn index
- Loại trừ trang không cần index qua Yoast
Robots.txt (Lưu ý)
Tránh các cách fix nhanh gây khó bảo trì hoặc lỗi responsive.
- Disallow: / (chặn toàn bộ)
- Block CSS/JS files (Google cần đọc)
- Quá nhiều rules phức tạp
- Dùng robots.txt để ẩn nội dung nhạy cảm (không an toàn)
- Quên cập nhật khi thay đổi cấu trúc website
Robots.txt KHÔNG phải bảo mật
Robots.txt chỉ là hướng dẫn cho bots "ngoan". Nó không ngăn được:
- Bots "xấu" (spam bots) vẫn có thể crawl
- Người dùng trực tiếp truy cập URL
- Hacker tìm kiếm files nhạy cảm
Nếu cần bảo mật thực sự: Dùng password protection, .htaccess, hoặc authentication.
7) Câu hỏi thường gặp
FAQ về Sitemap & Robots.txt
Sitemap của tôi hiện 'Couldn't fetch' trong GSC?
Nguyên nhân có thể:
- URL sitemap sai (thiếu https, sai domain)
- Sitemap bị block bởi robots.txt
- Server error khi Google request sitemap
Cách sửa:
- Kiểm tra URL sitemap có truy cập được không
- Kiểm tra robots.txt không block sitemap
- Đảm bảo Yoast SEO sitemap đang bật
Tôi đã sửa robots.txt nhưng Google vẫn crawl trang bị block?
Google cache robots.txt và không đọc lại ngay. Có thể mất vài ngày đến vài tuần để Google cập nhật.
Ngoài ra, robots.txt chỉ chặn crawl, không chặn index. Nếu trang đã được index trước đó, nó vẫn có thể xuất hiện trong search results.
Để xóa khỏi search: Dùng noindex meta tag hoặc GSC Remove URL tool.
Có nên block Googlebot-Image?
Không khuyến nghị trừ khi có lý do cụ thể.
Nếu block Googlebot-Image, ảnh của bạn sẽ không xuất hiện trên Google Images — mất một nguồn traffic tiềm năng.
Website mới có cần sitemap ngay không?
Có! Sitemap giúp Google phát hiện website mới nhanh hơn.
Ngay sau khi launch website, setup Yoast và submit sitemap lên GSC.
Robots.txt có ảnh hưởng đến ranking không?
Không trực tiếp. Robots.txt chỉ kiểm soát crawling, không phải ranking.
Tuy nhiên, nếu block sai (VD: block CSS/JS), Google có thể không render đúng trang → ảnh hưởng gián tiếp đến ranking.
Checklist Sitemap & Robots.txt
Kiểm tra đầy đủ
- Yoast SEO sitemap đã bậtBắt buộc
- Sitemap đã submit lên GSCBắt buộc
- Robots.txt không block trang quan trọngBắt buộc
- Robots.txt có dòng Sitemap: với URL đúng
- Đã test robots.txt với GSC hoặc tool online
- Các trang không cần index đã được noindex (không chỉ dựa vào robots.txt)
Bài viết liên quan
Bài viết này có hữu ích không?
Bài viết liên quan
Hướng dẫn Google Search Console: Đăng ký, Xác minh & Sử dụng GSC
<TLDR title="TL;DR (làm nhanh theo thứ tự)"> - Truy cập [search.google.com/search-console](https://search.google.com/search-console) → Đăng nhập Gmai...
Kiểm tra SEO Website: Checklist Audit SEO Toàn diện
<TLDR title="TL;DR (làm nhanh theo thứ tự)"> - **Technical SEO**: Kiểm tra indexing (GSC), site speed (PageSpeed Insights), mobile-friendly - **On-Pa...
Schema Markup cơ bản: Hướng dẫn Structured Data & Rich Snippets
<TLDR title="TL;DR (làm nhanh theo thứ tự)"> - **Schema Markup** = code giúp Google hiểu nội dung trang (ai, cái gì, ở đâu...) - **Rich Snippets** = ...
Hướng dẫn SEO
# Hướng dẫn SEO Chào mừng bạn đến với phần hướng dẫn về SEO (Search Engine Optimization) - tối ưu hóa công cụ tìm kiếm để website của bạn xuất hiện ...