123Website Logo

Sitemap.xml và Robots.txt: Hướng dẫn Tạo, Cấu hình & Submit

Category: seoUpdated: 20/1/2026
seositemaprobots.txttechnical-seocrawlindex

TL;DR (làm nhanh theo thứ tự)

  • Sitemap: Yoast SEO tự tạo tại yoursite.com/sitemap_index.xml → Submit lên GSC
  • Robots.txt: Kiểm tra tại yoursite.com/robots.txt → Đảm bảo không block trang quan trọng
  • Sitemap = "danh sách trang" cho Google, Robots.txt = "luật chơi" cho bots
  • Cả hai đều quan trọng cho Technical SEO, nhưng Yoast đã xử lý tự động phần lớn

Mục tiêu

Hiểu sitemap và robots.txt, kiểm tra cấu hình đúng, submit lên GSC để Google crawl hiệu quả.

Thời gian

10–15 phút kiểm tra và cấu hình (một lần), sau đó tự động.

Chuẩn bị

Website WordPress với Yoast SEO đã cài, đã đăng ký Google Search Console.

1) Sitemap.xml là gì?

Sitemap.xml

Sitemap.xml là file XML chứa danh sách tất cả các trang trên website mà bạn muốn Google index.

Giúp Google:

  • Biết website có những trang nào
  • Biết trang nào mới được cập nhật
  • Biết mức độ quan trọng của từng trang
  • Crawl hiệu quả hơn, đặc biệt với website lớn

Website nhỏ có cần sitemap không?

Khuyến nghị

Có! Dù website nhỏ (< 50 trang), sitemap vẫn hữu ích:

  • Giúp Google phát hiện trang mới nhanh hơn
  • Không tốn công sức (Yoast tự tạo)
  • Là best practice chuẩn SEO

Kết luận: Mọi website đều nên có sitemap.

2) Tạo và kiểm tra Sitemap với Yoast SEO

  1. 1

    Bước 1: Kiểm tra sitemap đã bật

    Trong WordPress admin → SEOGeneralFeatures → kiểm tra XML sitemaps đã On.

  2. 2

    Bước 2: Xem sitemap

    Click link See the XML sitemap hoặc truy cập trực tiếp:
    https://yoursite.com/sitemap_index.xml

  3. 3

    Bước 3: Hiểu cấu trúc sitemap

    Yoast tạo sitemap dạng index, bao gồm nhiều sitemap con:

    • post-sitemap.xml — Danh sách bài viết
    • page-sitemap.xml — Danh sách trang
    • category-sitemap.xml — Danh sách danh mục
    • product-sitemap.xml — Danh sách sản phẩm (nếu có WooCommerce)
  4. 4

    Bước 4: Submit lên Google Search Console

    Vào GSC → Sitemaps → nhập sitemap_index.xmlSubmit.

Sitemap tự động cập nhật

Yoast SEO tự động cập nhật sitemap khi bạn:

  • Publish bài viết mới
  • Cập nhật bài viết cũ
  • Thêm/xóa trang

Bạn không cần làm gì thêm — chỉ submit sitemap một lần là đủ.

2.1. Loại trừ nội dung khỏi Sitemap

Khi nào cần loại trừ?

Một số trang không nên có trong sitemap:

  • Trang Thank you / Confirmation
  • Trang Landing page riêng tư
  • Trang test / draft
  • Trang duplicate / thin content
  1. 1

    Loại trừ 1 bài viết/trang cụ thể

    Khi chỉnh sửa bài viết → box Yoast SEO → tab AdvancedAllow search engines to show this post in search results? → chọn No.

  2. 2

    Loại trừ cả post type

    Vào SEOSearch AppearanceContent Types → chọn post type → Show in search results?No.

  3. 3

    Loại trừ taxonomy (category/tag)

    Vào SEOSearch AppearanceTaxonomies → chọn taxonomy → Show in search results?No.

3) Robots.txt là gì?

Robots.txt

Robots.txt là file text nằm ở thư mục gốc website (yoursite.com/robots.txt), chứa các quy tắc cho bots (Google, Bing, v.v.) biết:

  • Được phép crawl trang nào
  • Không được crawl trang nào
  • Sitemap ở đâu

Không có Robots.txt

  • Bots crawl tất cả mọi thứ
  • Có thể crawl trang admin, plugin files
  • Lãng phí crawl budget
  • Có thể index nội dung không mong muốn

Có Robots.txt

  • Bots chỉ crawl trang được phép
  • Bảo vệ trang admin, sensitive files
  • Tối ưu crawl budget
  • Kiểm soát nội dung được index

3.1. Cú pháp Robots.txt

Cú pháp cơ bản

code
User-agent: *
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php

Sitemap: https://yoursite.com/sitemap_index.xml

Giải thích:

  • User-agent: * — Áp dụng cho tất cả bots
  • Disallow: /path/ — Không cho phép crawl path này
  • Allow: /path/ — Cho phép crawl path này (override Disallow)
  • Sitemap: — Chỉ đường đến sitemap

Quy tắc Robots.txt

  • 01

    User-agent

    Xác định bot nào áp dụng rule. * = tất cả bots, Googlebot = chỉ Google.

  • 02

    Disallow

    Chặn crawl path/folder. Disallow: / = chặn toàn bộ website.

  • 03

    Allow

    Cho phép crawl trong folder đã Disallow. Ưu tiên cao hơn Disallow.

  • 04

    Sitemap

    Chỉ đường đến sitemap. Nên có đầy đủ URL (https://...).

3.2. Kiểm tra và chỉnh sửa Robots.txt

  1. 1

    Bước 1: Mở File editor

    Vào SEOToolsFile editor.

  2. 2

    Bước 2: Xem nội dung robots.txt

    Yoast hiện nội dung file robots.txt hiện tại. Nếu chưa có, Yoast sẽ tạo nội dung mặc định.

  3. 3

    Bước 3: Chỉnh sửa (nếu cần)

    Thêm/sửa rules → Save changes to robots.txt.

Lưu ý

Nếu không thấy File editor, có thể hosting chặn hoặc file permissions không cho phép. Kiểm tra với hosting provider.

4) Robots.txt mẫu cho WordPress

Robots.txt khuyến nghị cho WordPress

code
User-agent: *
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php
Disallow: /wp-includes/
Disallow: /readme.html
Disallow: /license.txt
Disallow: /xmlrpc.php
Disallow: /?s=
Disallow: /search/

# Sitemap
Sitemap: https://yoursite.com/sitemap_index.xml

Giải thích:

  • Chặn /wp-admin/ nhưng cho phép admin-ajax.php (cần cho AJAX)
  • Chặn /wp-includes/ (core files không cần index)
  • Chặn readme.html, license.txt (file nhạy cảm)
  • Chặn /xmlrpc.php (bảo mật)
  • Chặn trang search (thường là thin content)

4.1. Robots.txt cho WooCommerce

Bổ sung cho WooCommerce

code
# WooCommerce
Disallow: /cart/
Disallow: /checkout/
Disallow: /my-account/
Disallow: /*?add-to-cart=*
Disallow: /*?orderby=*
Disallow: /*?filter_*

Giải thích:

  • Chặn trang Cart, Checkout, My Account (không cần index)
  • Chặn URL với parameters (add-to-cart, sort, filter) — tránh duplicate content

5) Test Robots.txt

  1. 1

    Test bằng GSC

    Trong Google Search Console → Settings (gear icon) → robots.txt Tester (có thể không còn trong giao diện mới).
    Hoặc dùng URL Inspection → nhập URL → xem có bị block không.

  2. 2

    Test trực tiếp

    Truy cập yoursite.com/robots.txt → kiểm tra nội dung hiển thị đúng.

  3. 3

    Test với công cụ online

Cảnh báo quan trọng

KHÔNG BAO GIỜ để robots.txt như thế này:

code
User-agent: *
Disallow: /

Điều này sẽ chặn toàn bộ website khỏi Google! Website sẽ biến mất khỏi kết quả tìm kiếm.

6) Sitemap vs Robots.txt

Sitemap (Nên làm)

Những điểm nên ưu tiên để UI gọn và dễ bảo trì.

  • Submit sitemap lên GSC
  • Để Yoast tự động tạo và cập nhật
  • Kiểm tra sitemap sau khi publish nhiều bài
  • Bao gồm tất cả trang muốn index
  • Loại trừ trang không cần index qua Yoast

Robots.txt (Lưu ý)

Tránh các cách fix nhanh gây khó bảo trì hoặc lỗi responsive.

  • Disallow: / (chặn toàn bộ)
  • Block CSS/JS files (Google cần đọc)
  • Quá nhiều rules phức tạp
  • Dùng robots.txt để ẩn nội dung nhạy cảm (không an toàn)
  • Quên cập nhật khi thay đổi cấu trúc website

Robots.txt KHÔNG phải bảo mật

Robots.txt chỉ là hướng dẫn cho bots "ngoan". Nó không ngăn được:

  • Bots "xấu" (spam bots) vẫn có thể crawl
  • Người dùng trực tiếp truy cập URL
  • Hacker tìm kiếm files nhạy cảm

Nếu cần bảo mật thực sự: Dùng password protection, .htaccess, hoặc authentication.

7) Câu hỏi thường gặp

FAQ về Sitemap & Robots.txt

Sitemap của tôi hiện 'Couldn't fetch' trong GSC?

Nguyên nhân có thể:

  • URL sitemap sai (thiếu https, sai domain)
  • Sitemap bị block bởi robots.txt
  • Server error khi Google request sitemap

Cách sửa:

  • Kiểm tra URL sitemap có truy cập được không
  • Kiểm tra robots.txt không block sitemap
  • Đảm bảo Yoast SEO sitemap đang bật
Tôi đã sửa robots.txt nhưng Google vẫn crawl trang bị block?

Google cache robots.txt và không đọc lại ngay. Có thể mất vài ngày đến vài tuần để Google cập nhật.

Ngoài ra, robots.txt chỉ chặn crawl, không chặn index. Nếu trang đã được index trước đó, nó vẫn có thể xuất hiện trong search results.

Để xóa khỏi search: Dùng noindex meta tag hoặc GSC Remove URL tool.

Có nên block Googlebot-Image?

Không khuyến nghị trừ khi có lý do cụ thể.
Nếu block Googlebot-Image, ảnh của bạn sẽ không xuất hiện trên Google Images — mất một nguồn traffic tiềm năng.

Website mới có cần sitemap ngay không?

Có! Sitemap giúp Google phát hiện website mới nhanh hơn.
Ngay sau khi launch website, setup Yoast và submit sitemap lên GSC.

Robots.txt có ảnh hưởng đến ranking không?

Không trực tiếp. Robots.txt chỉ kiểm soát crawling, không phải ranking.
Tuy nhiên, nếu block sai (VD: block CSS/JS), Google có thể không render đúng trang → ảnh hưởng gián tiếp đến ranking.

Checklist Sitemap & Robots.txt

Kiểm tra đầy đủ

  • Yoast SEO sitemap đã bật
    Bắt buộc
  • Sitemap đã submit lên GSC
    Bắt buộc
  • Robots.txt không block trang quan trọng
    Bắt buộc
  • Robots.txt có dòng Sitemap: với URL đúng
  • Đã test robots.txt với GSC hoặc tool online
  • Các trang không cần index đã được noindex (không chỉ dựa vào robots.txt)

Bài viết liên quan

Bài viết này có hữu ích không?