Nếu bạn là một người mới đang tìm hiểu về SEO hẳn bạn đang còn thắc mắc về các khái niệm xung quanh Duplicate Content là gì? Nhưng không chỉ có bạn đâu mà ngay cả những người chuyên về Content, SEOer, Marketing cũng khá quan tâm tới đề tài này.
Duplicate Content hay trùng lặp nội dung là một trong những vấn đề có ảnh hưởng xấu đến quá trình SEO. Mọi SEOer luôn phải cố gắng phát hiện tình trang này và khắc phục nhanh chóng trước khi bị Google phạt. Cùng tìm hiểu cách phát hiện Duplicate Content và hướng xử lý dưới đây nhé!
Tìm hiểu Duplicate Content là gì?
Duplicate Content là gì? Duplicate Content được hiểu đơn giản là những nội dung xuất hiện trên Internet bị trùng lặp tương tự, gần giống hoặc trùng lặp lượng lớn ngay trên một hoặc nhiều địa chỉ web khác nhau.
Tình trạng này xảy ra hoặc là do vô tình hoặc do kỹ thuật thực hiện SEO ban đầu bị lỗi. Các trang AMP cũng có thể tính là lỗi Duplicate Content nếu không được tính toán liên kết kỹ càng.
Ví dụ: Bạn đã từng có một bài viết giới thiệu về sản phẩm/dịch vụ trên danh mục Sản phẩm/dịch vụ, nhưng sau đó lại đăng tiếp một bài với nội dung như thế lên trang Tin tức. Hay kể cả khi bạn đăng lên một Website khác. Tình trạng này chính xác là Duplicate Content (trùng lặp nội dung).
Và Google đã từng đề cập đến vấn đề này rằng: “Nếu website của bạn có chứa nhiều trang với nội dung gần giống nhau, hãy cho Google biết bạn đang muốn ưu tiên URL nào xuất hiện trên bảng xếp hạng của công cụ tìm kiếm”.
Đã có rất nhiều người quản trị trang web đã tận dụng điều này cố tình tạo ra những nội dung trùng lặp nhằm thao túng kết quả tìm kiếm để đạt được lưu lượng truy cập.
Tác hại của việc trùng lặp nội dung đối với SEO Website
Đối với SEOer
- Nội dung bài viết cần SEO mất thứ hạng, lưu lượng truy cập giảm. Thay vì chọn bài viết bạn muốn SEO, công cụ tìm kiếm sẽ lựa chọn một phiên bản khác.
Ví dụ:
URL 1: “domain.vn/duplicate-content-la-gi/” là URL gốc, thân thiện với người dùng
URL 2: domain.vn/duplicate-content-la-gi/?utm_content=buffer&utm_medium=social.
URL 3: domain.com/category/duplicate-content-la-gi3/
Bạn SEO URL 1 và muốn chúng xuất hiện trên TOP bảng xếp hạng của công cụ tìm kiếm Google nhưng Google lại chọn 1 trong 2 link bên dưới URL 2 hoặc URL 3. Link được chọn sẽ thay thế URL 1 để lên TOP và link này không thân thiện do tên dài, không chứa từ khóa. Và đa phần người dùng sẽ không muốn click xem một link không thân thiện, dẫn đến ít lượng truy cập.
- Hiệu quả backlink giảm, bởi khi nội dung được xuất bản ở nhiều nơi sẽ có lượng backlink cho riêng từng bài thay vì tập trung vào 1 bài bạn muốn SEO. Gây ra sự phân chia sức mạnh liên kết giữa các địa chỉ URL.
- Ảnh hưởng đến Ranking
Việc xuất bản nội dung trùng lặp có thể do 2 trường hợp là: Bạn cho phép trang web khác xuất bản lại đó gọi là phân phối nội dung. Hoặc trang web khác xuất bản lại nội dung của bạn mà chưa được cho phép.
Việc trùng lặp nội dung này thường không xảy ra vấn đề chỉ khi nội dung xuất bản lại được xếp hạng cao hơn nội dung gốc. Bạn nên xem xét nếu nó không mang lợi ích thì hãy dừng việc phân phối và yêu cầu trang chưa xin phép xuất bản lại nội dung của bạn gỡ bài viết.
Đối với công cụ tìm kiếm
Công cụ có thể sẽ gặp các vấn đề cụ thể sau đây, khi tình trạng Duplicate Content xảy ra.
- Công cụ tìm kiếm không biết nên loại trừ trang nào khỏi dữ liệu kết quả khi truy xuất cho người dùng.
- Làm chậm quá trình thu thập dữ liệu và thiết lập chỉ mục do không biết nên ưu tiên phiên bản nào tốt nhất.
- Khó định hướng các chỉ số (độ tin cậy, quyền hạn, anchor text, …) trên một trang hoặc nhiều trang trùng lặp nội dung.
Lỗi Duplicate Content có bị Google phạt không
Không! Nhưng bạn phải đảm bảo rằng nội dung bài viết không sao chép từ website khác và không thao túng kết quả của công cụ tìm kiếm.
Tuy nhiên, tình trạng Duplicate Content có ảnh hưởng lớn đến hiệu suất làm SEO, đồng nghĩa với việc mọi công sức bạn bỏ ra trước đây là vô nghĩa. Do đó bạn nên có một kế hoạch chiến lược xây dựng từ khóa và nội dung ngay từ ban đầu để tránh sự trùng lặp nội dung này nhé.
Nguyên nhân gây ra lỗi Duplicate Content và giải pháp khắc phục
Có rất nhiều nguyên nhân dẫn đến việc trùng lặp nội dung, mặc dù các quản trị viên website đã cố gắng cẩn thận để không xảy ra tình trạng này. Sau đây là một số nguyên nhân dẫn đến tình trạng Duplicate Content và cách xử lý hiệu quả.
URL
- Website của bạn có phiên bản Mobile
Tình trạng trùng lặp nội dung có thể xảy ra. Do phiên bản URL trên thiết bị di động trùng lặp với các URL trên thiết bị máy tính.
Để khắc phục tình trạng này bạn cần tối ưu chuẩn hóa các phiên bản Mobile thành phiên bản gốc. Cho Google thấy URL trên thiết bị di động là phiên bản dùng để thay thế nội dung trên máy tính để bàn nhờ sử dụng lệnh Rel = “Alternate”.
- Tính năng lọc Filtered/Faceted Navigation
Bạn có thể thấy tính năng này phổ biến trên các trang thương mại điện tử như lọc giá, thương hiệu, loại sản phẩm, kích cỡ, nơi bán, … Loại điều hướng này gắn tham số vào cuối các URL, như hình dưới.
Do khả năng kết hợp được nhiều bộ lọc, điều hướng nhiều chiều dẫn đến tình trạng gần như trùng lặp hoàn toàn. Nếu bạn đang nghi ngờ website của mình gặp lỗi này thì có thể xem xét cân nhắc nên index trang nào trên Google, và có thể bỏ đi các trang không quan trọng
- URL có và không có gạch chéo
Google luôn hiểu rằng 2 URL có gạch chéo “domain.vn/page/” và URL không có gạch chéo “domain.vn/page” là 2 URL độc lập.
Bạn có thể kiểm tra Duplicate bằng cách load lại cả 2 URL trên thanh tìm kiếm. Nếu URL không có gạch chéo chuyển hướng sang URL có gạch chéo thì không tính là Duplicate Content và ngược lại.
Giải pháp trong trường hợp này là bạn nên chuyển hướng tất cả các phiên bản không mong muốn về phiên bản gốc và đảm bảo các liên kết nội bộ được sắp xếp nhất quán, phù hợp.
Trùng lặp HTTP, HTTPS, WWW
Đây là lỗi trùng lặp phổ biến nhất mà rất nhiều website mắc phải. Do hầu hết các website đều truy cập được ở cả 4 thể mhư sau.
Công cụ tìm kiếm sẽ hiểu rằng đây là 4 website riêng biệt. Nếu tình trạng này xảy ra mà bạn chưa biết cách xử lý hay chưa nhận ra nó, thì công cụ tìm kiếm không biết nên đưa địa chỉ nào lên bảng xếp hạng tìm kiếm. Điều này làm ảnh hưởng rất lớn đến sức mạnh trang chủ.
Giải pháp là redirect 3 trang còn lại về 1 trang duy nhất trên server hosting (cấu hình cụ thể phụ thuộc vào server bạn đang sử dụng) hoặc thiết lập ưu tiên cho một địa chỉ trên Google Search Console.
Sử dụng Subdomains, HTTPS và Relative Linking
Subdomains được khuyến khích là không nên sử dụng do không thân thiện trong quá trình SEO, nhưng đôi khi nó vẫn bắt buộc sử dụng theo yêu cầu hoạt động Doanh nghiệp.
Những vấn đề Duplicate Content mà Subdomains gây ra là trùng lặp Subdomains với domain chính; trùng lặp 2 phiên bản https và http; sử dụng các liên kết nội bộ tương đối mà không sử dụng đường dẫn tuyệt đối.
Giải pháp là bạn có thể sử dụng “rel=canonical” ít nhất là nó hiệu quả với Google. Canonical giúp ngăn chặn việc trùng lặp nội dung, hay trường hợp copy nội dung mang đi nơi khác mà không được trỏ link về bản gốc.
Trùng lặp tag, category
Thông thường với các blog việc sử dụng tag và category hay gây ra hiện tượng trùng lặp nội dung.
Ví dụ:
Bài viết | Cách làm nội dung SEO Onpage chuẩn | Tối ưu SEO Onpage bằng cách nào? |
Tags | Cách làm, SEO Onpage, bí kíp | Tối ưu, SEO Onpage, bí kíp, cách làm |
Category | SEO Onpage, Cách làm | SEO Onpage, Tối ưu , Cách làm |
Giải pháp: Nếu bạn sử dụng nhiều tags ít category thì có thể sử dụng noindex, nofollow cho các tags. Ngược lại, nếu sử dụng nhiều category thì bạn dùng noindex, nofollow cho category.
Cách này giúp bọ Google dễ dàng tìm thấy bạn, và thu thập dữ liệu tốt hơn, người dùng có thể tìm thấy nội dung website theo chủ đề, đảm bảo không gây trùng lặp. Nếu không website của bạn sẽ xảy ra tình trạng sau đây.
- domain.vn/blog/tag/seo-onpage
- domain.vn/blog/seo-onpage
Trùng lặp phiên bản in ấn
Một tình huống phổ biến mà ít người chú ý đến đó là chức năng in của website cũng tạo ra một địa chỉ URL có nội dung gần giống với trang web chính.
Ví dụ: domain.vn/page-1 và domain.vn/page-1/print
Giải pháp đơn giản nhanh chóng nhất là sử dụng thẻ “rel=canonical”.
Bạn sẽ tìm thấy thẻ “rel=canonical” tại phần header của trang web, nơi có thẻ tiêu đề và thẻ mô tả: <link rel=”canonical” href=”https://www.domain.vn/blog” />
Các trang web sử dụng thẻ này sẽ được bọ Google nhận biết là bản sao của website.
Tránh lỗi Duplicate Content bằng cách nào?
Để không xảy ra tình trạng trùng lặp nội dung như trên, tránh làm mất thời gian và giảm hiệu suất website thì bạn cần chủ động tìm hiểu và đưa ra những phương pháp tối ưu từ khi bắt đầu quá trình làm SEO.
Redirect 301
Sử dụng chuyển hướng 301 trong file .htaccess để chủ động trong việc xử lý trùng lặp nội dung. Điều này giúp bạn điều hướng website tốt hơn nâng cao trải nghiệm người dùng. Nếu bạn mới cập nhật lại bài viết có nội dung cũ thì nhất định phải sử dụng Redirect 301 để chuyển hướng người dùng từ bài viết nội dung cũ sang bài viết nội dung mới nhé.
Liên kết nhất quán
Những liên kết nội bộ cần được xây dựng nhất quán , tránh các vấn đề về link như có dấu “/” cuối đường link, trùng các biến thể URL www, http, https,…
Không index những nội dung chưa hoàn thiện
Với những trang chưa có nội dung hoàn thiện bạn nên lưu nháp trước. Còn với những trang đang xây dựng ở bước tạo khung thì nên sử dụng thẻ noindex để ngăn chặn lập chỉ mục.
Xem xét các nội dung tương tự
Bạn nên xem xét việc hợp nhất hay mở rộng các trang nếu thấy nội dung giống nhau. Ví dụ nếu website của bạn có nội dung hướng dẫn cách lựa chọn
Bạn nên xem xét việc mở rộng hay hợp nhất các trang nếu nhận thấy nội dung của chúng tương tự nhau. Ví dụ nếu bạn có một website có các trang viết về cách nhuộm tóc từng màu riêng biệt, nhưng cách nhuộm thì giống nhau, bạn có thể viết thành một trang chỉ cách nhuộm tóc cho tất cả các màu tóc.
Sử dụng công cụ kiểm tra nội dung
Kiểm tra lỗi Duplicate Content trước khi xuất bản bằng các công cụ Spineditor, Plagiarism checker, … và các công cụ kiểm tra nọi dung trùng lặp khác.
Bài viết trên đây Alla gửi đến bạn những kiến thức cơ bản về Duplicate Content khi làm SEO, cách phát hiện, giải pháp khắc phục và cách phòng tránh lỗi nội dung trùng lặp. Hy vọng những chia sẻ này giúp bạn thuận lợi hơn trong công việc của mình. Nếu có bất kỳ thắc mắc nào vui lòng để lại bình luận bên dưới để được giải đáp nhé.