Vấn đề và giải pháp xử lý nội dung trùng lặp

Kiến thức SEO
Hot!
(ngày đăng: 08/01/2014 - Số lần xem: 825)
Hầu như nội dung trùng lặp trên một trang web có thể là một trong những trận đánh lớn nhất mà SEO phải chiến đấu để chống lại. Quá nhiều hệ thống quản lý nội dung được thiết kế để làm việc với nội dung nhưng có một số cân nhắc SEO được đưa vào cách nội dung được triển khai trên khắp trang web.

Tại sao nội dung trùng lặp lại là một vấn đề?

Các tốt nhất để giải thích điều này là chỉ ra tại sao nội dung độc đáo là tốt nhất. Nội dung độc đáo làm bạn khác biệt so với những người khác, nó giúp bạn nổi bật hơn vì nội dung đó là của bạn và chỉ có một mình bạn sở hữu nó.



Vấn đề nội dung trùng lặp


Về cơ bản, nội dung trùng lặp hạ thấp giá trị nội dung của bạn. Công cụ tìm kiếm không muốn gửi cho mọi người một số trang đều nói những điều tương tự, vì vậy họ cần tìm kiếm nội dung độc đáo. Nội dung độc đáo giúp bạn cạnh tranh với các đối thủ khác.

Khi các công cụ tìm kiếm bắt đầu spider trang web của bạn, chúng lấy nội dung của trang và đặt nó trong chỉ mục của chúng. Nếu chúng nhìn thấy nội dung của trang sau trùng lặp với nội dung của trang trước thì chúng quyết định sử dụng tài nguyên của mình ở một nơi khác – có thể là lập chỉ mục trên trang web của đối thủ cạnh tranh với bạn.

Khi nội bộ trang web có sự trùng lặp, sự tự cạnh tranh là điều tồi tệ nhất khi bạn có liên kết đặc biệt là các liên kết xứng đáng. Mỗi URL trùng lặp về nội dung có thể nhận các liên kết tạo ra một trang không có đầy đủ các giá trị link juice trỏ đến nội dung có giá trị. Khi nội dung đặt trên một URL thì tất cả các liên kết trỏ đến nội dung được hợp nhất vào một trang duy nhất nhằm nâng cao giá trị thẩm quyền như một trang tổng thể.

Đối phó với vấn đề nội dung trùng lặp bên ngoài

Nội dung trùng lặp bên ngoài có hai nguồn chính mà bạn có thể tránh: hoặc là bạn hoặc là của người khác – nghĩa là nội dung do bạn lấy trộm từ người khác hoặc người khác lấy trộm của bạn. Về mặt pháp lý, nội dung trùng lặp bên ngoài có khả năng làm tổn hại trang web chẳng hạn như làm giảm thứ hạng trang web.

1. Nội dung

Ăn cắp nội dung của người khác là một hành động tồi tệ nhất – là những người scrap nội dung từ trang web khác và xuất bản nó trên trang web của mình. Kết quả là một bộ sưu tập những nội dung được lấy từ những người khác và xuất bản thành nội dung của mình. Nói chung, các trang này chỉ để thu hút khách truy cập và làm cho họ phải rời khỏi càng nhanh càng tốt bằng cách nhấp vào quảng cáo spam xuất hiện trên khắp trang. Đối với loại scrap này thì công cụ tìm kiếm chẳng còn cách nào khác ngoài việc cố gắng nỗ lực để nhận diện chúng và tẩy chay chúng khỏi chỉ mục của họ.

Không phải ai cũng ăn cắp nội dung bằng cách scrap. Một số chỉ thẳng ra có một cái gì đó bạn đã viết và mạo nhận nó là của riêng họ. Những trang web này thường là các trang chất lượng hơn so với các trang scrape nhưng trong thực tế, một số nội dung trùng lặp lại có hại hơn so với scrap bởi đối với hầu hết các phần nó được xem là trang web chất lượng và nội dung có khả năng thu hút các liên kết.

Đối với hầu hết các phần, scrap có thể được bỏ qua, tuy nhiên, một số hành vi vi phạm nghiêm trọng và tên trộm có thể biến mất sau khi thông qua phương tiện hợp pháp hoặc nộp đơn yêu cầu xóa DCMA.

2. Phân bố bài viết

Trong nhiều trường hợp nội dung được xuất bản vào các kênh phân phối với hy vọng sẽ được thu gom và tái bản trên các trang web khác. Giá trị nhân bản này thường là một hoặc nhiều liên kết được trỏ đến trang web của tác giả. Nhiều nội dung tôi viết cho blog E-Marketing Performance được nhân đôi trên các trang blog khác. Đây là chiến lược nhân bản và tôi phải cân nhắc cẩn thận những ưu và nhược điểm này.

Mỗi bài viết của tôi được đăng ở một nơi khác và tôi nhận được một liên kết đến trang web của tôi – các liên kết này là vô cùng quý giá. Tôi cũng được tiếp xúc nhiều hơn so với việc tôi tự làm trên blog. Bằng cách hạn chế đến mức tối thiểu sự trùng lặp, tôi không có nguy cơ tạo ra hàng loạt off-site trùng lặp có xu hướng làm tổn hại các trang web nhiều nhất.

Nhược điểm là toàn bộ nội dung được lặp lại. Tôi không còn là chủ sở hữu duy nhất nội dung của tôi nghĩa là tôi có khả năng tham gia lưu lượng truy cập và lái nó đến các blog khác. Trong thực tế, vì quá nhiều các trang web có thẩm quyền hơn tôi nên chúng thường đứng đầu tiên trong kết quả tìm kiếm.

Công cụ tìm kiếm làm ầm lên về vụ tìm “canonical” phiên bản trùng lặp để đảm bảo các nội dung ban đầu nhận được đánh giá cao hơn các phiên bản trùng lặp nhưng tôi chưa thấy điều này diễn ra một cách có ý nghĩa. Năm trước, tôi có hỏi một nhóm kỹ sư công cụ tìm kiếm về điều này. Câu hỏi của tôi là “nếu có hai phần nội dung giống hệt nhau và các công cụ tìm kiếm biết rõ cái nào được ưu tiên hàng đầu thì liên kết sẽ trỏ đến các phiên bản trùng lặp hay trỏ đến các phiên bản gốc?

Tôi rất vui ngay cả khi công cụ tìm kiếm chia link juice ra thành 50/50 giữa các trang web trùng lặp và các trang web gốc. Tất nhiên, điều đó sẽ bao gồm cả chia sẻ xã hội cũng như các liên kết nhưng nó chắc chắn là một cái gì đó mà công cụ tìm kiếm có thể làm để thưởng cho nội dung ban đầu bất kể là nội dung đó có mục đích gì.

3. Mô tả sản phẩm chung chung

Một số hình thức phổ biến nhất của nội dung trùng lặp là thông qua mô tả sản phẩm. Ví dụ như một trang web bán sách, đĩa CD, DVD hoặc đĩa Blu-Ray. Về cơ bản, mỗi trang web cùng có một thư viện sản phẩm. Bạn cho rằng các trang web này lấy việc mô tả sản phẩm từ đâu? Nhiều khả năng chúng sẽ được lấy từ các hãng phim, các nhà xuất bản, nhà sản xuất hoặc nhà sản xuất nội dung và khi chúng đến cùng một nơi thì nội dung mô tả cho các mặt hàng này thường là giống hệt nhau 100% trừ khi mỗi trang web có thời gian để xây dựng các mô tả sản phẩm của riêng họ.



Tạo sự riêng biệt cho nội dung


Vậy là, với tất cả hàng nghìn trang web sử dụng thông tin sản phẩm tương tự thì làm sao công cụ tìm kiếm phân biệt được khi chúng thực hiện tìm kiếm? Điều đầu tiên và quan trọng nhất là công cụ tìm kiếm muốn sản xuất nội dung độc đáo vì vậy nếu bạn đang bán cùng một sản phẩm nhưng hãy viết một mô tả sản phẩm độc đáo và hấp dẫn, lúc đó bạn sẽ có một cơ hội lớn thúc đẩy trang web được xếp hạng cao hơn trong kết quả tìm kiếm.

Trang web cung cấp mô tả sản phẩm độc đáo có rất nhiều lợi thế, tuy nhiên chỉ nội dung độc đáo thôi là không đủ để làm trang web có hồ sơ lịch sử tốt hơn và có thẩm quyền mạnh hơn. Nhưng với một trang web có tầm cỡ thì nội dung độc đáo sẽ luôn tốt hơn mang lại cơ hội để phát triển thành một trang web tốt hơn và mạnh hơn. Cần có thời gian nhưng nội dung ban đầu là chìa khóa để vượt qua hố tuyệt vọng nội dung trùng lặp.

Đối phó với vấn đề nội dung trùng lặp trên trang web

Hình thức khó hiểu nhất của nội dung trùng lặp và các loại mà bạn có thể chiến đấu đó là nội dung trùng lặp trên trang web của riêng bạn. Đó là một điều để chống lại cuộc chiến đấu nội dung trùng lặp với các trang web khác mà bạn không kiểm soát được. Nó là hoàn toàn khác để chống lại nội dung trùng lặp nội bộ của riêng bạn khi về mặt lý thuyết bạn có khả năng để sửa chữa nó.

Nội dung trùng lặp trên trang web thường bắt nguồn từ trang web kiến trúc xấu hay chính xác hơn là chương trình trang web tồi tệ. Khi một trang web không có cấu trúc đúng thì tất cả các loại vấn đề trùng lặp nội dung trên bề mặt, một trong số đó có thể dành chút thời gian để khám phá và phân loại.

Những người phản đối kiến trúc tốt thường trích dẫn về cách Google có thể hình dung ra những điều này và do đó có thể loại bỏ chúng khỏi trở thành một vấn đề cho trang web. Google có thể xác định một số nội dung trùng lặp không phải là trùng lặp và các thuật toán có thể tính đến điều này khi phân tích trang web của bạn. Nhưng điều đó sẽ không có gì để đảm bảo khi họ sẽ phát hiện ra tất cả thậm chí áp dụng các “sửa chữa” một cách tốt nhất có thể cho trang web của riêng bạn.

Google có thể hoặc không thể tìm ra vấn đề của bạn và có thể hoặc không thể áp dụng những cách giải quyết phù hợp. Vì vậy bạn càng ít làm cho Google bận rộn với bạn thì Google sẽ làm việc tốt hơn cho bạn.
Đây là một trong số các vấn đề trùng lặp nội dung phổ biến trên trang web và làm thế nào để giải quyết chúng.

Vấn đề 1: phân loại sản phẩm sao chép

Nhiều trang web sử dụng hệ thống quản lý nội dung cho phép bạn tổ chức các sản phẩm bằng các thể loại. Bằng cách đó, URL duy nhất được tạo ra cho mỗi sản phẩm trong mỗi loại cụ thể. Vấn đề phát sinh khi một sản phẩm duy nhất được tìm thấy trong nhiều thể loại. Do đó, CMS tạo ra một URL duy nhất cho mỗi thể loại mà sản phẩm đó thuộc.

Tôi đã nhìn thấy một số trang web tạo ra đến 10 URL cho mỗi trang sản phẩm duy nhất. Đây là loại sao chép đặt ra một vấn đề thực tế cho các công cụ. Một trang web có 5000 sản phẩm đột nhiên trở thành một trang web 50.000 sản phẩm. Khi công cụ tìm kiếm phân tích thì họ đã nhận ra rằng có 45.000 trang đã được sao chép.

Nếu như có bất kỳ lý do gì khiến spider tìm kiếm bỏ qua trang web của bạn khi lập chỉ mục trang thì điều này đúng là như vậy. Sự trùng lặp tạo ra một gánh nặng không cần thiết trên các công cụ, làm cho chúng sử dụng tài nguyên quá nhiều và loại bạn ra khỏi kết quả tìm kiếm với một số lượng lớn các trang.

Dưới đây là ảnh chụp màn hình vài năm trước đây từ trang web Home Depot. Tôi tìm thấy một sản phẩm cụ thể bằng cách điều hướng xuống hai đường dẫn khác nhau. Một cuốn sách này có thể được dễ dàng được gắn với các thể loại khác nhau, mỗi người sản xuất một URL duy nhất – vì vậy, nó là bản sao của nội dung.

Lưu ý rằng, chỉ vì đường dẫn tất cả các nội dung trên trang là 100% giống hệt nhau có lẽ sẽ tiết kiệm cho điều hướng hiển thị ở đầu trang. Nếu 10 người liên kết trên trang này trong khi đối thủ cạnh tranh cũng có 10 liên kết nhưng đến một URL duy nhất thì bạn có nghĩ rằng bạn sẽ đứng đầu trong kết quả tìm kiếm? Là bạn hay là đối thủ cạnh tranh!



Một sản phẩm có nhiều URL


Giải pháp: phân loại

Một giải pháp tốt nhất đó là không cho phép bất kỳ sản phẩm nào được tìm thấy trong nhiều thể loại. Nhưng đó không phải là cách tốt nhất cho khách hàng. Vì vậy, gắn các thẻ sản phẩm phù hợp với nhiều chủng loại, có một vài lựa chọn để ngăn chặn nội dung trùng lặp. Một là tự tạo ra đường dẫn URL cho mỗi sản phẩm. Thứ hai là đặt tất cả sản phẩm vào cùng một thư mục. Tôi không ủng hộ việc này vì nó phần nào phá hủy kiến trúc trang web tổng thể và ngăn ngừa phân loại tăng cường với các URL sản phẩm của bạn.

Theo tôi, giải pháp tốt nhất đó là phải có một thể loại chính được gán cho mỗi sản phẩm. Thể loại tổng thể này sẽ xác định URL của sản phẩm. Vì vậy, các sản phẩm dưới đây có thể được gán cho mỗi loại để người truy cập có thể có nhiều con đường hướng đến sản phẩm nhưng khi họ đến URL sẽ giống nhau, bất kể họ tìm thấy như thế nào.



Tạo URL duy nhất cho sản phẩm


Nhiều lập trình viên cố gắng sửa vấn đề này bằng cách ngăn chặn các công cụ tìm kiếm lập chỉ mục tất cả các URL. Trong khi điều này giữ cho các trang trùng lặp ra khỏi chỉ mục tìm kiếm thì nó không giải quyết vấn đề tách liên kết. Vì vậy, bất cứ Link Juice để URL không index cơ bản là bị mất chứ không phải giúp sản phẩm được xếp hạng tốt hơn trong các kết quả tìm kiếm.

Giải pháp Band-Aid: thẻ Canonical

Một số hệ thống quản lý nội dung sẽ không cho phép thực hiện các giải pháp đã trình bày ở trên. Vì vậy bạn sẽ có 2 lựa chọn: tìm kiếm CMS thân thiện hơn và mạnh mẽ hơn hoặc thực hiện một giải pháp band-aid. Thẻ Canonical chỉ là loại giải pháp đó của Band-Aid.

Thẻ Canonical được phát triển bởi các công cụ tìm kiếm như là môt phương tiện để công cụ tìm kiếm tìm đúng URL hoặc phiên bản canonical. Vì vậy, trong ví dụ này bạn chọn một URL mà bạn muốn canonical URL sau đó áp dụng các thẻ canonical vào trong code của mỗi trang sản phẩm trùng lặp khác.

<link rel="canonical" href="'http://www.thehomedepot.com/building-materials/landscaping/books/123book'' />

Về mặt lý thuyết, khi thẻ này được áp dụng trên tất cả các URL sản phẩm trùng lặp thì các công cụ tìm kiếm sẽ tìm thuộc tính bất kỳ liên kết trỏ đến các URL non-canonical đến URL canonical. Nó cũng nên giữ cho các URL của chúng tôi chỉ mục tìm kiếm chuyển tiếp bất kỳ giá trị liên kết để canonical URL là tốt nhưng đó chỉ là về lý thuyết.

Trong thực tế, công cụ tìm kiếm sử dụng thẻ này như một tín hiệu và mục đích của bạn. Sau đó, chúng sẽ lựa chọn để áp dụng khi thấy nó phù hợp cho chúng. Bạn có thể nhận được hoặc không thể nhận được tất cả các link juice thông qua các trang chính xác và bạn có thể hoặc không thể giữ cho các trang non-canonical được đánh chỉ số. Về cơ bản, chúng sẽ lưu ý đến thẻ canonical của bạn.

Vấn đề 2: sao chép lại thông tin tóm tắt về sản phẩm

Một hình thức phổ biến của nội dung trùng lặp là tóm tắt mô tả sản phẩm được hiển thị trong suốt các trang thể loại cấp cao hơn. Hãy nói rằng bạn đang tìm kiếm Burton Snowboard và bạn sẽ nhấp vào liên kết Burton trong điều hướng chính trong đó chứa một danh mục đầy đủ các sản phẩm Burton và những đoạn mô tả sản phẩm và bạn sẽ thấy hàng loạt các đoạn mô tả sản phẩm ngắn.

Các trang thể loại có thể đạt được thứ hạng công cụ tìm kiếm, mỗi sản phẩm là một bản mô tả ngắn được nhân đôi trên trang – điều này khiến các trang gần như hoàn toàn vô giá trị.

Giải pháp: tạo ra nội dung duy nhất cho tất cả các trang

Mục đích là để làm cho mỗi trang sản phẩm có nội dung riêng. Cách đơn giản nhất để làm điều này là viết một đoạn văn hoặc nội dung duy nhất cho mỗi trang sản phẩm.

Nếu bạn đã tách các trang chuyên mục của tất cả các sản phẩm thì nó vẫn cần duy trì như là một trang đáng được lập chỉ mục của công cụ tìm kiếm. Vào thời điểm đó, các đoạn nội dung trùng lặp sẽ không còn quan trọng mặc dù nội dung của trang vẫn sẽ giữ giá trị của nó.

Vấn đề 3: Sao chép URL an toàn hoặc không an toàn

Các trang web thương mại điện tử sử dụng kiểm tra an toàn có xu hướng bị gặp phải vấn đề nội dung trùng lặp giữa các phần an toàn và không an toàn về trang web của họ. Kết quả là nhiều URL giống nhau trên cùng một website. Thay vì chỉ có một sản phẩm URL truyền thống, công cụ tìm kiếm cũng chỉ là một phiên bản an toàn của cùng một URL.



Bạn có thể thấy sự khác biệt quan trọng ở đây là “s” ở cuối của “http”. Điều đó cho thấy rằng các URL được coi là an toàn. Các trang yêu cầu phải tuyệt đối an toàn đó là những trang có yêu cầu thông tin nhạy cảm.
Đây là loại sao chép thường xuyên xảy ra khi khách truy cập di chuyển từ phần không an toàn vào giỏ mua hàng an toàn trước khi chúng được kiểm tra, họ trở lại và tiếp tục mua sắm. Vấn đề trùng lặp được tạo ra đặc biệt khi các liên kết của các giỏ mua hàng an toàn có chứa liên kết “https” thay vì liên kết “http”.



sự trùng lập liên kết được tạo ra


Giải pháp: sử dụng liên kết tuyệt đối

Tôi tin rằng đó là một ý tưởng tốt để liên kết các mặt hàng trong giỏ hàng trở lại trang sản phẩm của họ. Tuy nhiên, đó là xu hướng của các nhà phát triển web sử dụng các liên kết tương đối chứ không phải là liên kết tuyệt đối cho các URL nội bộ.

Đối với những người không nhận ra sự khác biệt này, một liên kết có chứa URL đầy đủ bao gồm http://www.waytomarketing.com trong khi một liên kết tuyệt đối sẽ chỉ chứa thông tin cần thiết cho trình duyệt để tìm trang.

- Liên kết tuyệt đối: <a href=''http://www.waytomarketing.com/about-us/stoney-degeyter/''></a>

- Liên kết tương đối: <a href=''/about-us/stoney-degeyter/''></a>

Tất cả các liên kết tương đối sẽ tự động liên kết đến trang “https” vì đó là một phần của URL được giả định dựa vào người truy cập. Bắt buộc sử dụng liên kết tuyệt đối trỏ ngược lại sản phẩm của bạn. Điều này bắt buộc người truy cập di chuyển từ “https” trở lại “http” và không cho phép URL an toàn được truy cập bởi những người mua hàng hoặc các công cụ tìm kiếm.

Lúc này, bạn có thể tự hỏi tạo sao mọi người sẽ sử dụng tất cả các liên kết tương đối. Trở lại với các hệ thống quản lý nội dung trước đó, các trang được mã hóa bằng tay và tập tin được tạo ra trên máy chủ cho mỗi trang. Đến nay, vẫn còn rất nhiều trang web sử dụng điều này. Cần phải bảo dưỡng và cấu trúc lại trang web để thay đổi thói quen để trang web được tổ chức tốt hơn. Các chương trình như Adobe Dreamweaver và Microsoft FrontPage cho phép bạn di chuyển các tập tin xung quanh và các liên kết tương đối sẽ thay đổi tự động khi bạn làm như vậy. Điều này ngăn chặn các liên kết bị phá vỡ, khi các liên kết tuyệt đối được sử dụng thì mỗi liên kết đã được thay đổi bằng tay.

Liên kết tương đối trở thành loại quyền lực của các liên kết để sử dụng cho mục đích này. Tuy nhiên, tôi ủng hộ các liên kết tuyệt đối đặc biệt là để điều hướng trang web và quan trọng hơn là cho các liên kết sản phẩm giỏ mua hàng. Hình ảnh dưới đây minh họa cách bạn nên nhận được các liên kết đến và đi từ giỏ mua hàng của bạn.



Sử dụng liên kết tuyệt đối


Trường hợp tốt nhất không cho phép công cụ tìm kiếm vào khu vực mua hàng. Các URL và các trang nên bị chặn 100% nhưng việc ngăn chặn các URL là không đủ. Nếu một người di chuyển từ các trang bị chặn đến một bản sao (an toàn) trang sản phẩm không bị chặn, trang đó có thể được chọn để Google chỉ mục. Sử dụng liên kết tuyệt đối trở lại trang sản phẩm ngăn chặn các trang này đã điều hướng hoặc lập chỉ mục.

Vấn đề 4: Sao chép ID Session

ID Session tạo ra một số các hành vi vi phạm nội dung trùng lặp tồi tệ nhất có thể tưởng tượng. ID Session được tạo ra như một cách để theo dõi khách truy cập thông qua một trang web và cho phép họ thêm sản phẩm vào giỏ hàng đảm bảo nó được đính kèm cho chúng.

Với mỗi lần truy cập vào một trang web, một số ID duy nhất được nối vào URL duy nhất cho khách truy cập cụ thể.

URL thực tế: www.waytomarketing.com/product
Khách truy cập 1: www.waytomarketing.com/product?id=1234567890
Khách truy cập 2: www.waytomarketing.com/product?id=1234567891
Khách truy cập 3: www.waytomarketing.com/product?id=1234567892

Số session sau đó được thông qua các trang web và được gắn vào mỗi URL khi họ truy cập vào trang web. Chúng ta hãy cùng làm một phép tính đơn giản: Giả sử trang web của bạn có 50 trang. Mỗi khách truy cập được gắn một ID, do đó bạn có 50 URL duy nhất cho mỗi khách truy cập. Giả sử mỗi ngày bạn có 50 khách truy cập, trang web 50 trang của bạn bây giờ hiện có 2500 URL duy nhất. Nhân với 365 ngày trong một năm thì bạn sẽ được gần một triệu URL cho một trang web 50 trang.



ID Session không tốt cho trang web


Nếu bạn là công cụ tìm kiếm thì bạn có muốn lập chỉ mục?

Giải pháp: Không sử dụng ID Session

Tôi không phải là lập trình viên nên kiến thức trong lĩnh vực này còn hạn chế. Có nhiều cách tốt hơn để làm những gì các ID session làm mà không có sự trùng lặp nội dung. Bạn có thể lựa chọn phương pháp khác như cookies – cho phép bạn theo dõi khách truy cập thông qua trang web, chúng làm điều đó tốt hơn và có thể theo dõi vượt quá một phiên duy nhất mặc dù không tương thích với trình duyệt.

Vấn đề 5: Sao chép URL dự phòng

Một trong những vấn đề về kiến trúc trang web cơ bản nhất xoay quanh các trang được truy cập trong trình duyệt. Hầu hết các trang chỉ có thể được truy cập bởi chính URL của họ nhưng trong trường hợp trang đó là trang đầu tiên của một thư mục.

Điều này được minh họa trong hình dưới đây (ví dụ là: site.com). Mỗi URL không kiểm soát được sẽ dẫn đến cùng một trang với nội dung như nhau:



Sao chép URL dự phòng


Điều này là đúng với bất kỳ trang nào ở trên cùng của cấu trúc thư mục (ví dụ www.site.com/page et al). Đó là một trong 4 URL riêng biệt tạo ra nội dung trùng lặp trên các trang web và tách link juice của bạn.

Giải pháp: chuyển hướng Server Side và thống nhất liên kết nội bộ

Có một số bản sửa lỗi cho vấn đề nội dung trùng lặp và tôi khuyên bạn nên làm theo tất cả chúng.

a. Chuyển hướng Server Side

Một giải pháp có thể được thực hiện trên các máy chủ Apache là để chuyển hướng URLs non www. thành www. Thông qua tập tin .htaccess. Tôi không cần phải giải thích cụ thể ở đây nhưng bạn có thể làm theo các liên kết này. Điều này không hoàn toàn xảy ra trên tất cả các máy chủ nhưng bạn có thể làm việc với máy chủ web và người lập trình có thể tìm ra một giải pháp tương tự.

b. Sự nhất quán về liên kết nội bộ

Khi bạn quyết định xem nên hoặc không nên sử dụng các URL www thì hãy đảm bảo sử dụng tất cả các liên kết nội bộ tuyệt đối của bạn. Nếu bạn liên kết không chính xác thì khi chuyển hướng máy chủ sẽ xử lý nó. Nhưng nếu vì lý do chuyển hướng sai thì bạn đang mở lòng để đón nhận bản sao các trang được lập chỉ mục. Tôi đã nhìn thấy nó xảy ra và tôi nhận thấy rằng các chuyển hướng đó không làm việc lâu dài. Nó thường kéo dài một tháng sau đó trước khi vấn đề được phát hiện và sau đó sau khi các trang trùng lặp đã thực hiện theo cách của họ vào chỉ mục tìm kiếm.

c. Không bao giờ liên kết đến /index.html hoặc .php

Khi liên kết đến một trang ở phía trên cùng của thư mục bất kỳ hoặc thư mục con, không liên kết với các trang tập tin nhưng thay vào đó liên kết đến các thư mục của thư mục gốc. Các liên kết này sẽ được tự động chuyển hướng cho trang chủ bằng cách sử dụng chuyển hướng phía máy chủ nhưng nó không tự động thực hiện cho các trang web nội bộ. Đảm bảo tất cả các liên kết của bạn luôn trỏ đến thư mục gốc nghĩa là bạn sẽ không phải lo lắng về một trang bản sao được hiển thị trong kết quả tìm kiếm.

- Liên kết đến: www.site.com/
www.site.com/subdirectory/
- Không liên kết đến: www.site.com/index.html (hoặc .asp, .php)
www.site.com/subfolder/index.html

Thực hiện tất cả các bản sửa lỗi có thể nhưng bạn sẽ cần một chút thời gian để làm việc này nhưng hãy đảm bảo tất cả các vấn đề về nội dung trùng lặp sẽ được loại bỏ.

Vấn đề 6: sao chép tập tin lịch sử

Trong những năm qua, một trang web đã đi qua các giai đoạn như thiết kế, tái thiết kế, phát triển và tái phát triển. Những thứ có thể xáo trộn, sao chép và phiên bản thử nghiệm beta đã vô tình tạo ra nội dung trùng lặp. Tôi đã nhìn thấy các nhà phát triển thay đổi toàn bộ cấu trúc thư mục của một trang web và tải nó lên mà không loại bỏ hoặc chuyển hướng các tập tin gốc.

Vấn đề nghiêm trọng hơn đó là khi các nội dung liên kết nội bộ không được cập nhật để trỏ đến URL mới.
Miễn là các tập tin cũ vẫn còn trên máy chủ và tệ hơn là chúng đang được liên kết với công cụ tìm kiếm để tiếp tục được lập chủ mục các trang cũ tạo ra sự cạnh tranh cho công cụ tìm kiếm giữa trang cũ và trang mới.

Giải pháp: xóa tập tin và sửa các liên kết bị hỏng

Bạn có thể bắt đầu bằng việc xóa các tập tin bị hỏng. Cần phải sao lưu trang web của bạn để tránh tình trạng xóa nhầm trang mà bạn cần sử dụng. Khi tất cả các trang cũ được loại bỏ, bạn có thể chạy chương trình Xenu Link Sleuth để kiểm tra các liên kết bị hỏng.

Báo cáo này sẽ cung cấp cho bạn biết trang nào chứa liên kết bị hỏng và trỏ đến các liên kết đó và bạn có thể xác định vị trí chính xác mới của liên kết và sửa chữa nó. Khi tất cả đã xong, bạn chạy lại liên kết để kiểm tra. Rất có thể nó sẽ tìm thêm các liên kết cần sửa. Tôi đã chạy đến 20 lần để kiểm tra các liên kết trước khi tôi tự tin rằng mình đã sửa tất cả các liên kết bị hỏng.

Không phải tất cả nội dung trùng lặp sẽ phá hoại những nỗ lực SEO on-site hay của bạn. Cung cấp cho trang web của bạn một cơ hội để thực hiện việc loại bỏ tất cả các hình thức của nội dung trùng lặp bất cứ nơi nào có thể. Thay thế nội dung trùng lặp bằng nội dung hấp dẫn và duy nhất để mang lại lợi ích cho người tìm kiếm và công cụ tìm kiếm sẽ giúp bạn chống lại đối thủ cạnh tranh khi họ ăn cắp nội dung của bạn.
 

ArtSeed Design (Nguồn: thegioiseo.com)

Liên kết hay:
SEO Top Google

Copyright © ArtSeed Design 2011. All Rights Reserved SEO by Eric Doan

ArtSeed Design 'Tỏa sáng thương hiệu, đỉnh điểm thành công'

CHIẾN LƯỢC SEO VÀ ONLINE MARKETING CHUYÊN NGHIỆP