關于網站的原創內容,相信很多人都不陌生。我們做SEO的都知道,網站內容對于一個網站的排名影響是很大的,尤其是網站的原創內容,那么搜索引擎究竟是怎樣來判斷是否原創內容呢?筆者根據自己的SEO經驗,總結了一下兩個因素:
一、那么搜索引擎對于原創的判斷是如何進行的呢 ?
一般來講有以下幾個方面的因素決定:
1 、快照日期。
2 、蜘蛛抓取日期。
3 、頁面外鏈的多少。
4 、文章修改的程度。
二、舉個例子如果你在 www.hkmilson.cn 這個網站上發布了一片文章內容。搜索引擎來到這個網站并且抓取到了這篇文章 , 放到數據庫 , 并且在收錄數據庫中沒有發現類似內容 , 那么就會被認為是原創。
在這點上有個細節需要注意:
1 :文章必須被收錄
如果沒有被收錄,肯定是在搜索數據庫中石找不到的,搜索引擎根本就找不到這篇文章,更談不上什么原創了。
2 :文章被轉載
如果剛發表的一篇文章被其它轉載了,那么誰是原創呢 ? 那要看誰更先被搜索引擎抓取到,也就是更新周期的問題了。如果 a 站發表, b 站轉載,如果先抓取到 a 站,那么歸 a ,如果先抓取 b 站 , 那么原創就歸 b 站了 , 所以不是說你先發表了 , 原創就是你的 , 這個得看搜索引擎什么時間收錄了你的內容。
3 、快照日期
快照日期顯示時間最早的,一般就是原創了吧 !
不一定 , 這個說法要在一個更新周期之內 , 比如說文章發表后一周內 , 快照時間越早的地址將越有被認可為原創的可能。但如果文章都發表了幾個月了 , 說不定搜索引擎已經重新獲取過快照了 , 快照的日期就變了 !
還有其它的可能嗎 ?有 , 一般比如百度收錄 , 他可能會有一個收錄的數據庫 , 經過過濾后 , 收錄的內容才會到搜索結果里來。在這個期間就有一些問題了,比如 A 站首次發表, B 站轉載。蜘蛛先訪問 A站再訪問 B 站。而后可能先把 B 站的結果放出來了,而 A 站還在數據庫里。所以說搜索引擎沒有收錄并不表示搜索引擎蜘蛛沒有訪問過這些內容 , 也許在搜索引擎的庫存里已經有記錄了,只是你查的時間沒有放出來而已,就像 25 號才放出來的內容,但是快照是 20 號的,這就是搜索引擎的庫存內容,同時這也是檢驗原創的核心時間點。
4 、偽原創
偽原創也會被認為是原創 ?
大多時候是這樣的 , 搜索引擎蜘蛛不能明確分別這些東西 , 因為它的思維太程式化了 。 如果你的標題改過 , 文章的段落改過 , 那么蜘蛛將很難確定這篇文章是否有過收錄 , 也許它可以確定有部分內容是重復的,但它也不能因為這些而將這篇文章確認為是轉載 ! 當然,隨著搜索引擎程式設計的提高 , 應該會有一個相似度的東西出來 , 比如文字內容相似度超過百分之幾就會被認為是轉載。