最近經(jīng)常收到一些SEO小白的私信,他們稱自己去別的網(wǎng)站找一些原創(chuàng)文,再自己加工一下發(fā)布的網(wǎng)站是否有影響,百度能識別出來嗎?其實這個話題,相信網(wǎng)絡(luò)上說法不一,但是在小編這里就一句話,想做網(wǎng)站原創(chuàng)內(nèi)容少不了。今天小編就和大家說說百度對于原創(chuàng)內(nèi)容的相關(guān)信息。

百度的原創(chuàng)識別之路!

 

  1、成立原創(chuàng)項目組,打持久戰(zhàn)

  面對挑戰(zhàn),為了提高搜索引擎用戶體驗、為了使優(yōu)質(zhì)原創(chuàng)者原創(chuàng)網(wǎng)站得到應(yīng)有的收益、為了推動中文互聯(lián)網(wǎng)的前進(jìn),我們抽調(diào)大量人員組成原創(chuàng)項目組:技術(shù)、產(chǎn)品、運營、法務(wù)等等,這不是臨時組織不是1個月2個月的項目,我們做好了打持久戰(zhàn)的準(zhǔn)備。

  2、原創(chuàng)識別“起源”算法

  互聯(lián)網(wǎng)動輒上百億、上千億的網(wǎng)頁,從中挖掘原創(chuàng)內(nèi)容,可以說是大海撈針,千頭萬緒。我們的原創(chuàng)識別系統(tǒng),在百度大數(shù)據(jù)的云計算平臺上開展,能夠快速實現(xiàn)對全部中文互聯(lián)網(wǎng)網(wǎng)頁的重復(fù)聚合和鏈接指向關(guān)系分析。首先,通過內(nèi)容相似程度來聚合采集和原創(chuàng),將相似網(wǎng)頁聚合在一起作為原創(chuàng)識別的候選集合;其次,對原創(chuàng)候選集合,通過作者、發(fā)布時間、鏈接指向、用戶評論、作者和站點的歷史原創(chuàng)情況、轉(zhuǎn)發(fā)軌跡等上百種因素來識別判斷出原創(chuàng)網(wǎng)頁;,通過價值分析系統(tǒng)判斷該原創(chuàng)內(nèi)容的價值高低進(jìn)而適當(dāng)?shù)闹笇?dǎo)最終排序。

  目前,通過我們的實驗以及真實線上數(shù)據(jù),“起源”算法已經(jīng)取得了一定的進(jìn)展,在新聞、資訊等領(lǐng)域解決了絕大部分問題。當(dāng)然,其他領(lǐng)域還有更多的原創(chuàng)問題等待“起源”去解決,我們堅定的走著。

  3、原創(chuàng)星火計劃

  我們一直致力于原創(chuàng)內(nèi)容的識別和排序算法調(diào)整,但在當(dāng)前互聯(lián)網(wǎng)環(huán)境下,快速識別原創(chuàng)解決原創(chuàng)問題確實面臨著很大的挑戰(zhàn),計算數(shù)據(jù)規(guī)模龐大,面對的采集方式層出不窮,不同站點的建站方式和模版差異巨大,內(nèi)容提取復(fù)雜等等問題。這些因素都會影響原創(chuàng)算法識別,甚至導(dǎo)致判斷出錯。這時候就需要百度和站長共同努力來維護(hù)互聯(lián)網(wǎng)的生態(tài)環(huán)境,站長推薦原創(chuàng)內(nèi)容,搜索引擎通過一定的判斷后優(yōu)待原創(chuàng)內(nèi)容,共同推進(jìn)生態(tài)的改善,鼓勵原創(chuàng),這就是“原創(chuàng)星火計劃”,旨在快速解決當(dāng)前面臨的嚴(yán)重問題。另外,站長對原創(chuàng)內(nèi)容的推薦,將應(yīng)用于“起源”算法,進(jìn)而幫助百度發(fā)現(xiàn)算法的不足,不斷改進(jìn),用更加智能的識別算法自動識別原創(chuàng)內(nèi)容。

  目前,原創(chuàng)星火計劃也取得了初步的效果,一期對部分原創(chuàng)新聞?wù)军c的原創(chuàng)內(nèi)容在百度搜索結(jié)果中給予了原創(chuàng)標(biāo)記、作者展示等等,并且在排序及流量上也取得了合理的提升。

  綜上所述,不管百度算法如何變化,原創(chuàng)內(nèi)容肯定是未來的發(fā)展趨勢。所以網(wǎng)站想要穩(wěn)定地發(fā)展下去,就要輸出高質(zhì)量的原創(chuàng)內(nèi)容。百度肯定會多推薦原創(chuàng)內(nèi)容的,如果經(jīng)過加工的文章受到歡迎,一篇文章經(jīng)過不同的站長加工,那百度要如何提高用戶體驗度呢?