偷情一区二区,男人综合网,中文字幕资源站,人妻被黑人邻居精服

網(wǎng)絡(luò)營(yíng)銷(xiāo)
長(zhǎng)沙做網(wǎng)站:如何了解文章與關(guān)鍵詞的相關(guān)性
信息來(lái)源:長(zhǎng)沙做網(wǎng)站  /  發(fā)布時(shí)間:2015-4-7  /  瀏覽數(shù)量:

第一:針對(duì)提取出的內(nèi)容進(jìn)行分詞處理


  個(gè)人認(rèn)為,搜索引擎可能采用了某種算法,對(duì)內(nèi)容先進(jìn)行了詞語(yǔ)粗分階段,先得出N個(gè)概率最大的切分結(jié)果;然后,利用角色標(biāo)注方法識(shí)別未登錄詞,并計(jì)算其概率,將未登錄詞加入到切分詞圖中,之后視其為普通詞處理,最終進(jìn)行動(dòng)態(tài)規(guī)劃優(yōu)選出N個(gè)最大概率切分標(biāo)注結(jié)果。并進(jìn)行記錄。


第二:搜索引擎首先對(duì)要要分析的網(wǎng)頁(yè)進(jìn)行凈化處理


  網(wǎng)頁(yè)凈化主要是去掉網(wǎng)頁(yè)中大量無(wú)用的廣告、導(dǎo)航欄等網(wǎng)頁(yè)模板噪聲以及無(wú)意義的內(nèi)容,如Javascript腳本,CSS標(biāo)記等內(nèi)容。至于搜索引擎采用的是何種算法,則不為我們所知,但是個(gè)人估計(jì)應(yīng)該是對(duì)網(wǎng)頁(yè)進(jìn)行劃分為不同的快,通過(guò)衡量網(wǎng)頁(yè)塊的重要程度來(lái)判斷出包含主題內(nèi)容的塊,然后提取出該塊的內(nèi)容,至于搜索引擎如何判別網(wǎng)頁(yè)快的重要程度,那是另外一個(gè)課題。


第三:對(duì)關(guān)鍵詞的權(quán)重進(jìn)行確定分析


  在完成對(duì)文章分詞切分和凈化工作之后,就要將文章所有關(guān)鍵詞進(jìn)行分析了,筆者的想法是搜索引擎將文本表示成Ⅳ維特征向量,每一維分量由關(guān)鍵詞及其權(quán)重組成。一般認(rèn)為,關(guān)鍵詞在文中的權(quán)重的確定,主要由三部分組成,詞頻,位置和詞義共同影響決定。而詞頻和位置對(duì)詞語(yǔ)或短語(yǔ)的影響可以通過(guò)確定的算法加以確定,詞義權(quán)重也有固定的算法進(jìn)行分析計(jì)算。搜索引擎利用設(shè)定好的算法對(duì)上述關(guān)鍵詞進(jìn)行了計(jì)算和分析。從而得到最后的結(jié)果。


第四:對(duì)初步分詞的結(jié)果進(jìn)行去除無(wú)意義的詞語(yǔ)


  搜索引擎通過(guò)對(duì)第二步的分詞結(jié)果進(jìn)行分析,去除一些語(yǔ)氣詞和形容詞等非實(shí)意詞和一些單詞,同時(shí)還考慮到單字詞所表達(dá)的信息不夠完整也應(yīng)當(dāng)濾除。去除停用詞通過(guò)建立一個(gè)停用詞列表來(lái)實(shí)現(xiàn)。這樣,通過(guò)去除這些無(wú)意義的詞之后,剩下的就是有意義的,值得分析的詞匯了。


 筆者認(rèn)為,搜索引擎通過(guò)上面的步驟進(jìn)行分析后,得到最后的結(jié)果,而筆者在這里談?wù)勛约簩?duì)搜索引擎具體的分析方式,只是個(gè)人見(jiàn)解:


第一:搜索引擎基于關(guān)鍵詞出現(xiàn)的頻率


  網(wǎng)頁(yè)中不同關(guān)鍵詞的總數(shù),這是一個(gè)很重要的方面。個(gè)人認(rèn)為雖然關(guān)鍵詞出現(xiàn)的位置和詞頻大小對(duì)關(guān)鍵詞權(quán)重影響很大,但是詞頻大并不能決定該詞語(yǔ)適合作為關(guān)鍵詞。舉個(gè)簡(jiǎn)單的例子,我們?cè)谝黄恼轮袑?duì)“美國(guó)’’進(jìn)行優(yōu)化,出現(xiàn)的詞頻很大,出現(xiàn)的位置也很重要,但是這個(gè)詞還是不能賦予較高的權(quán)重,因?yàn)椤懊绹?guó)’’也廣泛的出現(xiàn)在其他的文獻(xiàn)中,在這些文獻(xiàn)中,“美國(guó)"也存在頻率大和所在位置也比較重要。因此,對(duì)那些詞頻較高但又不適合作為關(guān)鍵詞的詞語(yǔ)賦予的權(quán)重應(yīng)該較低。


第二:搜索引擎基于關(guān)鍵詞位置的權(quán)重


  在文檔中,關(guān)鍵字所在的位置對(duì)于搜索引擎判斷某個(gè)關(guān)鍵字在頁(yè)面的權(quán)重起到很重要的作用。比如說(shuō)域名被搜索引擎認(rèn)為是網(wǎng)站最固定的因素,例如:域名里面含有 DVD關(guān)鍵字的域名,在用戶檢索關(guān)鍵字DVD的時(shí)候具有先天的優(yōu)勢(shì)。標(biāo)題是網(wǎng)站的最寶貴的資源,搜索引擎認(rèn)為標(biāo)題是在瀏覽器標(biāo)題欄里而顯示,因?yàn)橐@示給用戶,所以它是文件最重要和最簡(jiǎn)潔的摘要。適當(dāng)突出關(guān)鍵字在標(biāo)題的比重非常有利于排名的提高。


第三:文檔中重要關(guān)鍵詞之間的距離


  個(gè)人分析,文檔中重要關(guān)鍵詞之間的距離應(yīng)該也是衡量關(guān)鍵詞與文章的相關(guān)性的一個(gè)重要方面。




上一條: 長(zhǎng)沙做網(wǎng)站:如何使外鏈的效率發(fā)揮到極致
下一條: 長(zhǎng)沙做網(wǎng)站:判斷網(wǎng)站SEO優(yōu)劣的標(biāo)準(zhǔn)
相關(guān)熱門(mén)資訊  News
一二三客戶案例

  123 NETWORK

合作共贏,助您打開(kāi)網(wǎng)絡(luò)營(yíng)銷(xiāo)財(cái)富之間!

聯(lián)系方式

地址:湖南省長(zhǎng)沙市天心區(qū)韶山南路248號(hào)南園503室

電話:13637482004    0731-88571521

網(wǎng)址:http:///

郵箱:123@123007.com

微信咨詢

掃一掃進(jìn)移動(dòng)端

版權(quán)所有 © 長(zhǎng)沙一二三網(wǎng)絡(luò)技術(shù)有限公司    統(tǒng)一社會(huì)信用代碼:91430103MACCH7984M    網(wǎng)站ICP備案號(hào):湘ICP備2023006748號(hào)     湘公網(wǎng)安備 43010302001803號(hào)