• <strike id="840ca"></strike>
  • 客服
    咨詢
  • 公告3
  • 關(guān)注

    關(guān)于時(shí)代 更多優(yōu)惠活動(dòng)等您來拿!
    寶雞網(wǎng)絡(luò)公司微信 掃一掃關(guān)注——微信公眾號(hào) 時(shí)代手機(jī)瀏覽 掃一掃立即手機(jī)瀏覽
  • 關(guān)閉
  • 頂部
  • 搜索引擎工作原理–預(yù)處理 - 提取文字

    時(shí)間:2012-03-29 15:10 來源:未知
    搜索引擎工作原理 – 預(yù)處理 -- 提取文字

    在我們過去說讀的一些關(guān)于SEO優(yōu)化的書中,把“預(yù)處理”也簡稱為“索引”,因?yàn)樗饕龝r(shí)預(yù)處理最主要的步驟。

    搜索蜘蛛抓取原始頁面,并不能直接用于查詢排名處理。搜索引擎數(shù)據(jù)庫中的頁面數(shù)都在數(shù)萬億級(jí)別上,用戶輸入搜索詞后,如果靠排名程序?qū)@么多頁面進(jìn)行分析計(jì)算。計(jì)算量太大。不可能在一兩秒內(nèi)返回結(jié)果。因此抓取來的頁面必須經(jīng)過預(yù)處理,存入數(shù)據(jù)庫,為后面查詢排名做準(zhǔn)備。

    爬行和抓取一樣,預(yù)處理也是在后臺(tái)提前完成的,用戶搜索時(shí)感覺不到這個(gè)過程。

    現(xiàn)在的搜索引擎還是以文字內(nèi)容為基礎(chǔ)。蜘蛛抓取HTML頁面中的代碼,除了用戶在瀏覽器可以看到的文字之外,還包含了大量的HTML格式標(biāo)簽、JavaScript程序等無法用于排名的內(nèi)容,搜索引擎預(yù)處理首先要做的就是從HTML文件中去除標(biāo)簽、程序。提取可以用于排名的網(wǎng)頁頁面文字內(nèi)容。

    除了可見文字之外,搜索引擎也會(huì)提取一些特殊的包含文字信息的代碼,如Mate標(biāo)簽中的文字、如片替代文字、Flash文件的替代文字、鏈接錨文字。
    中日韩AV综合在线,五月天综合缴情好婷婷网,所有热av在线,久久人人爽人人爽人人丝袜V 国产精品sm重味 天天一本大道久久
  • <strike id="840ca"></strike>