婷婷久久综合九色综合,欧美成色婷婷在线观看视频,偷窥视频一区,欧美日本一道道一区二区

<tt id="bu9ss"></tt>
  • <span id="bu9ss"></span>
  • <pre id="bu9ss"><tt id="bu9ss"></tt></pre>
    <label id="bu9ss"></label>

    當前位置:首頁 >  站長 >  搜索優(yōu)化 >  正文

    百度lee:搜索引擎索引系統(tǒng)概述(二)

     2013-10-28 21:34  來源: A5專欄   我來投稿 撤稿糾錯

      阿里云優(yōu)惠券 先領(lǐng)券再下單

    10月21日,百度lee簡要介紹了搜索引擎索引系統(tǒng)概述(一),主要講的就是搜索引擎的倒排索引,還是先來百科一下:Query,是查詢的意思,為了在數(shù)據(jù)庫中尋找某一特定文件、網(wǎng)站、記錄或一系列記錄,由搜索引擎或數(shù)據(jù)庫送出的消息;term是單詞文本,即關(guān)鍵詞。

    今天,百度Lee公布了搜索引擎索引系統(tǒng)概述第二部分,以下是原文:

    實際上在建立倒排索引的最后還需要有一個入庫寫庫的過程,而為了提高效率這個過程還需要將全部term以及偏移量保存在文件頭部,并且對數(shù)據(jù)進行壓縮,這涉及到的過于技術(shù)化在此就不多提了。今天簡要給大家介紹一下索引之后的檢索系統(tǒng)。

    檢索系統(tǒng)主要包含了五個部分,如下圖所示:

    (1)Query串切詞分詞即將用戶的查詢詞進行分詞,對之后的查詢做準備,以“10號線地鐵故障”為例,可能的分詞如下(同義詞問題暫時略過):

    10 0x123abc

    號 0x13445d

    線 0x234d

    地鐵 0x145cf

    故障 0x354df

    (2)查出含每個term的文檔集合,即找出待選集合,如下:

    0x123abc 1 2 3 4 7 9…..

    0x13445d 2 5 8 9 10 11……

    ……

    ……

    (3)求交,上述求交,文檔2和文檔9可能是我們需要找的,整個求交過程實際上關(guān)系著整個系統(tǒng)的性能,這里面包含了使用緩存等等手段進行性能優(yōu)化;

    (4)各種過濾,舉例可能包含過濾掉死鏈、重復數(shù)據(jù)、色情、垃圾結(jié)果以及你懂的;

    (5)最終排序,將最能滿足用戶需求的結(jié)果排序在最前,可能包括的有用信息如:網(wǎng)站的整體評價、網(wǎng)頁質(zhì)量、內(nèi)容質(zhì)量、資源質(zhì)量、匹配程度、分散度、時效性等等,之后會詳細給大家介紹。

    好了,上面的的大家可能不太懂,木木SEO給大家來解釋一下:

    前面(1)就是搜索引擎將提取文中關(guān)鍵詞,按分詞程序劃分好的詞,同時記錄每個詞在頁面中出現(xiàn)的頻率、出現(xiàn)的次數(shù)、格式(如加粗、傾斜、黑體、H標簽、加顏色、錨文字等)、位置。然后把這些詞語記錄為串關(guān)鍵詞集合,那么這些詞的相關(guān)信息如格式、權(quán)重等也會記錄在案。實際在搜索引擎中每個關(guān)鍵詞也被轉(zhuǎn)換為ID形式記錄,然后每個文件ID對應一串關(guān)鍵詞ID。這種每個文件ID對應一個串關(guān)鍵詞ID這樣的數(shù)據(jù)結(jié)構(gòu)被稱之為正向索引。比如文件1對應1、2這二個關(guān)鍵詞,文件2對應1、3這二個關(guān)鍵詞。

    而(2)就是將每一串關(guān)鍵詞ID對應文件ID,比如關(guān)鍵詞2對應文件1、3,如此一來大大縮短搜索引擎掃描索引庫中的文件,縮短掃描時間。提升搜索引擎的效率。

    文章編輯自:木木SEO博客 有問題可以咨詢!

    申請創(chuàng)業(yè)報道,分享創(chuàng)業(yè)好點子。點擊此處,共同探討創(chuàng)業(yè)新機遇!

    相關(guān)文章

    • 百度站長平臺:百度LEE漫談移動化

      在3月19日的百度站長平臺蝶變行動專場沙龍現(xiàn)場,百度LEE團隊主要成員、移動搜索產(chǎn)品負責人熊詠志老師針對現(xiàn)階段大熱的PC移動化問題闡述了自己的看法,值得同學們好好學習一下,匯總起來要點如下:?理清目標用戶需求,切忌盲目移動化?移動適配要全面,以免流量流失?盡快在百度站長平臺驗證站點,享受專項服務20

    • 百度站長平臺:搜索引擎索引系統(tǒng)概述

      眾所周知,搜索引擎的主要工作過程包括:抓取、存儲、頁面分析、索引、檢索等幾個主要過程。過去幾周給大家介紹了抓取相關(guān)的簡要過程。今天簡要介紹一下索引系統(tǒng),以億為單位的網(wǎng)頁庫中查找特定的某些關(guān)鍵詞猶如大海里面撈針,也許一定的時間內(nèi)可以完成查找,但是用戶等不起,從用戶體驗角度我們必須在毫秒級別給予用戶滿意

    • 百度站長平臺沙龍:百度Lee解密新一代搜索引擎

      “百度之夜”百度站長平臺高端沙龍?上海站紀實A5站長網(wǎng)(www.buyingtutorial.com)消息,10月16日晚,“百度之夜”——百度站長平臺高端沙龍?上海站在Caffebene咖啡召開。來自攜程、大眾點評、1號店、途牛等60余家上海知名網(wǎng)站的互聯(lián)網(wǎng)精英濟濟一堂。百度的搜索專家Lee對百度最近推出的知心搜

      標簽:
      百度lee
    • 百度lee:搜索引擎索引系統(tǒng)概述(一)

      從上次8月份百度站長平臺lee發(fā)布關(guān)于搜索引擎抓取信息后2個月已經(jīng)過去,這次lee繼續(xù)發(fā)布了搜索引擎索引系統(tǒng)的信息。不管怎么樣,木木SEO認為百度官方的公告我們還是要了解和分析的。下面是百度官方公告:

    • 百度lee:建立符合搜索抓取習慣的網(wǎng)站

      之前百度站長lee給大家介紹了搜索抓取系統(tǒng)工作原理,根據(jù)該工作原理今天簡要介紹一下如何建立網(wǎng)站是符合搜索引擎抓取系統(tǒng)習慣的。

    熱門排行

    信息推薦