技術(shù)觀點(diǎn)

搜索引擎的工作原理是什么

發(fā)布時(shí)間：2020-06-21 10:33:18瀏覽次數(shù):

不同的Web信息檢索系統(tǒng)在工作原理上各不一樣，下面就結(jié)合搜索引擎來具體說明一下一般Web信息檢索系統(tǒng)的特點(diǎn)。雖然各個(gè)搜索引擎的具體實(shí)現(xiàn)不盡相同，但一般包含爬蟲程序、分析程序、索引程序、檢索程序和用戶接口界面5個(gè)基本部分，而且大致的工作原理是相同的。

Web搜索引擎主要是通過爬蟲程序定期遍歷互聯(lián)網(wǎng)，將網(wǎng)頁(yè)的統(tǒng)一資源定位符(URL)、內(nèi)容和采集時(shí)間等相關(guān)信息收集到Web服務(wù)器上，然后通過必要的信息索引和存儲(chǔ)優(yōu)化處理，利用特定的檢索界面對(duì)Web用戶直接提供服務(wù)。這種處理方式在很多方面適應(yīng)了Web信息的特點(diǎn)。例如，爬蟲程序的定期遍歷可以將不斷動(dòng)態(tài)變化的Web網(wǎng)頁(yè)信息采集過來，既能有效反映最新的網(wǎng)頁(yè)信息，又能將分布于各地的Web信息統(tǒng)一存儲(chǔ)在搜索引擎的本地服務(wù)器上，實(shí)現(xiàn)信息資源的本地化，以實(shí)現(xiàn)對(duì)用戶查詢的快速響應(yīng)；同時(shí)，搜索引擎提供了基于關(guān)鍵詞的全文檢索方式，避免了不必要的詞語(yǔ)分析和語(yǔ)義處理，適應(yīng)半結(jié)構(gòu)化網(wǎng)頁(yè)信息的處理特點(diǎn)，而且還能提高信息的查全率。

它的具體工作流程包括以下幾步：

步，由爬蟲程序采用一定的搜索策略對(duì)Web網(wǎng)絡(luò)進(jìn)行遍歷并下載網(wǎng)頁(yè)，系統(tǒng)中維護(hù)一個(gè)超鏈隊(duì)列或者堆棧，其中包含一些起始URL；爬蟲程序從這些URL出發(fā)，下載相應(yīng)的頁(yè)面，并從中抽取出新的超鏈加入到隊(duì)列或者堆棧中。上述過程不斷重復(fù)直到堆棧為空。為提高效率，搜索引擎中可能會(huì)有多個(gè)爬蟲程序進(jìn)程同時(shí)遍歷不同的Web子空間。為了便于將來擴(kuò)展服務(wù)，爬蟲程序應(yīng)能改變搜索范圍和搜索策略，一般采用以寬度優(yōu)先搜索策略為主、深度優(yōu)先搜索策略為輔的搜索策略。

第二步，由分析程序?qū)ε老x程序下載的網(wǎng)頁(yè)進(jìn)行分析以用于索引，網(wǎng)頁(yè)分析技術(shù)一般包括分詞(有些僅從文檔某些部分抽詞，如Altavista)或者使用停用詞表(stop list)來過濾網(wǎng)頁(yè)信息，同時(shí)還提供諸如單復(fù)數(shù)轉(zhuǎn)換、詞綴去除和同義詞替換等詞語(yǔ)轉(zhuǎn)換，這些技術(shù)的具體實(shí)現(xiàn)往往與處理方式以及系統(tǒng)的索引模型密切相關(guān)。

第三步，索引程序?qū)⒕W(wǎng)頁(yè)信息表示為一種便于檢索的方式并存儲(chǔ)在索引數(shù)據(jù)庫(kù)中。索引的質(zhì)量是Web信息檢索系統(tǒng)成功的關(guān)鍵因素之一。一個(gè)好的索引模型應(yīng)該易于實(shí)現(xiàn)和維護(hù)、檢索速度更快、空間需求更低。搜索引擎普遍借鑒了傳統(tǒng)信息檢索中的索引模型，包括倒排文檔、向量空間模型和概率模型等。

第四步，檢索程序從索引中找出與用戶查詢請(qǐng)求相關(guān)的網(wǎng)頁(yè)信息，采用與分析網(wǎng)頁(yè)文檔相似的方法來處理用戶查詢請(qǐng)求，最后將相關(guān)度大于閾值的所有網(wǎng)頁(yè)按照相關(guān)度遞減的順序排列并返還給用戶，當(dāng)然搜索引擎的相關(guān)度判斷并不一定與用戶的需求完全吻合。傳統(tǒng)的方式只是利用詞頻和詞語(yǔ)出現(xiàn)的標(biāo)記和位置來設(shè)置權(quán)重，新的設(shè)置權(quán)重方式主要利用基于超鏈分析的方法，然而只有在系統(tǒng)中引入用戶特征模式信息后才能最終為用戶提供個(gè)性化的信息檢索服務(wù)。

最后，用戶接口為用戶提供可視化的查詢輸入和結(jié)果輸出界面。在查詢界面中，用戶按照搜索引擎的查詢語(yǔ)法使用檢索詞語(yǔ)及各種簡(jiǎn)單、高級(jí)的檢索條件，構(gòu)造自己的查詢表達(dá)式。在輸出界面中，搜索引擎將檢索結(jié)果展現(xiàn)為一個(gè)線性的網(wǎng)頁(yè)列表，其中包含了網(wǎng)頁(yè)的標(biāo)題、摘要和相關(guān)超鏈等信息。由于Web信息是動(dòng)態(tài)變化的，因此，Robot分析器和索引器模塊要定期更新數(shù)據(jù)庫(kù)，時(shí)間通常約為一個(gè)月。索引數(shù)據(jù)庫(kù)越大，更新也越困難。這就使得這種傳統(tǒng)的被動(dòng)服務(wù)方式其實(shí)不是非常及時(shí)有效，借鑒信息推送服務(wù)的思想可以極大地提高Web信息檢索系統(tǒng)的及時(shí)性。

上一篇:簡(jiǎn)述:＂搜索引擎發(fā)展歷史＂

下一篇:搜索引擎優(yōu)化存在的問題及優(yōu)化建議

相關(guān)文章

国产在线拍揄自揄拍无码视频|国产极品精品免费视频能看的|亚洲午夜精品久久久久久人妖|北条麻妃国产九九九精品视频

專注抖音視頻、谷歌推廣20年

搜索引擎的工作原理是什么