大家好我是琪琪,全文搜索引擎的工作原理,关于全文搜索引擎的工作原理正确的是很多人还不知道,那么现在让我们一起来看看吧!
全文搜索引擎的工作原理 全文搜索引擎的工作原理正确的是
全文搜索引擎的工作原理 全文搜索引擎的工作原理正确的是
全文搜索引擎的工作原理 全文搜索引擎的工作原理正确的是
1、搜索引擎的整个工作过程包括三个部分:1、抓取搜索引擎为想要抓取互联网站的页面,不可能手动去完成,那么百度,google的工程师就编写了一个程序,他们给这个自动抓取的程序起了一个名字,蜘蛛(也可以叫做“机器人”或者“网络爬虫”)。
2、互联网上的信息存储在无数个上,任何搜索引擎要想回答用户的搜索,首先要把网页存在自己本地的上,这靠的就是网络爬虫。
3、它不停的向各种网站发送请求,将所得到的网页存储起来。
4、通常的做法是利用网页之间的链接从一个网页出发,提取出指向其他页面的链接,把它们当成将下次要请求的对象,不停重复这个过程。
5、有很多细节要被考虑。
6、比如避免循环链接的网页;解析网页文档,提取里边的链接;当链接无法打开时对错误进行处理等。
7、2、索引索引就是帮助程序进行快速查找的。
8、大家都用过英汉词典。
9、字典前边的按照单词首字母排列的部分就是索引。
10、搜索引擎也一样。
11、这里要介绍个最重要的数据结构:反转列表。
12、搜索引擎所拥有的文档中出现的每一个单词都拥有一个反转列表。
13、它记录了这个单词在多少文档中出现,分别是哪些文档,每个文档分部出现多少次,分别出现在什么位置等信息。
14、这样当搜索相关单词时,Google就不用遍历所有的文档,只需要查找每个单词对应的反转列表就可以知道这个词在哪里出现了。
15、每一个网络文档不仅只有文本信息。
本文到这结束,希望上面文章对大家有所帮助。