网页搜索引擎

搜索引擎的工作原理总共有四步:

第一步:爬行,搜索引擎是通过一种特定规律的软件跟踪网页的链接,从一个链接爬到另外一个链

接,所以称为爬行。

第二步:抓取存储,搜索引擎是通过蜘蛛跟踪链接爬行到网页,并将爬行的数据存入原始页面数据库。

第三步:预处理,搜索引擎将蜘蛛抓取回来的页面,进行各种步骤的预处理。

第四步:排名,用户在搜索框输入关键词后,排名程序调用索引库数据,计算排名显示给用户,排名过程与用户直接互动的。

不同的搜索引擎查出来的结果是根据引擎内部资料所决定的。比如:某一种搜索引擎没有这种资料,您就查询不到结果。

扩展资料:

定义

一个搜索引擎由搜索器、索引器、检索器和用户接四个部分组成。搜索器的功能是在互联网中漫游,发现和搜集信息。索引器的功能是理解搜索器所搜索的信息,从中抽取出索引项,用于表示文档以及生成文档库的索引表。

检索器的功能是根据用户的查询在索引库中快速检出文档,进行文档与查询的相关度评价,对将要输出的结果进行排序,并实现某种用户相关性反馈机制。用户接口的作用是输入用户查询、显示查询结果、提供用户相关性反馈机制。

起源

所有搜索引擎的祖先,是1990年由Montreal的McGill University三名学生(Alan Emtage、Peter 

Deutsch、Bill Wheelan)发明的Archie(Archie FAQ)。Alan Emtage等想到了开发一个可以用文件名查找文件的系统,于是便有了Archie。

Archie是第一个自动索引互联网上匿名FTP网站文件的程序,但它还不是真正的搜索引擎。Archie是一个可搜索的FTP文件名列表,用户必须输入精确的文件名搜索,然后Archie会告诉用户哪一个FTP地址可以下载该文件 。

由于Archie深受欢迎,受其启发,Nevada System Computing Services大学于1993年开发了一个Gopher(Gopher FAQ)搜索工具Veronica(Veronica FAQ)。Jughead是后来另一个Gopher搜索工具。

参考资料来源:百度百科-搜索引擎

一、工具:电脑

二、操作步骤

1.抓取

读取网页的内容,找到在网页中的其它链接地址,然后通过这些链接地址寻找下一个网页,这样一直循环下去,直到把这个网站所有的网页都抓取完为止。如果把整个互联网当成一个网站,那么网络蜘蛛就可以用这个原理把互联网上所有的网页都抓取下来,被抓取的网页被称之为网页快照。

2.数据库处理

搜索引擎抓到网页后,还要做大量的预处理工作,才能提供检索服务。其中有,网站数据库,就是动态网站存放网站数据的空间。索引数据库,索引是对数据库表中一列或多列的值进行排序的一种结构,使用索引可快速访问数据库表中的特定信息。简单的来说,就是把【抓取】的网页放进数据库。

3.分析检索服务

搜索引擎从索引数据库中找到匹配该关键词的网页;

4.对收集的结果进行排序

把收集来的网页进行排序,把这些进行最终的排序。

注意事项:蜘蛛程序url抓取页面--存储---原始页面。

搜索引擎的工作原理

全文搜索引擎的“网络机器人”或“网络蜘蛛”是一种网络上的软件,它遍历Web空间,能够扫描一定IP地址范围内的网站,并沿着网络上的链接从一个网页到另一个网页,从一个网站到另一个网站采集网页资料。它为保证采集的资料最新,还会回访已抓取过的网页。网络机器人或网络蜘蛛采集的网页,还要有其它程序进行分析,根据一定的相关度算法进行大量的计算建立网页索引,才能添加到索引数据库中。我们平时看到的全文搜索引擎,实际上只是一个搜索引擎系统的检索界面,当你输入关键词进行查询时,搜索引擎会从庞大的数据库中找到符合该关键词的所有相关网页的索引,并按一定的排名规则呈现给我们。不同的搜索引擎,网页索引数据库不同,排名规则也不尽相同,所以,当我们以同一关键词用不同的搜索引擎查询时,搜索结果也就不尽相同。

和全文搜索引擎一样,分类目录的整个工作过程也同样分为收集信息、分析信息和查询信息三部分,只不过分类目录的收集、分析信息两部分主要依靠人工完成。分类目录一般都有专门的编辑人员,负责收集网站的信息。随着收录站点的增多,现在一般都是由站点管理者递交自己的网站信息给分类目录,然后由分类目录的编辑人员审核递交的网站,以决定是否收录该站点。如果该站点审核通过,分类目录的编辑人员还需要分析该站点的内容,并将该站点放在相应的类别和目录中。所有这些收录的站点同样被存放在一个“索引数据库”中。用户在查询信息时,可以选择按照关键词搜索,也可按分类目录逐层查找。如以关键词搜索,返回的结果跟全文搜索引擎一样,也是根据信息关联程度排列网站。需要注意的是,分类目录的关键词查询只能在网站的名称、网址、简介等内容中进行,它的查询结果也只是被收录网站首页的URL地址,而不是具体的页面。分类目录就像一个电话号码薄一样,按照各个网站的性质,把其网址分门别类排在一起,大类下面套着小类,一直到各个网站的详细地址,一般还会提供各个网站的内容简介,用户不使用关键词也可进行查询,只要找到相关目录,就完全可以找到相关的网站(注意:是相关的网站,而不是这个网站上某个网页的内容,某一目录中网站的排名一般是按照标题字母的先后顺序或者收录的时间顺序决定的)。
搜索引擎并不真正搜索互联网,它搜索的实际上是预先整理好的网页索引数据库。

真正意义上的搜索引擎,通常指的是收集了因特网上几千万到几十亿个网页并对网页中的每一个词(即关键词)进行索引,建立索引数据库的全文搜索引擎。当用户查找某个关键词的时候,所有在页面内容中包含了该关键词的网页都将作为搜索结果被搜出来。在经过复杂的算法进行排序后,这些结果将按照与搜索关键词的相关度高低,依次排列。

现在的搜索引擎已普遍使用超链分析技术,除了分析索引网页本身的内容,还分析索引所有指向该网页的链接的URL、AnchorText、甚至链接周围的文字。所以,有时候,即使某个网页A中并没有某个词比如“恶魔撒旦”,但如果有别的网页B用链接“恶魔撒旦”指向这个网页A,那么用户搜索“恶魔撒旦”时也能找到网页A。而且,如果有越多网页(C、D、E、F……)用名为“恶魔撒旦”的链接指向这个网页A,或者给出这个链接的源网页(B、C、D、E、F……)越优秀,那么网页A在用户搜索“恶魔撒旦”时也会被认为更相关,排序也会越靠前。

搜索引擎的原理,可以看做三步:从互联网上抓取网页→建立索引数据库→在索引数据库中搜索排序。

从互联网上抓取网页
利用能够从互联网上自动收集网页的Spider系统程序,自动访问互联网,并沿着任何网页中的所有URL爬到其它网页,重复这过程,并把爬过的所有网页收集回来。

建立索引数据库
由分析索引系统程序对收集回来的网页进行分析,提取相关网页信息(包括网页所在URL、编码类型、页面内容包含的关键词、关键词位置、生成时间、大小、与其它网页的链接关系等),根据一定的相关度算法进行大量复杂计算,得到每一个网页针对页面内容中及超链中每一个关键词的相关度(或重要性),然后用这些相关信息建立网页索引数据库。

在索引数据库中搜索排序
当用户输入关键词搜索后,由搜索系统程序从网页索引数据库中找到符合该关键词的所有相关网页。因为所有相关网页针对该关键词的相关度早已算好,所以只需按照现成的相关度数值排序,相关度越高,排名越靠前。
最后,由页面生成系统将搜索结果的链接地址和页面内容摘要等内容组织起来返回给用户。
搜索引擎的Spider一般要定期重新访问所有网页(各搜索引擎的周期不同,可能是几天、几周或几月,也可能对不同重要性的网页有不同的更新频率),更新网页索引数据库,以反映出网页内容的更新情况,增加新的网页信息,去除死链接,并根据网页内容和链接关系的变化重新排序。这样,网页的具体内容和变化情况就会反映到用户查询的结果中。

互联网虽然只有一个,但各搜索引擎的能力和偏好不同,所以抓取的网页各不相同,排序算法也各不相同。大型搜索引擎的数据库储存了互联网上几亿至几十亿的网页索引,数据量达到几千G甚至几万G。但即使最大的搜索引擎建立超过二十亿网页的索引数据库,也只能占到互联网上普通网页的不到30%,不同搜索引擎之间的网页数据重叠率一般在70%以下。我们使用不同搜索引擎的重要原因,就是因为它们能分别搜索到不同的内容。而互联网上有更大量的内容,是搜索引擎无法抓取索引的,也是我们无法用搜索引擎搜索到的。

你心里应该有这个概念:搜索引擎只能搜到它网页索引数据库里储存的内容。你也应该有这个概念:如果搜索引擎的网页索引数据库里应该有而你没有搜出来,那是你的能力问题,学习搜索技巧可以大幅度提高你的搜索能力。、抓取网页
  每个独立的搜索引擎都有自己的网页抓取程序(spider)。Spider顺着网页中的超链接,连续地抓取网页。被抓取的网页被称之为网页快照。由于互联网中超链接的应用很普遍,理论上,从一定范围的网页出发,就能搜集到绝大多数的网页。
  2、处理网页
  搜索引擎抓到网页后,还要做大量的预处理工作,才能提供检索服务。其中,最重要的就是提取关键词,建立索引文件。其他还包括去除重复网页、分析超链接、计算网页的重要度。
  3、提供检索服务
  用户输入关键词进行检索,搜索引擎从索引数据库中找到匹配该关键词的网页;为了用户便于判断,除了网页标题和URL外,还会提供一段来自网页的摘要以及其他信息。 [编辑本段]【全文搜索引擎】  在搜索引擎分类部分我们提到过全文搜索引擎从网站提取信息建立网页数据库的概念。搜索引擎的自动信息搜集功能分两种。一种是定期搜索,即每隔一段时间(比如Google一般是28天),搜索引擎主动派出“蜘蛛”程序,对一定IP地址范围内的互联网站进行检索,一旦发现新的网站,它会自动提取网站的信息和网址加入自己的数据库。
  另一种是提交网站搜索,即网站拥有者主动向搜索引擎提交网址,它在一定时间内(2天到数月不等)定向向你的网站派出“蜘蛛”程序,扫描你的网站并将有关信息存入数据库,以备用户查询。由于近年来搜索引擎索引规则发生了很大变化,主动提交网址并不保证你的网站能进入搜索引擎数据库,因此目前最好的办法是多获得一些外部链接,让搜索引擎有更多机会找到你并自动将你的网站收录。
  当用户以关键词查找信息时,搜索引擎会在数据库中进行搜寻,如果找到与用户要求内容相符的网站,便采用特殊的算法——通常根据网页中关键词的匹配程度,出现的位置/频次,链接质量等——计算出各网页的相关度及排名等级,然后根据关联度高低,按顺序将这些网页链接返回给用户。
  这种引擎它的特点是搜全率比较高。搜索引擎抓取全网内容,然后匹配你搜索的关键词信息,按照收录最多,匹配最高的展示给你。每个搜索引擎的抓取规则不一样,对收录网站的权重评判也不一样,所以你在不同的搜索引擎搜索会有不同的展示结果,也许是顺序不同,大部分还是相同的,但要排除搜索引擎的广告内容。
喜欢阅读
  • 你的爱多么卑微

    你的爱多么卑微

    一个莫名其妙的误会,他在她最需要帮助时夺走了她的贞操,只甩给她一张支票。三年后,她涅槃归来,只为查清家破人亡的真相,却再次沦为他的玩物。

  • 仙婿请留步

    仙婿请留步

    “叶天,你这个废物,不配当苏家女婿,立刻滚出苏家!”“贤婿请留步,请原谅我们有眼无珠,求求你不要离开苏家……”无敌仙尊重生都市,赢得娇妻芳心,弥补前世遗憾,横扫前世仇敌,屹立世界之巅!

  • 神迟

    神迟

    一场盛典,令无数强者角逐,掀起血雨腥风!一段恩怨,让木野重归故地,只为父母清白!阴谋与谎言背后,隐藏着什么?木野跌入漩涡,凭一副完美残躯,逆流而上!鲜血铸通途,浴战火,谱史诗。尘封的真相就此揭开,等待着他的,将是光与影的抉择。木野冷面向天,静待诸神降临。

  • 替婚热恋小甜妻

    替婚热恋小甜妻

    五年前,她结婚时就知道老公心里有个初恋,他捏着她的下巴说:“你只是一个替身,除了钱,其他的别妄想。”她以为只要她努力对他好,他总会感动,总会爱上她,后来她才知道,男人不可能因为感动就爱上一个人。结婚5年,老公的初恋回来了,要离婚,还要她打掉肚子里的孩子……

  • 风华湘女错爱他

    风华湘女错爱他

    冷妤心,前世乃是皇莆王朝宰相嫡女,风华绝代,集万千宠爱于一身,却不料爱错了人,为了他,皇莆天遥,她勾心斗角,用尽心机却不料终是为自己的庶妹冷妤馨做了嫁衣。不但失去了后位,更是失去了尚未出生的孩儿。而现在,毒后重生,必将舞权弄势,彻底改变整个大陆。可是为什么自认为看清男女感情的她,还是一点点沦陷在那个看似霸道冷漠,实则温柔体贴的男人无微不至的感情里。在完成复仇大业后,她将何去何从,是和他一起登上权利的巅峰,还是放下一切,远走他方……

  • 细闻雨霖霖

    细闻雨霖霖

    她被相亲对象上下其手,他镇定解围,“你忘了跟我的约会?”她愣了半天,众目睽睽下,他牵起她的手,“还不走?”“为什么救我?”“想救就救了。”那个时候,夏言觉得陆正霆这人深沉的很,摸不准猜不透。可是后来,她觉得这男人简单到只有两个字:腹黑。“我喜欢席玺。”“小屁孩有什么好喜欢的?”“小屁孩总比老牛好,年轻又活力。”陆正霆脸黑了下去,“你嫌我老?”夏言立马作狗腿状:“陆总裁威武雄壮……”话还没说完就被某人一扔在床,“晚了,我有必要证明一下谁更有活力。”

  • 瑶华赋:狼王有毒

    瑶华赋:狼王有毒

    为情所伤的她认定,太美的男人是上天抛下的毒罂粟!一朝穿越,绮丽邂逅,这狼美男,更是有剧毒。她庶女翻身,只求一隅安宁,他却神出鬼没,阴魂不散。红罗帐,合卺酒,新郎却不是他!她舍身取义,成全夫君的帝王梦,却沦为狼族人质,而坐在龙椅上的,竟是他!瑶华宫,绾青丝,她放下芥蒂,痴盼他到来,他却册封青梅竹马的郡主为后,而她,只是他一统天下的棋子。这该死的恶狼,笑容满面,两眼放电,原来是坑蒙拐骗!爱是永恒的,血是鲜红的,男人不打是不行的!再相见,她挽住风华绝代的血族亲王,用再也无笑的凤眸告诉他,他雪狼王,只是她的过客之一,她这现代女要拔光他的獠牙!

  • 狠辣总裁复仇妻

    狠辣总裁复仇妻

    她本是蒋氏的三小姐,可是却因为一场浩劫,而被继父送去了意大利,在那里她遇到了生命中的魔鬼。那个魔鬼让她打造成了一个杀人不眨眼的恶魔,无情无恨。可是,她在执行一次任务中却发现了自己多年不见的姐姐在她面前死去。她愤恨,怒极,决定为姐报仇。他在看到她第一眼的时候就知道她是他一直苦苦寻找的人。给了他希望与生还的机会的女人。而她竟然在一开口就要求嫁给他。他没有意外的同意了,在她接近他的时候,他就知道她是为了什么而来。可是他愿意……她心里的伤,不和管是过去的,还是现在,还有未来,她今生所有的一切,都由他来负责。

  • 猜你喜欢
  • 磁力猫搜索引擎网页版
  • 磁力搜搜索引擎网页
  • 磁力搜搜索引擎网页版
  • 磁力猪搜索引擎网页
  • 蜘蛛bt搜索引擎网页版
  • 种子搜索引擎网页
  • 磁力狗搜索引擎网页版
  • 磁力搜索引擎网页
  • 宅男搜索引擎网页版
  • 搜索引擎网页版
  • 热门推荐
  • app显示free
  • 新葫芦兄弟 动漫
  • 八重洲 ft2d
  • python md5加密
  • Morton编码
  • 树莓派集群箱
  • home button123
  • color0000bb
  • NIS America百度
  • 美的mg80p51dg5
  • 鼓乐african
  • cherry hunt女主
  • gta5 mazebank
  • boot order惠普
  • libreelec okdi插件库
  • emacs展示
  • solaris 11 不好
  • 韦德之道全天1.5迈阿密
  • fetch springmvc
  • 557755yongli
  • All Right Reserved 安福网