这就是搜索引擎

最新书摘:
  • 超人现身
    2012-06-30
    暗网爬虫的目的是将暗网数据从数据库中挖掘出来,并将其加入搜索引擎的索引,这样用户在搜索时可以利用这些数据
  • 秋天的老酸奶
    2012-02-24
    友好性: 保护网站部分私密, 减少被抓取网站的网络负载
  • 秋天的老酸奶
    2012-02-24
    选取一部分网页作为种子URL, 放入待抓取队列, 爬虫从此队列依次读取, 并将URL通过DNS解析, 将链接地址转换为IP, 然后将其和网页相对路径名称交给网页下载器, 网页下载器负责页面内容下载. 下载到本地的网页一方面将其存储到页面库中, 等待建立索引等后续处理, 另一方面将下载网页的URL放入已抓取URL队列中, 以避免重复抓取. 对于刚下载的网页, 从中抽取出所包含的所有链接信息. 并在已抓取URL队列中检查, 如发现链接还没有被抓取过, 则将其放入待抓取队列末尾. 在之后的抓取调度中会下载这个URL对应的网页. 循环直到待抓取URL队列为空
  • 秋天的老酸奶
    2012-02-24
    从某种角度看, 链接分析之所以能够改善搜索结果,可以认为是对信息的可信赖度做出的评判, 返回重要网页即可信赖网页
  • 秋天的老酸奶
    2012-02-24
    查询的平均长度是2.7个单词
  • 秋天的老酸奶
    2012-02-24
    文本检索的一代使用经典的信息检索模型, 如布尔模型,向量空间模型或概率模型, 来计算用户查选关键词和网页文本内容的相关程度. 网页之间有丰富的链接关系, 而这一代搜索引擎并未使用这些信息.目前几乎所有的商业搜索引擎都采取了链接分析技术
  • 秋天的老酸奶
    2012-02-24
    1995年是搜索引擎商业公司发展的重要起点, 其对应的背景是: 互联网上的Web站点数量首次超过100万, 此时普通用户已无法依赖手工浏览的方式来获得自己想要的信息, 在这一年产生了很多风云一时的早期搜索引擎公司. Yahoo, InfoSeek, Fast Search, AltaVista, Excite等曾经非常著名的搜索引擎公司都创建于1995年