用 Python 写网络爬虫(第2版)
- 书名:用 Python 写网络爬虫(第2版)
- 作者: 凯瑟琳·雅姆尔(Katharine·Jarmul) 理查德·劳森(Richard·Lawson)
- 格式:PDF
- 时间:2024-07-02
- 评分:
- ISBN:9787115479679
内容简介:
《用 Python 写网络爬虫(第2版)》包括网络爬虫的定义以及如何爬取网站,如何使用几种库从网页中抽取数据,如何通过缓存结果避免重复下载的问题,如何通过并行下载来加速数据抓取,如何利用不同的方式从动态网站中抽取数据,如何使用叔叔及导航等表达进行搜索和登录,如何访问被验证码图像保护的数据,如何使用 Scrapy 爬虫框架进行快速的并行抓取,以及使用 Portia 的 Web 界面构建网路爬虫。
Katharine Jarmul 是德国柏林的一位数据科学家和 Python 支持者。她经营了一家数据科学咨询公司——Kjamistan,为不同规模的企业提供诸如数据抽取、采集以及建模的服务。她从 2008 年开始使用 Python 进行编程,从 2010 年开始使用 Python 抓取网站,并且在使用网络爬虫进行数据分析和机器学习的不同规模的初创企业中工作过。读者可以通过 Twitter(@kjam)关注她的想法以及动态。
Richard Lawson 来自澳大利亚,毕业于墨尔本大学计算机科学专业。毕业后,他创办了一家专注于网络爬虫的公司,为超过 50 个国家的业务提供远程工作。他精通世界语,可以使用汉语和韩语对话,并且积极投身于开源软件事业。他目前正在牛津大学攻读研究生学位,并利用业余时间研发自主无人机。
译者介绍
李斌,毕业于北京科技大学计算机...
作者简介:
下载地址:
标签:
文章链接:https://www.dushupai.com/book-content-31859.html(转载时请注明本文出处及文章链接)
- 上一篇: 细胞的分子生物学
- 下一篇: 数理逻辑:证明及其限度
读书评论:
更多
-
Npl.01-05两位作者的工作经历对我个人很有启发性
猜你喜欢:
-
2024-07-246
-
2024-07-249
-
2024-07-249
-
2024-07-248
-
2024-07-247
-
2024-07-249
-
2024-07-246
-
2024-07-247