本文以东方财富中的沪港通历史数据为例,介绍如何获取由jQuery动态产生的网页数据。
爬虫
爬虫与反爬:使用Selenium+ChromeDriver抓取动态网页
本文介绍如何用Selenium抓取动态网页,包括Selenium+PhantomJS(已弃用)和Selenium+ChromeDriver。
爬虫与反爬:使用代理proxy
使用同一个IP地址频繁抓取数据,IP容易被封。可以使用代理解决这个问题。
爬虫与反爬:使用用户代理User-agent
网页抓取机器人容易被服务器识别并拒绝提供服务,通过网页请求指定用户代理User-agent为浏览器,将爬虫伪装成浏览器访问,从而提升爬取成功率。
Python爬取成语:从3字到12字
最近想看5个字成语域名注册情况(5个字的首字母,比如民以食为本,myswb.com),首先我需要一份5个字成语库。于是写了一个简单爬虫,索性将3个字到12个字全部爬下来。 Read more
第一个爬虫程序:建立联系方式表格
实验室网页通常会有研究者的信息(如姓名、办公室、研究组、电子邮件),而且格式规整。写了一个简单Python爬虫程序,将同事的联系信息爬下来,建立一张联系方式表格。