本文以东方财富中的沪港通历史数据为例,介绍如何获取由jQuery动态产生的网页数据。
数据分析
Downlolad Google’s WebP Images via Take Screenshots with Selenium WebDriver
This post presents how to download Google’s WebP images by capturing screenshots in Selenium WebDriver.
爬取微信小程序内容:以微信指数为例
本文以微信指数为例介绍如何爬取微信小程序上的内容。
数据分析:目录
本文将数据分析相关的笔记整理成目录的形式,便于索引,包括数据获取、Python、数据分析。
使用Tushare获取北上资金
本文介绍如何使用财经数据接口包tushare获取北上资金。
爬虫与反爬:使用Selenium+ChromeDriver抓取动态网页
本文介绍如何用Selenium抓取动态网页,包括Selenium+PhantomJS(已弃用)和Selenium+ChromeDriver。
爬虫与反爬:使用代理proxy
使用同一个IP地址频繁抓取数据,IP容易被封。可以使用代理解决这个问题。
爬虫与反爬:使用用户代理User-agent
网页抓取机器人容易被服务器识别并拒绝提供服务,通过网页请求指定用户代理User-agent为浏览器,将爬虫伪装成浏览器访问,从而提升爬取成功率。
Read and write Excel files with Python
I would like to do statistical analysis on an Excel file. Rather than learn a new programming language VBA (Visual Basic for Applications), I would rather work with Excel files in Python. This post shows how to read and write Excel files with Python.
MySQL使用笔记:重新组织表的内容
本文以一个实例(GTFS的stop_times表)介绍如何重新组织表的内容。