Spark & Shine

点亮自己,照亮周边

Skip to content
  • 首页
  • Contiki OS
  • The ONE
  • 数据分析
  • 关于我
  • 留言
  • 更多
    • Qiankun SU
    • 网络编码
    • Stack Overflow
    • 旧博客
    • 至理名茶
    • 酬谢
  • 中文
    • English English

爬虫

抓取由jQuery动态产生的网页数据:以东方财富中的沪港通历史数据为例

2021-02-24 Updated: 2021-02-24 3.4K

本文以东方财富中的沪港通历史数据为例,介绍如何获取由jQuery动态产生的网页数据。

Read more →

数据分析, 脚本语言 jQuery, 买入成交额, 动态网页, 沪港通, 爬虫 Leave a comment

爬虫与反爬:使用Selenium+ChromeDriver抓取动态网页

2021-02-07 Updated: 2021-02-07 2.7K

本文介绍如何用Selenium抓取动态网页,包括Selenium+PhantomJS(已弃用)和Selenium+ChromeDriver。

Read more →

数据分析, 脚本语言 ChromeDriver, PhantomJS, Selenium, 动态网页, 爬虫 Leave a comment

爬虫与反爬:使用代理proxy

2020-08-30 Updated: 2021-02-08 5.4K

使用同一个IP地址频繁抓取数据,IP容易被封。可以使用代理解决这个问题。

Read more →

数据分析 proxy, 代理, 反爬, 爬虫 Leave a comment

爬虫与反爬:使用用户代理User-agent

2020-08-28 Updated: 2021-02-08 4.4K

网页抓取机器人容易被服务器识别并拒绝提供服务,通过网页请求指定用户代理User-agent为浏览器,将爬虫伪装成浏览器访问,从而提升爬取成功率。

Read more →

数据分析 fake-useragent, User Agent, 反爬, 爬虫, 用户代理 1 Comment

Python爬取成语:从3字到12字

2015-07-24 Updated: 2016-01-11 3.6K

最近想看5个字成语域名注册情况(5个字的首字母,比如民以食为本,myswb.com),首先我需要一份5个字成语库。于是写了一个简单爬虫,索性将3个字到12个字全部爬下来。 Read more →

数据分析 Python, 成语, 爬虫 1 Comment

第一个爬虫程序:建立联系方式表格

2015-07-20 Updated: 2015-07-20 6K

实验室网页通常会有研究者的信息(如姓名、办公室、研究组、电子邮件),而且格式规整。写了一个简单Python爬虫程序,将同事的联系信息爬下来,建立一张联系方式表格。

Read more →

数据分析 BeautifulSoup, Python, 爬虫, 联系方式 1 Comment

微信公众号

WeChat Public

标签云

Latex 布匿战争 安装 罗马 数据集 数学 VPN Python NetworkX The ONE 整理 wordpress EC2 ns3 DTN Java 英语 MySQL beamer 代码高亮 awk 使用笔记 迦太基 基本语法 代数 Ubuntu 法国 爬虫 Eclipse application notes 域名 AWS MessageEventGenerator 网络编码 地缘看世界 PageRank Packet Tracer 发音规则 目录 法语 GTFS Markdown matplotlib 消息 词以类记

分类目录

近期评论

  • BUPTcxb发表在《The ONE使用笔记:目录》
  • jinbin tu发表在《Bubble Rap数据集Infocom05, Hong-Kong, Cambrige, Infocom06, Reality》
  • 数据分析:目录 – Spark & Shine发表在《代数方法求PageRank》
  • 数据分析:目录 – Spark & Shine发表在《用Python操作MySQL数据库》
  • 数据分析:目录 – Spark & Shine发表在《NetworkX使用笔记:基本操作》

最多浏览

  • 历史时间轴(中国、欧洲、世界) (259.6K)
  • 解决“The requested URL was not found on this server” (118.3K)
  • WordPress目录下产生一堆随机文件 (95.7K)
  • The ONE使用笔记:目录 (85.4K)
  • 《圆桌派》片尾曲 (76.4K)
  • 代数结构入门:群、环、域、向量空间 (71.1K)
Based on WordPress and Radiate | Total views: 2,957,218 | Total posts: 308