Java爬虫(八)-- httpClient进阶:HTTPS和证书认证(原理总结篇)

一、前言本篇文章承接上一篇,对应讲述一些我在接触SSL协议、证书认证时学到的一些原理性知识。因为本身不是科班出身,网络方面很多对我来说都是新知识,特在此记录一下。二、HTTPSHTTPS=HTTP+S
Java 爬虫 2018年04月05日 32次浏览

Java爬虫(七)-- httpClient进阶: https 和 证书认证(讲故事篇)

一、前言本篇风格会偏向讲故事,来记录整个发现问题,解决问题的过程。具体的知识点总结放在后一篇。前段阵子被分配了一个工单,要求抓取另一个险企B的数据。想着应该不会比上一家A麻烦了,险企A抓取数据过程中有
Java 爬虫 2018年04月04日 38次浏览

Java爬虫(六)-- httpClient进阶:超时时间设置+cookie保存策略

一、前言本文主要介绍httClient超时时间设置,以及cookie保存策略设置。二、超时时间设置httpClient内部有三个超时时间设置:connectTimeout--连接超时指的是连接目标ur
Java 爬虫 2018年03月19日 40次浏览

Java爬虫(五)-- httpClient进阶:使用代理(详细解析)

一、前言好久没有写博客,趁着难得的空闲时间更新一波。前面几期讲到的主要包括了爬虫开发中的页面获取、页面解析两个方面的知识,套用二八原则,可以解决80%的工作。但是其他的20%的工作,就可能要用到我们8
Java 爬虫 2018年03月15日 43次浏览

Java爬虫(四)-- java 调用js函数 模拟页面js密码加密(附几个知识点)

前言前面一章讲的是模拟登录,留了一个模拟密码加密还没讲。因为这一过程的调试探索还是蛮多内容的,我更倾向于记录自己整个探索的过程,而不是把工具拿出来讲一下用法,所以单独拿一章来讲。调试过程首先,既然要模
Java 爬虫 2018年03月04日 56次浏览

Java爬虫(三)-- httpClient 模拟登录 + cookie 登录状态管理

前言前面两章内容阐述了httpClient怎么模拟Http请求和如何解析页面。接下去会讲在一些实战中遇到的问题。现在回到我的开发摸索之路,之前说到我所爬取的网页是某个险企提供给合作公司的一个页面,通过
Java 爬虫 2018年03月03日 54次浏览

java爬虫(二)-- httpClient模拟Http请求+jsoup页面解析

前言在了解了爬虫的大概原理和目前的技术现状之后,我就开始了java爬虫的蹒跚之旅。首先我想到的是用框架,了解到的主流的Nutch、webmagic、webcollector等等,都看了一遍,最好懂的是
Java 爬虫 2018年03月02日 71次浏览

Java爬虫(一)---前言

开发背景本人算是程序小白的阶段,目前大四,刚进公司实习,被分配了一个使用爬虫技术多账号轮流登录抓取某个险企网站数据的需求,之前没有怎么接触过,组里的人之前也没有开发过爬虫的,一路走来,都是自己通过网络
Java 爬虫 2018年03月01日 54次浏览