一切福田,不離方寸,從心而覓,感無不通。

模拟浏览器的神器 – HtmlUnit

PS:下面这个低本息我测试成功了,高版本怎么试都有问题。

 

随着Web的发展,RIA越来越多,JavaScript和Complex AJAX Libraries给网络爬虫带来了极大的挑战,解析页面的时候需要模拟浏览器执行JavaScript才能获得需要的文本内容。

 

好在有一个Java开源项目HtmlUnit,它能模拟Firefox、IE、Chrome等浏览器,不但可以用来测试Web应用,还可以用来解析包含JS的页面以提取信息。

 

下面看看HtmlUnit的效果如何:

 

首先,建立一个maven工程,引入junit依赖和HtmlUnit依赖:

其次,写一个junit单元测试来使用HtmlUnit提取页面信息:

最后,我们运行单元测试, 全部通过测试!

 

from:http://yangshangchuan.iteye.com/blog/2036809