采集网页内容是一项很常见的需求,比较传统的静态页面,curl 就能搞定。但如果页面中有动态加载的内容,比如有些页面里通过 ajax 加载的文章正文内容,又如果有些页面加载完成后进行了一些额外处理(图片地址替换等等)而你想采集这些处理过后的内容。那么牛逼闪闪的 curl 也束手无策了。
做过类似需求的人可能会说,老铁,上 PhantomJS 啊!
没错,这是一个办法,而且在相当长的时间里 PhantomJS 是为数不多的能解决这类需求的工具里的佼佼者。
但今天这里要介绍的是一个后来居上的工具 -- pupp