网络爬虫

最后更新:2023-10-18 20:53:23 | 状态:未完成
这里我们主要说爬取成功后的数据处理,主要针对html代码的解析,如果是json格式就不必说的。

简单的爬取用httpclient就可以,HttpUtil提供了更简单快捷的方式【参考

在获取取html源码后,需要从源码中提取需要的数据,这里主要用到RegularUtil来处理html标签、属性、各种复杂场景下的字符截取
但并不需要写正则【参考

首页 最近更新 搜索 提交