HtmlCleaner - LL1x.com - ITeye博客

`

leiwuluan

浏览: 694589 次
性别:
来自: 北京

最近访客更多访客>>

思朝阳念落日

bigpotato9999

icesane

wzl_show

博主相关

博客

微博

相册

收藏

留言

关于我

文章分类

社区版块

存档分类

最新评论

annie211：
Angularjs构建一个CRUD应用可能用到的全部内容包括：数据绑定、基本模板标识符、表单验证、路由、深度链接、组件重用、依赖注入
潇寒听竹：你好，请问您上传的那个APK为什么每次只能识别一次，不能连续识 ...
pocketsphinxAdroid离线语音识别---入门
ichenwenjin：
Angularjs构建一个CRUD应用可能用到的全部内容包括：数据绑定、基本模板标识符、表单验证、路由、深度链接、组件重用、依赖注入
NN_iaoiao：问一下你的这个People 类是自定义的还是android ...
android 获取电话本中的联系人列表
wangzhe_real：对于刚接触的我是一个很详细的教程，太感谢了
JAX-RS cxf web服务 rest简单增删改查集成spring webService

HtmlCleaner

博客分类：

HtmlCleaner

阅读更多

HtmlCleaner

HtmlCleaner 是一个开源的Java 语言的Html 文档解析器。HtmlCleaner 能够重新整理HTML 文档的每个元素并生成结构良好(Well -Formed )的 HTML 文档。默认它遵循的规则是类似于大部份web浏览器为创文档对象模型所使用的规则。然而，用户可以提供自定义tag和规则组来进行过滤和匹配。它被设计的小，快速，灵活而且独立。HtmlCleaner 也可用在Java代码中，当命令行工具或Ant任务。解析后编程轻量级文档对象，能够很容易的被转换到DOM 或者JDom 标准文档，或者通过各种方式(压缩，打印)连续输出XML

项目位置 :http://htmlcleaner.sourceforge.net/

类API http://htmlcleaner.sourceforge.net/doc/org/htmlcleaner/HtmlCleaner.html

HtmlCleaner htmlcleaner = new HtmlCleaner();
	TagNode root = htmlcleaner.clean(file);
	Object[] objs = root.evaluateXPath("//div[@class=\"lockup small detailed option application\"]");
	int weight=200;
	for (int j = 0; j < objs.length; j++) {
		TagNode tn = (TagNode) objs[j];
		TagNode a = (TagNode) (tn
				.evaluateXPath("//a[@class=\"artwork-link\"]")[0]);
		String href = a.getAttributeByName("href");
		href = href.substring(href.lastIndexOf("/") + 3,
				href.lastIndexOf("?"));

		String id = href;
		String name = ((TagNode) (tn.evaluateXPath("//li[@class=\"name\"]")[0])).getText().toString();
		System.out.println("id=" + id + ",name=" + name+",weight="+(weight-j));
	}

跟据规则去各种找、速度很快

下载jar地址 :http://htmlcleaner.sourceforge.net/download.php

查看图片附件

分享到：

iphone safari 网页添加至主频图标大小设 ... | 网络爬虫 apache HttpClient

2011-12-13 12:19
浏览 1427
评论(0)
分类:编程语言
查看更多

评论

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

HtmlCleaner2.6.1 API (英文) 及 JAR Library: HtmlCleaner2.6.1 API (英文) 及 JAR Library API LINK: http://htmlcleaner.sourceforge.net/doc/index.html

htmlcleaner html解析器: htmlcleaner html解析器htmlcleaner html解析器

htmlcleaner-2.2.4.jar: 网络爬虫htmlcleaner的jar包

htmlcleaner html解析器2.2版: htmlcleaner html解析器2.2版，解析速度很快的，比htmlparser1使用还速度快

HtmlCleaner2.1API参考手册.chm: HtmlCleaner2.1API参考手册.chm HtmlCleaner是一个把html解析为XML文档的Java程序库。我试过，这是java世界中最快、最好、最小、最强大的Html解析库。可以解析为DOM对象，然后使用其他的xml分析器进行分析。

网页爬虫demo 带htmlcleaner jar包: 一个最简单的htmlcleaner扒网页内容，demo中以58种的一个页面为例，xpath请通过chrome浏览器控制台选中需要的内容后右击选择复制xpath 不喜勿喷，资源免费下载

htmlcleaner-2.8.jar: Java解析HTML利器 htmlcleaner2.8

htmlcleaner,活跃的.zip: 注意//htmlcleaner.sourceforge.net/从2.4版起的项目

网页解析工具HTMLCleaner: 能清晰方便的找出网页中元素的对应关系,可以单独去掉某个tag标签及向里面添加页面元素

HTMLcleaner: Java的HTML开源解析框架,可以用来提取Html文档里面的特定元素

htmlcleaner2_1.jar: html解析工具，支持xpath，简单方便

HtmlCleaner使用说明文档: HtmlCleaner使用说明文档, 全面，还有很多例子可以参考！有空多交流！

HTMLCleaner(HTML代码优化工具)V1.0官方英文免费版: HTML优化工具(HTML Cleaner) V1.0免费版HTML Cleaner是一个方便和可靠的HTML优化工具，旨在从HTML文档中删除不必要的字符，如多余的空格，引号，可选结束标记，等等。

页面正文提取htmlcleaner-2.8.jar: HtmlCleanner HtmlCleaner极其短小精悍，源码一共只有260KB，并且速度惊人，只需要10毫秒左右就可以处理完HtmlParser需要300毫秒处理的Html页面。

HtmlCleaner 用法: NULL 博文链接：https://z-one.iteye.com/blog/1172948

HtmlCleaner-JAVA爬虫--编写第一个网络爬虫程序: 基于HtmlCleaner编写第一个JAVA爬虫程序;文章博客URL地址:http://blog.csdn.net/gongbing798930123/article/details/78989572

htmlcleaner使用方法及xpath语法初探: HtmlCleaner是一个开源的Java语言的Html文档解析器。HtmlCleaner能够重新整理HTML文档的每个元素并生成结构良好(Well-Formed)的 HTML 文档

htmlcleaner-2.2: HtmlCleaner是一个开源的Java语言的Html文档解析器。

htmlcleaner: HTML网页解析，非常好的jar包！方便开发。

Global site tag (gtag.js) - Google Analytics