HtmlCleaner
HtmlCleaner
是一个开源的Java
语言的Html
文档解析器。HtmlCleaner
能够重新整理HTML
文档的每个元素并生成结构良好(Well
-Formed
)的 HTML
文档。默认它遵循的规则是类似于大部份web浏览器为创文档对象模型所使用的规则。然而,用户可以提供自定义tag和规则组来进行过滤和匹配。它被设计的小,快速,灵活而且独立。HtmlCleaner
也可用在Java代码中,当命令行工具或Ant任务。 解析后编程轻量级文档对象,能够很容易的被转换到DOM
或者JDom
标准文档,或者通过各种方式(压缩,打印)连续输出XML
项目位置
:http://htmlcleaner.sourceforge.net/
类API
http://htmlcleaner.sourceforge.net/doc/org/htmlcleaner/HtmlCleaner.html
HtmlCleaner htmlcleaner = new HtmlCleaner();
TagNode root = htmlcleaner.clean(file);
Object[] objs = root.evaluateXPath("//div[@class=\"lockup small detailed option application\"]");
int weight=200;
for (int j = 0; j < objs.length; j++) {
TagNode tn = (TagNode) objs[j];
TagNode a = (TagNode) (tn
.evaluateXPath("//a[@class=\"artwork-link\"]")[0]);
String href = a.getAttributeByName("href");
href = href.substring(href.lastIndexOf("/") + 3,
href.lastIndexOf("?"));
String id = href;
String name = ((TagNode) (tn.evaluateXPath("//li[@class=\"name\"]")[0])).getText().toString();
System.out.println("id=" + id + ",name=" + name+",weight="+(weight-j));
}
跟据规则去各种找、速度很快
下载jar地址
:http://htmlcleaner.sourceforge.net/download.php
- 大小: 85.8 KB
- 大小: 67.5 KB
分享到:
相关推荐
HtmlCleaner2.6.1 API (英文) 及 JAR Library API LINK: http://htmlcleaner.sourceforge.net/doc/index.html
htmlcleaner html解析器htmlcleaner html解析器
网络爬虫htmlcleaner的jar包
htmlcleaner html解析器2.2版 ,解析速度很快的,比htmlparser1使用还速度快
HtmlCleaner2.1API参考手册.chm HtmlCleaner是一个把html解析为XML文档的Java程序库。 我试过,这是java世界中最快、最好、最小、最强大的Html解析库。 可以解析为DOM对象,然后使用其他的xml分析器进行分析。
一个最简单的htmlcleaner扒网页内容,demo中以58种的一个页面为例,xpath请通过chrome浏览器控制台选中需要的内容后右击选择复制xpath 不喜勿喷,资源免费下载
Java解析HTML利器 htmlcleaner2.8
注意//htmlcleaner.sourceforge.net/从2.4版起的项目
能清晰方便的找出网页中元素的对应关系,可以单独去掉某个tag标签及向里面添加页面元素
Java的HTML开源解析框架,可以用来提取Html文档里面的特定元素
html解析工具,支持xpath,简单方便
HtmlCleaner使用说明文档, 全面,还有很多例子可以参考!有空多交流!
HTML优化工具(HTML Cleaner) V1.0免费版HTML Cleaner是一个方便和可靠的HTML优化工具,旨在从HTML文档中删除不必要的字符,如多余的空格,引号,可选结束标记,等等。
HtmlCleanner HtmlCleaner极其短小精悍,源码一共只有260KB,并且速度惊人,只需要10毫秒左右就可以处理完HtmlParser需要300毫秒处理的Html页面。
NULL 博文链接:https://z-one.iteye.com/blog/1172948
基于HtmlCleaner编写第一个JAVA爬虫程序;文章博客URL地址:http://blog.csdn.net/gongbing798930123/article/details/78989572
HtmlCleaner是一个开源的Java语言的Html文档解析器。HtmlCleaner能够重新整理HTML文档的每个元素并生成结构良好(Well-Formed)的 HTML 文档
HtmlCleaner是一个开源的Java语言的Html文档解析器。
HTML网页解析,非常好的jar包!方便开发。