上一次发现了SGMLParser的bug,(见Python sgmlparser bug)于是就想到了利用HTMLParser,于是对其利用同样的HTML代码做了测试:
测试代码如下:
class postparser(HTMLParser):
def __init__(self):
HTMLParser.__init__(self)
self.pieces=[]
def handle_starttag(self, tag, attrs):
print "start tag name: " + tag
for k,v in attrs:
print "\t"+k+" : "+v
def handle_endtag(self,tag):
print "end tag name:"+tag
def handle_data(self,data):
self.pieces.append(data)
def gethtmltext(self):
return "".join(self.pieces)
def reset(self):
HTMLParser.reset(self)
def testmyparser(htmldata):
parser=postparser()
parser.feed(htmldata)
print parser.gethtmltext()
parser.reset()
if __name__=="__main__":
#htmldata=urllib.urlopen("http://www.sogou.com").read().decode("gbk")
htmldata="""<html><head>
<title>Google Page</title>
<meta http-equiv="Content-Type" content="text/html; charset=utf-8">
<link rel="stylesheet" href="#" type="text/css">
</head><body>
<table id="tab">
<tr id="tr1"><td id="tr1td1">tr1 td1</td><td>tr1 td2</td><td>tr1 td3</td></tr>
<tr id="tr2"><td id="tr2td1">tr2 td1</td><td>tr2 td2</td><td>tr2 td3</td></tr>
</table>
<br/>
<p onmousemove="javascript:alert('>p<');"> this is a paragraph.</p>
<img src="http://www.baidu.com/img/baidu_logo.gif" id="baidulogo" /><br/>
<a href="http://baidu.com">baidu</a><br/>
<b>bold font</b><br/>
<script language="javascript">alert("hello, world ");</script>
<style>#tab{background-color:#fcdad5;}</style>
</body></html>
"""
testmyparser(htmldata)
结果输出如下:
start tag name: html
start tag name: head
start tag name: title
end tag name:title
start tag name: meta
http-equiv : Content-Type
content : text/html; charset=utf-8
start tag name: link
rel : stylesheet
href : #
type : text/css
end tag name:head
start tag name: body
start tag name: table
id : tab
start tag name: tr
id : tr1
start tag name: td
id : tr1td1
end tag name:td
start tag name: td
end tag name:td
start tag name: td
end tag name:td
end tag name:tr
start tag name: tr
id : tr2
start tag name: td
id : tr2td1
end tag name:td
start tag name: td
end tag name:td
start tag name: td
end tag name:td
end tag name:tr
end tag name:table
start tag name: br
end tag name:br
start tag name: p
onmousemove : javascript:alert('>p<');
end tag name:p
start tag name: img
src : http://www.baidu.com/img/baidu_logo.gif
id : baidulogo
end tag name:img
start tag name: br
end tag name:br
start tag name: a
href : http://baidu.com
end tag name:a
start tag name: br
end tag name:br
start tag name: b
end tag name:b
start tag name: br
end tag name:br
start tag name: script
language : javascript
end tag name:script
start tag name: style
end tag name:style
end tag name:body
end tag name:html
Google Page
tr1 td1tr1 td2tr1 td3
tr2 td1tr2 td2tr2 td3
this is a paragraph.
baidu
bold font
alert("hello, world ");
#tab{background-color:#fcdad5;}
从测试结果来看,比之于SGMLParser,解析的结果还是不错的,克服了不能解析单个标签的bug,而且onmousemove中的><也得到了正确的解析。
分享到:
相关推荐
htmlparser(HTML页面解析)例子
Html解析助手htmlparser.jar。Html解析助手htmlparser.jar
python解析html的几种方法,lxml,xpath,htmlparser,SGMLParser等操作
HTMLParser HTML解析 HTMLParser HTML解析 HTMLParser HTML解析
HtmlParser.Net是来源于Java的一个用来解析html的组件,主要用于改造或提取html。它能够高速解析html,是非常好的一个html解析和分析工具。 这个是.Net版本包括源代码和帮助文档。 版本:HTMLParser.Net - Community...
HTML文档解析器 HTMLParser
基于java的开发源码-HTML文档解析器 HTMLParser.zip 基于java的开发源码-HTML文档解析器 HTMLParser.zip 基于java的开发源码-HTML文档解析器 HTMLParser.zip 基于java的开发源码-HTML文档解析器 HTMLParser.zip 基于...
资源名称:扩展HTMLParser对自定义标签的处理能力内容简介: HTMLParser是一个用来解析HTML文档的开放源码项目,它具有小巧、快速、使用简单的特点以及拥有强大的功能。 现在该项目的最新版本是Integration Build ...
Htmlparser,Jar包,Java,页面解析
如何在Java程序中利用正则表达式实现对字符串的解析.另外,HTMLParser是一款很强大的对HTML网页进行解析的工具,其中大量地用到正则表达式.
HTML解析器John Resig 的更新版本 -这是基于 Erik Arvidsson 的 toDOM()已删除,不需要this上下文更正了 WScript throw Error()为 WScript 工作toXMLString可以传入tag() , attr() makeMap也会制作大写版本用法 var ...
通过JAVA组件:HTMLPARSER,实现解析HTML文档
android 解析html (htmlParser)库和源码 因为一个项目需要解析一个网站上的新闻,所以找到了htmlParser这个开源的项目,删除了一些不需要的包,使其可以在android上用。 有两个工程,myhtml是库,要把它包含到...
htmlparser[1]是一个纯的java写的html(标准通用标记语言下的一个应用)解析的库,它不依赖于其它的java库文件,主要用于改造或 提取html。它能超高速解析html,而且不会出错。现在htmlparser最新版本为2.0。 毫不...
htmlparser是一款小而强大的解析Html 的第三方工具包,内含jar包和源文件包(两个),htmlparser1.6.jar,htmlparser1.6_src.jar,非常有用的
按DOM模型解析html文件的工具包 已下是源码列表: META-INF/MANIFEST.MF META-INF/maven/org.htmlparser/htmlparser/pom.properties META-INF/maven/org.htmlparser/htmlparser/pom.xml org.htmlparser.Parser.class ...
用于解析html的java开源工具,很有用
跨平台的Html解析代码_武稀松_HtmlParser.rar
主要介绍了Python HTMLParser模块解析html获取url实例,HTMLParser是python用来解析html的模块,HTMLParser采用的是一种事件驱动的模式,需要的朋友可以参考下
htmlparser解析API,希望对解析代码的伙伴们有帮助