当前位置: 主页 > 日志 > Python >

提取URL的正则式

>>> html = "<div><a href='http://www.redicecn.com/plus/search.php?keyword=python&submit.x=0&submit.y=0'>Python</a> <a href='http://www.google.com'>google</a></div>"
 
>>> re.compile(r'''(http(s)?://([\w\-]+\.)+[\w\-]+(/[\w\- \./\?%&=]*)?)''').findall(html)
[('http://www.redicecn.com/plus/search.php?keyword=python&submit.x=0&submit.y=0', '', 'redicecn.', '/plus/search.php?keyword=python&submit.x=0&submit.y=0'), ('http://www.google.com', '', 'google.', '')]

 

[日志信息]

该日志于 2011-01-30 00:05 由 redice 发表在 redice's Blog ,你除了可以发表评论外,还可以转载 “提取URL的正则式” 日志到你的网站或博客,但是请保留源地址及作者信息,谢谢!!    (尊重他人劳动,你我共同努力)
   
验证(必填):   点击我更换验证码

redice's Blog  is powered by DedeCms |  Theme by Monkeii.Lee |  网站地图 |  本服务器由西安鲲之鹏网络信息技术有限公司友情提供

返回顶部