今天看了Idiot.CN的一篇文章《asp程序实现伪静态的代码》,原文地址是:
http://hi.baidu.com/idiot_cn/blog/item/7888bb279e928704918f9d83.html
文中讲述了使用article.asp?/123.html来实现伪静态。
不敢苟同。分析如下:
按照我们对文件后缀名的常规理解来说。最后一个点之后的即为后缀名,那么上面的后缀名就是html了。
其实按照标准来讲不是这样的。
我们用一个遵循url解析规范的urlparse库(Python的标准库)来证实一下:
>>> import urlparse
>>> url = 'http://www.redicecn.com/article.asp?/123.html'
>>> urlparse.urlsplit(url).path
'/article.asp'
>>> import os
>>> os.path.splitext(urlparse.urlsplit(url).path)[-1]
'.asp'
>>> urlparse.urlsplit(url).query
'/123.html'
可以看到urlparse认为这个url的路径为:/article.asp,而/123.html是一个url参数。因此这个路径的文件后缀名应为.asp。
所以说,article.asp?/123.html不能真正达到伪静态的效果。
大家可以看一下一个开源爬虫库是如何来处理文件后缀名的:
http://code.google.com/p/webscraping/source/browse/common.py 221行
呵呵,谢谢
VaTG790i.最好的<a href=http://www.kyfei.com>网站推广软件</a>,
非常好
....................
;ui;普i;uighur;ui;ui;个
在unix网络编程中看到了关于TCP/IP的一些内容,我感觉还是写的不够。正在下载中,一定
下载地址呢