V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX  ›  chuhades  ›  全部回复第 7 页 / 共 13 页
回复总数  241
1  2  3  4  5  6  7  8  9  10 ... 13  
2015-03-01 17:26:30 +08:00
回复了 chuhades 创建的主题 Python 关于 URL 去重的想法
@lk09364 目前的项目就是扫描器,所以不可能针对每个站点自己去制定规则 : (
2015-03-01 17:15:21 +08:00
回复了 chuhades 创建的主题 Python 关于 URL 去重的想法
@lk09364 是的,我就是讲参数和path 分离的,但是很多url做了rewrite 或者pathinfo,如下:
http://a.com/p1/p2/a/1/b/2 ,这样的就很蛋疼,对于这种,只想出用一级目录,目录深度,尾部特征来做判断。但是可能会有漏报,比如题目中描述的 http://www.yigeshop.cn/index.php/home/shop_list/16、 http://www.yigeshop.cn/index.php/home/shop_details/24会被判断成相同的url
2015-03-01 16:54:03 +08:00
回复了 chuhades 创建的主题 Python 关于 URL 去重的想法
@lk09364 是的 我的代码也是这么写的,但是需求如题目,按已有的规则:
http://www.yigeshop.cn/index.php/home/shop_list/16、 http://www.yigeshop.cn/index.php/home/shop_details/24 会被判断成相同的url
2015-03-01 16:52:41 +08:00
回复了 chuhades 创建的主题 Python 关于 URL 去重的想法
@ruoyu0088 感谢,但是和我的需求还是不大一致。其实转换个说法,相当于怎么从一个url(rewrite)中提取出参数名称?
例如 http://www.yigeshop.cn/index.php/home/shop_list/9,参数就应该是9这部分,不知道能不能理解我的意思。。
2015-03-01 16:40:44 +08:00
回复了 chuhades 创建的主题 Python 关于 URL 去重的想法
@chuhades 只是
2015-03-01 16:40:35 +08:00
回复了 chuhades 创建的主题 Python 关于 URL 去重的想法
@lk09364 就个人的项目而言,如果我爬虫爬到了http://a.com/a/b/c/1-10000 1w个链接,我希望只输出一个就好,因为他们后端调用的应该是一样的,不同的知识参数
2015-03-01 16:32:27 +08:00
回复了 chuhades 创建的主题 Python 关于 URL 去重的想法
@binux 如4L,url rewrite
2015-03-01 16:31:58 +08:00
回复了 chuhades 创建的主题 Python 关于 URL 去重的想法
@ruoyu0088 urlparse 不够强啊,http://a.com/1.php?a=1&b=2 http://a.com/1.php?b=2&a=1 这两个其实是一样的,或者http://a.com/a/b/c/1,http://a.com/a/b/c/2 这两个也是一样的。目标正式去重这些
2015-03-01 16:30:06 +08:00
回复了 chuhades 创建的主题 Python 关于 URL 去重的想法
@ruoyu0088 http://www.yigeshop.cn/index.php/home/shop_list/9 => GET|http|www.yigeshop.cn|index.php|4|||

http://www.yigeshop.cn/index.php/home/shop_details/24 => GET|http|www.yigeshop.cn|index.php|4|||

因为算法不够好,两者的特征是一样的。有什么建议么?
2015-02-26 00:02:09 +08:00
回复了 Dreista 创建的主题 天黑以后 20150226 午夜俱乐部
coding and coding...
2015-02-25 01:47:20 +08:00
回复了 msxcms 创建的主题 天黑以后 20150225 午夜俱乐部
找到了解决问题的办法,虽然不是很优雅。。。
2015-02-22 23:55:04 +08:00
回复了 msxcms 创建的主题 天黑以后 20150223 午夜俱乐部
两天没写代码了。。玩了两天 lol。。。
2015-02-20 00:24:46 +08:00
回复了 ricorico 创建的主题 天黑以后 20150220 午夜俱乐部
写了一天代码
2015-02-19 23:10:12 +08:00
回复了 snnn 创建的主题 MacBook Pro 在 mbp 2013 上安装 Linux 的经验分享
本来一直纠结装回 debian,看了下,放弃了。。
2015-02-18 23:07:20 +08:00
回复了 ak47t 创建的主题 硬件 打算换笔记本了。用了快 6 年了,是该换了。 于是来求推荐了
@MeirLin 栋栋同學;)
2015-02-18 21:49:46 +08:00
回复了 ak47t 创建的主题 硬件 打算换笔记本了。用了快 6 年了,是该换了。 于是来求推荐了
mac or thinkpad
2015-02-18 12:15:34 +08:00
回复了 phoenixlzx 创建的主题 硬件 炒鸡想买 2015 版 X1C 啊...
同想弄个,现在 mac air,怀念 tp 的手感。。有些情况下,os x 真的和 linux 没法比,特别是有些工具 linux only。
2015-02-15 20:37:47 +08:00
回复了 hardware 创建的主题 Apple 有人把虚拟机镜像放在移动硬盘上使用的吗?
之前工作的时候都是放在虚拟机里,3.0还好。
2015-01-25 20:36:01 +08:00
回复了 chuhades 创建的主题 Python mac 安装 scapy 报错
自己来结个贴,仔细看报错,是说dnet module没有intf 方法,发现自己的机子上装了两个dnet,一个是pip装的,还有一个dnet.so,删除了pip安装的那个就可以了。
2014-11-19 13:23:15 +08:00
回复了 razrlele 创建的主题 分享发现 看得见的音乐,很有点 diao。。。
看着很赞
1  2  3  4  5  6  7  8  9  10 ... 13  
关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   我们的愿景   ·   实用小工具   ·   5327 人在线   最高记录 6543   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 31ms · UTC 05:53 · PVG 13:53 · LAX 22:53 · JFK 01:53
Developed with CodeLauncher
♥ Do have faith in what you're doing.