我们是马不停蹄不停迭代产品的小团队! 感谢大家的各种意见。 这个帖子里,我想跟大家认真讨论一下,大家平时写爬虫会是想采集什么数据,对一个通用爬虫,或者如果你们想定制爬虫,又会有什么要求。
另外,欢迎来看我们的新 ui :全新 ui 的造数页面在这里
论坛已经搭建好了,正在构思放什么资源上来方便大家,也欢迎意见。
1
Powered 2017-01-10 12:18:41 +08:00 via iPhone 1
爬虫没太大技术含量
|
2
syk 2017-01-10 12:19:07 +08:00 1
在一家在线销售餐饮设备的公司干过,主要收集的最多就是淘宝同类商品价格,图片,商品链接。其次就是同类竞争商家网站销售的设备设备种类!
|
3
GrahamCloud OP @Powered 你这个没说错,技术含量 体现应该是通用性,优化存取和 针对策略上。
|
4
GrahamCloud OP @syk 求使用建议
|
5
xiamx 2017-01-10 13:31:18 +08:00 1
希望定价能显示在主页上
|
6
imn1 2017-01-10 13:49:42 +08:00 1
简单说,数据有效期达到按年为单位的,都是值得保留的
时效越短,其专用性质越强,就是使用人群越单一 |
7
GrahamCloud OP @imn1 这个点非常对。
|
8
GrahamCloud OP @xiamx 什么定价
|
9
langmoe 2017-01-10 14:07:54 +08:00 1
通用的。。比如这货?
http://www.shenjianshou.cn |
10
yuntong 2017-01-10 14:11:55 +08:00 1
不好用...
|
11
zhaixiaohu 2017-01-10 17:40:31 +08:00 1
怎么一直都是正在爬取,看不了结果
|
12
GrahamCloud OP @langmoe 方向不一样,我们想让用户完全不用写代码。
|
13
GrahamCloud OP |
14
txlty 2017-01-10 18:37:34 +08:00 2
站长圈子有个古老的产品,叫“火车头”。
|
15
langmoe 2017-01-10 18:39:40 +08:00 1
@GrahamCloud 是不用写,神箭手做的就是这一块市场。开发者负责提交不同网站的爬虫规则换取报酬,而真正需要爬虫的用户,只需要在商城查找并购买规则,就可以拿到源源不断的数据。
|
16
kindjeff 2017-01-10 19:29:59 +08:00 via iPhone 1
微博的数据啊,但是爬起来很困难。
分析微博粉丝结构,评论转发点赞的人的结构还有趋势。 |
17
frankzeng 2017-01-10 21:22:25 +08:00 1
要一个输入商品的 url 就能获取到他的价格,名称,分类,图片这些
|
18
yuntong 2017-01-11 08:54:40 +08:00 1
|
19
GrahamCloud OP @langmoe 这个模式有意思
|
20
GrahamCloud OP @frankzeng 这个是基本需求,目标网站一般是哪些
|
21
GrahamCloud OP @yuntong 只能尽量让你不用写然后省点力,然后再说靠谱的事,暗坑太多了现在。
|
22
GrahamCloud OP @txlty 火车头我晓得。
|
23
skywayman 2017-01-12 12:03:20 +08:00 1
|
24
GrahamCloud OP @skywayman 部分可以,很多反爬的还搞不定。
|
25
quericy 2017-01-12 13:01:24 +08:00 1
这么久了,上次那个遮罩的问题还是没搞定么...
|
26
GrahamCloud OP @quericy 遮罩意外的不好解决,我们会在年前再出一版再应对一下。
|
27
Powered 2017-01-13 11:56:49 +08:00 1
@skywayman 普通爬虫原理不简单?下载页面--->解析--->持久化
有很多反爬虫机制的网站为什么要去爬?显得你牛逼吗 |
28
skywayman 2017-01-13 12:13:49 +08:00
@Powered 说得不错,普通爬虫的确是这样,但也有很多爬虫不是这样的,却被你一句:爬虫没太大技术含量全盘推倒.
没含量你写个超过谷歌,百度的好了,瞎嚷嚷,还"为什么要去爬?显得你牛逼吗",你 CEO 还 CTO 啊?公司业务是你我一个码农说不爬就不爬的?不想干就滚蛋... |
29
Powered 2017-01-13 18:58:29 +08:00 via iPhone
@skywayman
最 low 的辩论者往往会举一些吓唬人的例子,你用你的脑袋去想一下人家为什么要反爬虫,为的是什么?我猜为的就是防范你这种恶意爬取,消耗带宽和吞吐量的人吧。公司的业务是这个,我也是醉了。。。靠爬一些很难爬到的数据活着的公司,我也只能想到黑产了。唉。 |
30
voidtools 2017-01-13 21:39:10 +08:00 via Android
小额的数据,纯个人需求,用自动翻页,正则就行了。 JS 动态搞不定。
|
31
skywayman 2017-01-13 21:50:44 +08:00 1
@Powered 你还在象牙塔吗? 法律规定不能杀人,还有人杀吧, 别人反爬就不能爬了? 智商捉急...
最近团队有个项目就是为 Party 做爬虫,就是爬你说的这种反爬虫的网站. 舆情听说过吧,算了,可开阔你眼界的.奈何你...! 朋友,凡是你浅尝辄止过都不要说简单, 做不到的不是别人 low,反而是你自己,开阔点眼界吧,对将来有好处! |
32
Powered 2017-01-14 09:07:49 +08:00 via iPhone
|
33
SlipStupig 2017-01-14 09:35:55 +08:00 3
穷码农创业三俗:爬虫、微信、直播间,作为一个其中一员给你一些建议(觉得不好当我胡说):
1.产品定位很重要别想解决所有的问题,码农创业很容易只想技术而忽略商业,我认为你这种东西方式上就不可能抓取特别复杂的页面,还是那个话,你这种东西只能给一些公司非技术人员用,爬虫在 ETL 这个环节内,解决的是 E 的问题,我朋友她们公司是做电商的有 10 多人的运营团队除了日常工作外额外就是每天人肉去网上找图找文章(老板觉得养个程序员没必要,反正找不到文章的开除),你这个很容易解决她们的难处 2.对用用户权限自由度的把握,你既然想着用户有足够的自由度,例如反抓取这些事情,你就不要管了,这些都是用户来决定,你提供解决方案的 API 就行,如果你不想用户去解决,那你就尽量不让用户插手,这个是一个侧重关系 3.盈利模式这块早期越单一越好,路想太多了,容易没路走 |
34
GrahamCloud OP @SlipStupig 求加微信, Zaoshuio
|
35
GrahamCloud OP @SlipStupig 说的确实好啊
|
36
copperusher 2017-01-16 13:49:00 +08:00 1
这个方向肯定没问题的,国外早就这样的网站了。关键是做得怎么样,以及如何找到用户。如果不能把这个工具嵌入用户现有的业务流程,那就很难把它发展起来。可以在网站首页给出你们设想的具体用户案例,那样更有说服力。
|
37
j4fun 2017-01-16 14:01:12 +08:00 1
使用感觉。。好像速度特别慢,点了个示例上的 github trending ,上了个厕所回来还没好,不知道是不是姿势不对。(是不是需要控制一下每次爬取的数量,或者时间这样的。不要一次爬到完。)
恩。其实我觉得, 2C 和 2B 要想好吧, 2B 就简单一点,但是竞争会多一些吧。 2C 的话技术含量会高一些,爬社交之类的有反爬系统的会比较多。(不过有被 LOW 的风险?不懂~) |
38
GrahamCloud OP @j4fun 现在是 to B 方向,目前通用遇到的暗坑很多。
|
39
GrahamCloud OP @j4fun GitHub 好像今天是有一些问题,其他的您这边反应如何?
|
40
j4fun 2017-01-16 16:51:51 +08:00 1
@GrahamCloud 下午又试了一次很快就出来了。。效果不错:)
|
41
skywayman 2017-01-16 19:13:13 +08:00 2
@Powered 鄙视技术没含量的是你,说别人 low 的也是你,指桑骂槐说别人是狗的还是你,说越多好像越来越暴露你的本性了,原来你是这样的人!一开始就把自己摆在所谓的道德制高点来俯视别人,你这种二逼+傻叉在我十多年上网史中见得多了,宠辱不惊!
|
42
GrahamCloud OP @j4fun 谢谢,有哪里不爽您马上告诉我。
|
43
GrahamCloud OP @skywayman 别在意这个,别在意。说爬虫技术含量低是说我们业务呢,您跟着不开心就不好了。
|
44
jiangzhuo 2017-01-17 12:13:07 +08:00 1
觉得用过功能最好的算是 diffbot , API 设计也最合理
|
45
GrahamCloud OP @jiangzhuo 努力的方向啊
|
46
renyiqiu 2017-01-17 13:01:17 +08:00 1
怎么收费
|
47
GrahamCloud OP @renyiqiu 数据方面有什么需求么?求加微信 Zaoshuio
|
48
GrahamCloud OP @Powered 求建议求意见求反馈。
|
49
siknet 2017-01-17 15:17:11 +08:00 1
我不是程序员。。。我觉得免费的火车头都比现在大部分 web 爬虫要好用多了,也易用多了, so ?
|
50
GrahamCloud OP @siknet 这个信心我们还是有,欢迎比对。
|
51
jiangzhuo 2017-01-18 12:05:46 +08:00 1
@GrahamCloud
@siknet 作为一个程序员,安装完火车头后搞了 5 分钟后还没有弄清楚怎么用就已经把这软件卸载了。 造数胜在操作简单,基本只有鼠标操作。 当然作为程序员来说最省事还是写个正则或者 chrome 里复制粘贴一个 selector |
53
GrahamCloud OP @jiangzhuo 我们现在也是这个初心,希望不会编程的能够迅速上手。
|
54
GrahamCloud OP @siknet 您这边一般采集什么数据,看看能不能帮上啥
|
55
siknet 2017-01-18 15:40:57 +08:00 1
@GrahamCloud 主要还是不规则页面,火车头琢磨下应该能搞定,只是最近在忙别的没空弄。
zaoshu 对不规则页面比较吃力吧?我用过一会,个人愚见,非找茬。 这两个页面应该算不规则页面,我拿火车头没搞定 http://cn163.net/archives/24280/ http://videos.yizhansou.com/4342 |
56
GrahamCloud OP @siknet 超欢迎意见,求加微信 Zaoshuio
|
57
sohoer 2017-01-19 13:11:53 +08:00 1
|
58
GrahamCloud OP @sohoer 求加微信求加微信! Zaoshuio
|
59
Limius 2017-01-19 17:04:26 +08:00 1
居然没有童鞋说到爬人行征信、各种电商网站里订单数据、送货地址(在已登录的前提下)这种数据,这很赚钱的啊。。。
P2P 金融互联网产品狗爬过。。。 |
60
GrahamCloud OP @Limius 这个很对啊
|
61
bzzhou 2017-01-20 13:42:41 +08:00 1
太慢了
基于渲染的方式来抓取,玩玩小规模数据还可以,大规模抓取要消耗的资源可不是一般人可以承受的(当然,这种情况一般都可以定制了)。 从目前了解,如果纯粹是为了降低抓取门槛,八爪、火车头等一堆方案;如果是满足大规模的采集需求,这种一般都是定制开发。 |
62
GrahamCloud OP @bzzhou 现在这版问题确实多,年后会进一步迭代。
|