http://anynb.com 是开源 ourjs 的一个 DEMO 网站,原来只爬了一些知名的博客,后来发现还是有些人访问的。
现在加入了三大门的网站股票频道新闻,为了避免法律风险只爬了标题和链接,内容指向原文
最新开源代码在 0.1.1 的分支 https://github.com/newghost/ourjs/tree/0.1.1 可能不稳定
稳定简单版的代码可查看默认分支 https://github.com/newghost/ourjs/tree/0.1.x
1
yh7gdiaYW 2016-01-18 14:47:08 +08:00
时间字体太难看了啊
|
3
figofuture 2016-01-18 15:06:40 +08:00
只是爬爬新闻还好,先马克下。
|
4
GhostEX 2016-01-18 15:06:54 +08:00
有意思啊,整站花了多久做出来的?
|
5
master13 2016-01-18 15:56:41 +08:00
所以,你认为只要把内容指向原文就能“避免法律风险”吗?
|
8
fising 2016-01-18 15:58:38 +08:00
有什么意义吗。
|
10
Andy00 2016-01-18 16:41:18 +08:00
想求教一下题主是如何保证抓取每个页面都能拿到标题?是统一用 h1 标签抓取的吗?
|
11
newghost OP |
13
Andy00 2016-01-18 17:06:18 +08:00
还是不太懂,求教题主细说一下
我之前的做法都是把整个页面拿下来然后用用正则表达式提取,所以需要去找每个网站的页面 html 代码然后写对应的正则,感觉这种做法效率太低了,求教更高效的做法 |
14
onion83 2016-01-18 17:21:12 +08:00
那个进度条对于视频网站才有意义,一般的文字网站我觉得太晃眼了。
|
15
newghost OP @Andy00
anynb 全部使用 JavaScript(DOM),用 JavaScript 操作DOM再简单不过了。你可以参考以下技术 https://github.com/atom/electron https://github.com/nwjs/nw.js http://phantomjs.org/ 有空我会整理一篇文章出来…… |
17
Andy00 2016-01-18 17:25:42 +08:00
学习了学习了!
我之前都是用 java 写,感觉入了个坑。。。决定转投 js 了 |
18
magicdawn 2016-01-18 18:01:34 +08:00
可以直接从 chrome devtools 复制出 selector, 放到 cheerio 的 selector 里...完美
其他语言, BeautifulSoup / CsQuery / goquery 应该也可以, 估计要改改... 这个 node 的 cheerio 真是无敌了 |
20
cheneydog 2016-01-18 20:16:19 +08:00
下一步添加市场情绪分析吧。
|
21
magicdawn 2016-01-19 11:02:52 +08:00
@newghost 那这个 DOM 动态渲染你是咋做的~
我觉得 DOM 动态渲染分两种, 一种是 ajax 接口然后去渲染, 一种是淘宝那样, 内嵌 js 数据, 去渲染 前面一种直接用它接口就好, 后面估计要去找 js |
24
magicdawn 2016-01-19 13:31:10 +08:00
|
28
kelaodo 2016-01-20 18:27:58 +08:00
赞一个
|