现在多是通过"审查元素"获取网页的代码结构,然后正则获取想要的内容.然后再代码编写
那请问过去的爬虫是通过什么方法获取网页和想要的内容?毕竟没有 HTML 提供
1
imn1 2015-12-25 17:18:16 +08:00
?
啥意思 没有 HTML 何来网页?没有 HTML 的时代也没有爬虫一说 那时候都是 tele bbs+邮件列表 |
2
qw7692336 2015-12-25 17:28:54 +08:00
不是更容易吗
|
3
ck65 2015-12-25 17:37:22 +08:00 via iPhone
隐约觉得楼主暴露年龄段了。
|
4
lx19930805 OP |
5
lx19930805 OP @ck65 我觉得这没什么必要隐藏(93).该说的应该是觉得我是个新手,我才刚接触
|
6
lx19930805 OP @qw7692336 具体呢?
|
7
Zzzzzzzzz 2015-12-25 18:05:47 +08:00
view-source, 审核元素其实不准的, 因为浏览器会补全一些元素
早些时候也不流行 xpath, 都是直接用正则直接处理 raw html 的. |
8
abelyao 2015-12-25 18:06:26 +08:00
@lx19930805 你是指在没有「审查元素」之前怎么怎么从一大堆 HTML 中找出想要的信息的位置吧?那当然是人工查找啦, HTML 那么简单…
|
9
lx19930805 OP @abelyao 啊?那获取源代码,然后复制粘贴到想要的地方显示出来呢.不是也要通过爬虫吗?
抱歉,我是新人,看了一下 python 的爬某个网站,发现都是先审查,然后根据相应 div 内容等来改的 |
10
imn1 2015-12-25 18:15:44 +08:00
@lx19930805
你是说 DOM 吧? DOM 其实很早就有了, 9x 年代,大概 ie3~4 期间出现 再早些时候 js 都没有, html 页面很简单,直接文本查找就可以了,正则 那个是贺氏时代,网速慢得要死,没什么人弄爬虫 但那时有一种另类爬虫,就是离线浏览器,基本上就是抓<a href=> |
11
loading 2015-12-25 18:16:35 +08:00 via Android
居然要审查元素…楼主,你水平暴露了。
我们以前都是用 windows 记事本来审查元素的,不需要 chrome 或者 firefox |
12
qqmishi 2015-12-25 18:22:59 +08:00
右键查看网页源代码,人肉去查,,,
|
13
xcodebuild 2015-12-25 18:26:57 +08:00
楼主的描述方式有点白啊,,,以及正则不适合处理 html ,用 xpath
|
14
lx19930805 OP @loading @qqmishi @codefalling 很抱歉我语文表达不好,而且也是刚接触这方面,各种专业词语都不懂,无法表达.
在没有"审查元素"之类的东西(不知道'查看网页源代码'过去有没有,请尽量当它没有吧)出来前,是如何爬的. |
15
Kokororin 2015-12-25 18:33:16 +08:00
就算过去没有查看源代码,记事本总有吧。直接打开里面输入 url 地址就是源代码
|
16
lxy 2015-12-25 18:36:43 +08:00
在“审查元素”这个功能没有之前,可以右键查看源码吧?即使没有,也可以直接 Ctrl+S 保存网页文档,然后查看源码。不知那个时候有没有抓包工具,反正我小学的时候就会用 IE6 保存网页了。
|
17
xidianpanpei 2015-12-25 19:47:26 +08:00
估计楼主是想知道在浏览器没有查看网页源码功能的时候,大家是怎么解析网页做爬虫的。这个其实不复杂,因为无论 python 中 request 还是 linux 的 curl 都是先获取到网页源码后,接着再做解析处理的。不信可以在终端中执行'curl www.baidu.com'这个命令,就可以直接获取百度首页的源码。
|
18
binux 2015-12-25 19:55:17 +08:00
审查元素只是帮你建树并定位节点,但是 HTML 源代码本事就存在的,即使没有审查元素,也可以脑内建树嘛。
而且早期的页面,没有那么多复杂的元素<h1>就是<h1>,<li>就是<li>,结构清晰得多。 |
19
crab 2015-12-25 20:21:59 +08:00
winnet winhttp .....等等等
|
20
xcodebuild 2015-12-25 20:55:46 +08:00
@lx19930805 我还真不知道早期浏览器有没有这个功能,但是 curl 一下也就出来了-。-
|
21
loading 2015-12-25 21:32:46 +08:00 via Android
楼主去看看 织梦 cms 的采集功能。
|
22
loading 2015-12-25 21:34:40 +08:00 via Android
|