首页   注册   登录
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
推荐学习书目
Learn Python the Hard Way
Python 学习手册
Python Cookbook
Python 基础教程
Python Sites
PyPI - Python Package Index
http://www.simple-is-better.com/
http://diveintopython.org/toc/index.html
Pocoo
值得关注的项目
PyPy
Celery
Jinja2
Read the Docs
gevent
pyenv
virtualenv
Stackless Python
Beautiful Soup
结巴中文分词
Green Unicorn
Sentry
Shovel
Pyflakes
pytest
Python 编程
pep8 Checker
Styles
PEP 8
Google Python Style Guide
Code Style from The Hitchhiker's Guide
V2EX  ›  Python

萌新求教-爬取马蜂窝数据

  •  
  •   nicking · 32 天前 · 1826 次点击
    这是一个创建于 32 天前的主题,其中的信息可能已经有所发展或是发生改变。
    想要爬去马蜂窝的游记,现有如下需求:爬取别人写的游记中的每一天的最后一个地方,这个需求该怎么实现呢,毫无思路诶,例如有的人游记中这样写的:
    第一天:天安门-鸟巢-颐和园
    第二天:美术馆-博物馆-动物园
    然后需要爬取出 第一天:颐和园,第二天:动物园,第三天:........这样子的,大佬们给点思路呢
    17 回复  |  直到 2019-03-25 10:00:00 +08:00
        1
    delectate   32 天前
    这可就很魔性了,马蜂窝是爬取别人的,你再爬马蜂窝的……

    简单的方法就是爬第一天的内容,然后分词,看第二天可能去什么地方,再去爬对应的内容;或者先看行程单,根据行程单去爬。
        2
    lhx2008   32 天前 via Android
    这种不是爬虫的问题,是 NLP 的问题,最常见的方法就是写几个正则,当然楼主这种好像很难了
        3
    Northxw   32 天前
    这可就很魔性了,马蜂窝是爬取别人的,你再爬马蜂窝的……

    首先,获取天数所在的相同标签元素(得到所有天数的集合);然后,循环遍历对每一条做 split()或者正则(也可以列表表达式),然后? 就完了趴......
        4
    nicking   32 天前
    @delectate 难怪它没做反扒的拦截,自己都是爬的别人的
        5
    nicking   32 天前
    @lhx2008 我的想法就是先获取到当前游记的文本内容,然后用正则 第\S 天\s*|\S*\n 这样子好像可以,我这会儿才在试着爬取网页上的文本内容
        6
    nicking   32 天前
    @Northxw 它的天数没啥特别的就是一个 p 标签,里面有很多的 p 标签,这个获取起来有点难度吧
        7
    WildCat   32 天前 via iPhone
    Named Entity Recognition
        8
    Northxw   32 天前
    @nicking 你这也不贴个链接或者代码什么的,想看都不知道在哪。。。
        9
    keith1126   32 天前
    @Northxw 请善用搜索引擎,都已经给出具体的关键词了
        10
    qiayue   32 天前   ♥ 1
    @keith1126 你回复错人了,#8 不是楼主,他是说楼主怎么不把蚂蜂窝的链接发出来
        12
    nicking   32 天前
    @qiayue 哈哈,贴出来了
        13
    keith1126   32 天前
    @qiayue 尴尬了,哈哈哈
        14
    huruwo   32 天前
    这可就很魔性了,马蜂窝是爬取别人的,你再爬马蜂窝的……
        15
    bingfan   32 天前
    第一步,找出所以 第 x 天,直到遇到<br />,第二步,遍历第一步,找出 link _j_keyword_mdd 最后一个地名
    仅适合你发的那个链接而已,游记如果是不规律的,很难
        16
    blodside   32 天前
    7 楼说的是正确思路,用命名实体识别是合理的思考方向
    关于   ·   FAQ   ·   API   ·   我们的愿景   ·   广告投放   ·   感谢   ·   实用小工具   ·   834 人在线   最高记录 5043   ·  
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.3 · 17ms · UTC 21:01 · PVG 05:01 · LAX 14:01 · JFK 17:01
    ♥ Do have faith in what you're doing.
    沪ICP备16043287号-1