求助：爬取学术数据库中论文的 abstract 做研究

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

• 请不要在回答技术问题时复制粘贴 AI 生成的内容

这是一个创建于 3501 天前的主题，其中的信息可能已经有所发展或是发生改变。

最近在做分析一些医学研究论文的abstract的project。
一直在用PubMed这个数据库，因为能把搜索结果下载为包含很多信息的txt文档（其中就包含了abstract），直接处理这个文档就能得出很多有用的信息。
然而，这个数据库毕竟偏向医学研究一些，如果我们想查阅一些关于传感器或者什么运动数据测量的时候，这个数据库能查到的信息偏少。
该数据库地址： http://www.ncbi.nlm.nih.gov/pubmed
我写的一个分析abstract的小工具地址： https://github.com/lushl9301/PubMed-Text-Mining-Tool (写的渣渣，就是拿来用用。。。）

于是我和导师考虑，说不定爬取Google scholar的会不会好一点？

发现Google scholar仅仅提供了一些论文的作者信息，被多少次引用等等，对于文章内容只有一些简单摘要。这些摘要是跟据搜索关键词给出的一些片段，远不如abstract。

其他什么ACM，IEEE都没有提供合适的获取abstract方式。

考虑使用爬虫直接爬取的话，会被ban什么的。Google也会给你robot test。

所以在这里想请教小伙伴，能否提一些建议呢？帮忙支支招 ^_^

abstract

数据库

Scholar

6 条回复 • 2016-05-24 16:38:03 +08:00