感觉目前很多人提到爬虫首先想到 Python 应该是一种刻板印象吧。其实 PHP 也可以写出很好用的爬虫。而且如果你是以在有限的时间内开发出更好用的爬虫为目的的话,使用自己擅长的语言是再好不过的(以学习为目的的话就另当别论了)。
于是就有了 XCrawler 这个项目。
跟其他已有的 PHP 爬虫框架相比,XCrawler 的一个主要区别是,在核心组件上基于已有的成熟组件: Guzzle 和 Symfony 的 DomCrawler。并尽可能在满足常用爬虫功能(多线程 /失败重试 /进度日志 /Dom 解析等..)的前提下保持简单。
0.1 版本(首个版本)发布的时候,当时是基于一个框架做的。所以使用的时候只能单独作为一个项目去写。使用起来不是很方便。
这次的主要改进是封装成了一个 composer 包。 所以你可以把 xcrawler 在任何自己喜欢的框架或已有的项目中使用。
GitHub 地址: https://github.com/yan68/xcrawler