V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX  ›  prasanta  ›  全部回复第 1 页 / 共 24 页
回复总数  471
1  2  3  4  5  6  7  8  9  10 ... 24  
86 天前
回复了 prasanta 创建的主题 分享创造 RSS404 - 为任何网站生成 RSS 地址[Demo]
103 天前
回复了 prasanta 创建的主题 分享创造 RSS404 - 为任何网站生成 RSS 地址[Demo]
@snipersteve 刚好看到了。。。
103 天前
回复了 prasanta 创建的主题 分享创造 RSS404 - 为任何网站生成 RSS 地址[Demo]
@snipersteve 多谢反馈,已修复
105 天前
回复了 prasanta 创建的主题 分享创造 RSS404 - 为任何网站生成 RSS 地址[Demo]
哪位大哥在测试黄色网站?别啊
105 天前
回复了 prasanta 创建的主题 分享创造 RSS404 - 为任何网站生成 RSS 地址[Demo]
@tmkook 谢谢分享,刚刚简单浏览了一下源码,部分思路很像!
107 天前
回复了 prasanta 创建的主题 分享创造 RSS404 - 为任何网站生成 RSS 地址[Demo]
@Bravoios 谢谢!希望能收到大家的建议和意见
108 天前
回复了 prasanta 创建的主题 分享创造 RSS404 - 为任何网站生成 RSS 地址[Demo]
@saimax 修复了
108 天前
回复了 prasanta 创建的主题 分享创造 RSS404 - 为任何网站生成 RSS 地址[Demo]
@saimax 这个网站监测了 headless 浏览器导致的,这是可以解决的。

是有长期提供服务的打算,不过目前只在 V2EX 和 hackernews 发了两个帖子,想先看看反响。因为 rss 的用户群体还是太小。目前纯 demo 阶段会慢慢修复很多问题。

后面我会把格局改大一点,“自动转 rss” 改为 “自动抽取结构化数据”
109 天前
回复了 prasanta 创建的主题 分享创造 RSS404 - 为任何网站生成 RSS 地址[Demo]
@tfdetang

目前我这个算法最重要的东西是 getComputedStyle. 总的逻辑也是最后生成 xpath.
109 天前
回复了 prasanta 创建的主题 分享创造 RSS404 - 为任何网站生成 RSS 地址[Demo]
更新了主页和优化了对英文的兼容
110 天前
回复了 prasanta 创建的主题 分享创造 RSS404 - 为任何网站生成 RSS 地址[Demo]
@ClarkAbe 对这个东东有什么建议吗?
110 天前
回复了 prasanta 创建的主题 分享创造 RSS404 - 为任何网站生成 RSS 地址[Demo]
@abersheeran 这不是最后的效果,最后调用端的感知是<100ms 的,因为会直接取缓存
110 天前
回复了 prasanta 创建的主题 分享创造 RSS404 - 为任何网站生成 RSS 地址[Demo]
@hackpro Demo 确实比较慢,但是最后的逻辑不会是实时解析。最后的方案是,定时解析后写入缓存即可,调用 rss 链接直接从缓存中取数据。
110 天前
回复了 prasanta 创建的主题 分享创造 RSS404 - 为任何网站生成 RSS 地址[Demo]
@Sailwww 和 RSSHub 的区别就是不需要人维护了。
111 天前
回复了 prasanta 创建的主题 分享创造 RSS404 - 为任何网站生成 RSS 地址[Demo]
@Sailwww 文字区块的位置,字体大小粗细长短,作为特征 /etc ,普通分类即可。
111 天前
回复了 prasanta 创建的主题 分享创造 RSS404 - 为任何网站生成 RSS 地址[Demo]
@xiaozizayang 等我找你沟通一波
111 天前
回复了 prasanta 创建的主题 分享创造 RSS404 - 为任何网站生成 RSS 地址[Demo]
@tfdetang

我也发现了这个问题。
最后也是希望能够从网站和 App 中自动提取结构化信息。如果用传统的分析方法,需要写很多逻辑处理 html ,未来也难以操作 app/doc/pdf 等其他类型的输入

如果我能直接从截图中提取出结构化信息,那么我就不用关心输入是什么了,变成了和人眼一样的提取逻辑.

人眼也是,先分类,看到这个页面是列表 /详情 /评论 /etc ,然后对应不同的类型,去寻找结构化信息的特征,比如价格,那么就寻找字体大点的,红点的,位置靠近商品标题的数字信息(比如这里还直接消除了字体反爬虫的问题)。
111 天前
回复了 prasanta 创建的主题 分享创造 RSS404 - 为任何网站生成 RSS 地址[Demo]
@ptsa 再试试呢 现在用内网穿透做的 demo
@dantangfan 最近才结束的
@tialias

有的,第三个岗位就是
1  2  3  4  5  6  7  8  9  10 ... 24  
关于   ·   帮助文档   ·   API   ·   FAQ   ·   我们的愿景   ·   广告投放   ·   感谢   ·   实用小工具   ·   1214 人在线   最高记录 5497   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 22ms · UTC 23:29 · PVG 07:29 · LAX 16:29 · JFK 19:29
Developed with CodeLauncher
♥ Do have faith in what you're doing.