• 请不要在回答技术问题时复制粘贴 AI 生成的内容
ququzone
V2EX  ›  程序员

开源一个正文抽取的微服务

  •  
  •   ququzone ·
    ququzone · Nov 9, 2015 · 2341 views
    This topic created in 3847 days ago, the information mentioned may be changed or developed.

    一个正文抽取的微服务,目前采用的算法是行块密度算法,大概测试了一下,可以抽取大部分的网页正文,但是效果还不是很理想,打算再用 Readability 再实现一遍。
    项目用到了下面一下技术,感兴趣可以一起改进一下

    1. Spring Boot
    2. Restful API
    3. React

    项目地址 https://github.com/ququzone/smart-extractor

    Supplement 1  ·  Nov 10, 2015
    README 中添加了 API 说明,这个项目主要是可以作为微服务集成到其它项目中,返回的数据是 json 格式, react 的界面仅仅是演示了一下接口的调用方式,由于后台请求采用的[fetch]( https://github.com/github/fetch),所以不支持 IE9 以下的浏览器。
    6 replies    2015-11-10 11:45:50 +08:00
    kikyous
        1
    kikyous  
       Nov 9, 2015
    微信的优化阅读不知道用什么做的,效果很棒
    domty
        2
    domty  
       Nov 9, 2015
    已 fork, 就当 spring-boot 学习教材了
    ququzone
        3
    ququzone  
    OP
       Nov 9, 2015
    @kikyous 微信的算法应该是参考了 Readability ,这个算法有 js 的实现,我打算转成 java 放到这个项目中
    zts1993
        4
    zts1993  
       Nov 9, 2015
    看上去可以啊,回头看看
    ququzone
        5
    ququzone  
    OP
       Nov 10, 2015
    @domty spring-boot 很简单的
    domty
        6
    domty  
       Nov 10, 2015
    @ququzone
    正在看文档,感觉还行,有个 demo 上手能快点
    About   ·   Help   ·   Advertise   ·   Blog   ·   API   ·   FAQ   ·   Solana   ·   3210 Online   Highest 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 60ms · UTC 03:16 · PVG 11:16 · LAX 20:16 · JFK 23:16
    ♥ Do have faith in what you're doing.