slideshare和百度文库都做得不错,office系列格式怎么解析?有现成文档或者开源组件没?
1
txx Aug 22, 2012
我知道现在的docx pptx 重命名zip后能解压出来一坨xml。。。。
开源组建应该有吧 至少有 openoffice。。。。 |
2
muxi OP @txx 感谢回复 http://poi.apache.org/ apache poi项目已经做了这样的工作 不知道百度文库之类的实现是不是用了这个项目
|
3
doskoi Aug 23, 2012
微软的很多格式实际就是一个文件系统
|
4
xell Aug 23, 2012
请参考 MSDN : http://msdn.microsoft.com/en-us/library/cc313118.aspx
实际上这种问题自己搜索一下就好了,例如 microsoft office format specification 之类的关键字就能带你找到相关技术文档。 |
5
BB9z Aug 23, 2012
不一定非要自己解析吧。比如可以 => PDF => HTML 。
|
6
sectic Aug 23, 2012
ruby有个库,可以解析doc,上次有人在邮件列表里问过,doc格式不适合解析,joel 以前谈过这个问题,首要是要保证计算机的读写,一开始也没有跨平台的需要
|
7
hyq Aug 23, 2012
我先在項目中用的是openoffice轉成pdf,再用swftools轉成swf,最後在flash中閱讀
|
8
muxi OP slideshare 被墙了,百度文库因为版权问题要先审后发,挺麻烦的,如果有成熟的方案,不如自己折腾一个,方便小范围的使用,这个貌似技术门槛挺高的,百度文库做的挺好的,感觉上比slideshare要好
|
9
neildd Aug 23, 2012
openoffice有各个格式的详细解析文档
|
11
chenlong828 Oct 6, 2012
百度文库等这种系统里面都是先在后台把文档转换成JPG,PDF等显示的,这方面的工具比较多,用不着去个人解析office文档的格式。
|
12
xuzhe Oct 6, 2012
WPS 兼容微软很多都是照着 Open Office 来的。
|