V2EX › azuginnen 的所有回复 › 第 12 页 / 共 13 页

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

1 ... 4 5 6 7 8 9 10 11 12 13

❮

❯

2014-08-28 12:15:01 +08:00

回复了 kepbod 创建的主题 › 程序员 › 推荐一个不错的 vim 配置

比如放一个例子

http://ww3.sinaimg.cn/large/d3401235jw1ejs87de02lg20h10aqmy4.gif

2014-08-28 11:54:14 +08:00

回复了 kepbod 创建的主题 › 程序员 › 推荐一个不错的 vim 配置

送你两条 key map

"====[ I'm sick of typing :%s/.../.../g ]=======
nmap S :%s///g<LEFT><LEFT><LEFT>
vmap <leader>s : s///g<LEFT><LEFT><LEFT>

" Complete whole filenames/lines with a quicker shortcut key in insert mode
inoremap <C-f> <C-x><C-f>
inoremap <C-l> <C-x><C-l>

vim关键有一些“普世价值"没有推广开来，所以tim pope大神开发一个插件，就是大多数人都认可的vimrc defult配置。

但是你说你吧 leader 配成，键，也有人不那么做呀。。。

2014-08-27 22:55:58 +08:00

回复了 aheadlead 创建的主题 › Smartisan OS › 罗永浩和王自如对峙语音转文本听录组队

http://zh.wikipedia.org/zh/%E4%B8%8D%E7%9B%B8%E5%B9%B2%E7%9A%84%E8%AC%AC%E8%AA%A4

2014-08-27 22:55:03 +08:00

回复了 aheadlead 创建的主题 › Smartisan OS › 罗永浩和王自如对峙语音转文本听录组队

找到了，大的列表在这里

http://zh.wikipedia.org/wiki/Category:%E4%B8%8D%E7%9B%B8%E5%B9%B2%E7%9A%84%E8%AC%AC%E8%AA%A4

不相干攻击谬误种类

2014-08-27 22:09:48 +08:00

回复了 aheadlead 创建的主题 › Smartisan OS › 罗永浩和王自如对峙语音转文本听录组队

对啊，最好有人来点评哪里用了偷换概念，什么预设立场，鲶鱼攻击。。。

2014-08-25 17:30:36 +08:00

回复了 azuginnen 创建的主题 › 程序员 › 我大鹅厂好不容易开发了一个安卓 tv 可用的版本，又尼玛要关闭了，这是几个意思？

你们看乐视因为这件事股票跌这么多

中国创业受政策影响太多了

http://ww4.sinaimg.cn/large/dce4a41ejw1ejp0ftyadzj20kh0cgq4d.jpg

2014-08-25 15:23:59 +08:00

回复了 azuginnen 创建的主题 › 程序员 › 我大鹅厂好不容易开发了一个安卓 tv 可用的版本，又尼玛要关闭了，这是几个意思？

懂了
http://www.techweb.com.cn/internet/2014-08-25/2068284.shtml

2014-08-25 15:09:11 +08:00

回复了 azuginnen 创建的主题 › 问与答 › 微博有没有把所有关注我的人拉黑的工具

我想了个主意，批量转发代购信息，然后去和粉丝一一打个招呼；)

2014-08-23 19:53:23 +08:00

回复了 yakczh 创建的主题 › 程序员 › 如果网站只是登录用了 https 但是其他功能还是 http 这样有没有安全问题？

那你改密码改邮箱的操作可以再验证一遍密码呀

2014-08-10 09:48:06 +08:00

回复了 azuginnen 创建的主题 › 奇思妙想 › 嘿，偶发现智能电视上装优酷，爱奇艺的 app，都没广告呀！

@zhangsimon app都好卡呀

2014-08-09 11:01:43 +08:00

回复了 yanng 创建的主题 › 奇思妙想 › farbrush——为 farbox 加点色

farbox的托管端dropbox被墙太坑爹了啊，相当于使用门槛就是科学上网技能，这注定推广不开啊。

即使如v2ex这样极客向社区，上面那个搜索栏也多次有人提议换为bing等其他搜索引擎，说明大部分人还是不爱折腾的。

2014-08-04 16:33:59 +08:00

回复了 wwttc 创建的主题 › 问与答 › Python 处理文件的性能优化

这个问题我在曹政博客上看到过相似的，后来一搜，知乎上貌似有人给过一些思路。

==============================
曹政@caoz 的开发工程师招聘问题三：如何实现一个快速有效的，基于自定义词典精确匹配的分词系统？修改

一个典型问题，目前政府有屏蔽词表，每个网站都要遵守，发帖的时候会自动替换屏蔽词；另一个场景是诸如新浪新闻等媒体往往有商业词表，发新闻的时候会自动建立关键词铆接。这个相当于一个简单的基于词典的分词系统，下面的问题就是，如何实现一个快速有效的，基于自定义词典精确匹配的分词系统，一是要满足每天几万篇，几十万篇文章发布的要求；另一个必须的要求是，当词库倍增扩展时（比如10万词），效率的影响不允许是线性降低的。

answer1
==============================
这个有很多办法，其实跟分词不一样，就是一个字符串匹配问题。
方法1，双哈希：
有2个哈希表，第一个是缩小范围的判定哈希，第二个是不同字数屏蔽词的哈希表。
每当我们读到一个字，就到第一个表里取一下，可以得到以这个字开头的屏蔽词的长度分别有哪些，比如(2，3，5)。然后分别从这个字开始，分2，3，5个字的词，去查第二个哈希表，查到了则返回危险，否则继续判定下一个字。
复杂度：O(L*n)，L为以每个字开头的词长度的平均个数，n为输入流长度。（真绕）

方法2，有限自动机：
有限自动机说白了就是手工展开的正则表达式，把词表综合成一个巨大的有限自动机，每输入一个字就到自动机里查表，跳转状态，到匹配状态则为危险句子，到结束符则不危险。
时间复杂度：O(n)
空间复杂度：不可估计，可能会很大
方法3，一些其它字符串匹配算法的变形：
具体没细想，类似kmp，rk，bm的变形或许也能解决这个问题。

总之，最笨的方法是前向最大匹配，复杂度O(m*max(L))，其中max(L)为最长屏蔽词的长度。
一个好的匹配算法可以减少L的长度，检测并跳过没必要的计算。

answer2
==============================

由于敏感词范围有限，可以按字节将所有词分成N段。每字节共256种可能，维护一棵trie树，节点为256个指针。每个指针标识一字节，（比如第3个指针表示0x03这个字符）。所以一个M个字节的词被切成M份，为trie树中从根节点到第M层的一条链路。将所有待过滤词全部输入后，就能形成一棵查询trie树。其中敏感词对应的路径为通的，并且最后一个是页节点（比如abcde是敏感词，那么第5层的e对应的指针就是空的）。如果非敏感词，则无此通路或者有此通路但还有后续节点。

比如abcde是敏感词，abcdf不是
abcdf***是一个待过滤的字符串，在前四个字节匹配后，在第四层的f对应那个指针就为空。匹配失败
abc对应的c节点还有后续节点，那么abc也就不在敏感词中

在查询时，通过将文章按字节在trie树中进行查找，如果能一直有路径到叶节点，那么目前这条从根节点到叶节点的路径就是第三词。

如果不是，很明显我们需要将文章向后移一位再做对比。这样其实复杂度非常高。

解决这个问题可以引入KMP算法并将其扩展，将每个节点在匹配失败后，文章的下一字节应该到哪个节点重新开始匹配计算出来，将文章下一字节直接与这个节点进行匹配，这样每次文章只需要遍历一次。复杂度为O(n)，n为文章长度。

至于空间复杂度，最坏的情况下，当所有敏感词链路没有交集时，由于使用trie树结构，整个数据会膨胀(256+256)＊4 = 2048 倍，两个256分别表示一个节点中的两套指针（子节点指针与KMP需要的指针），4表示一个字节变成了4个字节（如果是32位机器的话）。当然，如果将所有节点在一个数组下分配的话，就不需要存指针了，存数组位置即可。数据小数组可以2^16长，这时就变成2字节了，数据大2^32个节点差不多也够了吧。而且在64位机下也一样。

所以10w级别的词，按每个词平均10字节算，一共1M，最坏情况下需要2G内存实现。

http://www.zhihu.com/question/19918081

2014-07-25 12:29:58 +08:00

回复了 azuginnen 创建的主题 › 程序员 › 这种纯 ascii 排版艺术在 vim 插件里面到达巅峰了啊

不过这样做很容易造成某一特性的滥用，我这里有一个csv转换成asciitable的插件，的确很方便，在vim里面写csv注释格式，一个快捷键就出来table了，但是他把注释全写成这样，后面要是有人维护肯定吐血了。

http://ww4.sinaimg.cn/large/490850e0jw1eioxgzvt0fj20ow0bw413.jpg

http://ww4.sinaimg.cn/large/490850e0jw1eioxhieqx8j20mq044jry.jpg

http://ww3.sinaimg.cn/large/490850e0jw1eioxiaimg6j20ng0d70uz.jpg

2014-07-23 20:43:38 +08:00

回复了 pc10201 创建的主题 › Python › 解析网页到底用不用正则解析？

@binux 对啊，我感觉这说的挺有道理，爬虫快了网站还要封你呢

2014-07-20 21:41:59 +08:00

回复了 vellow 创建的主题 › 分享创造 › [网易云音乐命令行 Python 版删除通知]

@farseer2014 不一定哦，之前我看人一个博客讲到破解虾米的算法，就是排成一个矩阵在转置一下输出一堆乱码，但被眼尖的人找到规律，每次都有m p 3这几个字符串。

博主最后一句话我印象很深刻，“我要去舔一根冰棍奖励一下自己啦”。。。。。

2014-07-20 21:38:37 +08:00

回复了 Livid 创建的主题 › Podcast › Podcast 这件事情现在有什么比较好的商业化的例子么？

个人运营的podcast，一般是开淘宝店，买体恤衫，咖啡挂耳包（钢镚儿），卖优盘、科学上网软件（新闻酸菜馆）。

开淘宝的思路和做dota视频的那一帮人的思路一样。

新闻酸菜馆还模仿逻辑思维的做法，做类似超级粉丝vip听众之类的，再每个月出两期私有podcast。年费是200一年，第一批500个售罄，第二批已经开始了。

it公论这个节目，有几期是由一个一站式服务域名？解决商赞助的，貌似和ATP 这个podcast是同一个赞助商，不过我每次都快进掉，从来都没记住过。

teahour这个博客请到不少业界达人，我个人觉得对其自身的发展有帮助，那个团队合作工具，以及ruby社区。这是它满满的价值。

2014-07-19 12:11:05 +08:00

回复了 vellow 创建的主题 › 分享创造 › [网易云音乐命令行 Python 版删除通知]

'3go8&$8*3*3h0k(2)2' 这一串奇异数是怎么出来的。。。

2014-07-19 11:42:14 +08:00

回复了 Axurez 创建的主题 › 问与答 › 怎么用爬虫爬动态需要手动加载部分内容的网页？

糙快猛selenium ide

2014-06-30 20:34:21 +08:00

回复了 azuginnen 创建的主题 › 程序员 › 最好的时代

好歹也是睡过一个木耳的，也算是缘分~~~~

今日最佳！！！！

1 ... 4 5 6 7 8 9 10 11 12 13

❮

❯