V2EX › menc 的所有回复 › 第 33 页 / 共 47 页

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

1 ... 29 30 31 32 33 34 35 36 37 38 ... 47

❮

❯

2016-06-08 11:49:00 +08:00

回复了 cchange 创建的主题 › 生活 › 信息大爆炸，该何去何从 ref:2016 全国高考浙江省作文命题：该接受还是拒绝 VR

这个题目仍然不好啊。。
高屋建瓴。
农村的孩子的想象可能还局限在带一个眼镜，墙上自动出现显示屏什么的。
可是城里孩子就很清楚这东西已经实现，可以想想更多。
城里孩子明确的知道现在的虚拟世界能干什么，将来能干什么。
农村孩子不知道，他们靠想象力想象出来的，甚至可能和我们的现实世界有重叠，你换成阅卷老师，你会不会觉得这样的作文就很没新意了？

2016-06-08 11:45:21 +08:00

回复了 fever105 创建的主题 › 职场话题 › 下午面试出来，有种生无可恋的感觉

抱歉，用人单位只是希望在项目稍微涉及一点算法的时候，你能胜任，别以为没有，这样的 case 多了去了。
看到吐槽算法的都是学了算法之后没用上的，觉得没用。
你是没学过算法，就觉得没用，这个逻辑真的奇怪。

学过算法的，忘记了，很简单，搜索个算法名，就想起来了。
没学过算法的，连搜什么都不知道。

最简单给你一个问题，每个 APP 几乎都有的 instant search 功能。
搜索 beijing ， bejing, bjing, bj, bejng, bjng
在下面的搜索提示中，都能匹配出 beijing
你知道要怎么做到么？

这个最平凡的功能都无法实现，还要想着去 github 上找代码的话，叫人怎么相信你的能力呢？

2016-06-08 11:36:20 +08:00

回复了 NightVermouth 创建的主题 › 程序员 › 有关转专业的问题

不推荐， V2 的人素质都一般，乱出馊主意。
毕业的时候非计算机专业简历看都不看直接筛掉了你想过么。
V2 闹得这么欢怕是因为即使是计算机专业的，他们的简历也过不去。

2016-06-07 00:19:35 +08:00

回复了 hujianxin 创建的主题 › 程序员 › 非深度学习，有哪些特征提取方案呢？

我不懂你的问题是什么，但是举一个差不多的例子。

一个开在电影院旁边的奶茶店卖奶茶和果汁，让你预测明天的销量，应该怎么找特征呢？

第一步，用脑子想，有什么因素可能影响销量呢？恩，考虑饮品销量可能不会突变，会平滑变化，那么过去几天的销量可能和明天的销量相关；恩，夏天果汁和奶茶会卖的多一些；恩，旁边电影院放大片的时候顾客多，销量会多一些；恩星期六星期日销量会多一些；法定节假日人也会多，卖的也会多一些等等等等。。。
然后去搜集相关的数据。

那么已知：
今天的总销售量
昨天的总销售量
前天的总销售量
今天的奶茶销售量
今天的果汁销售量
今天的天气（阴晴雨雪雾霾冰雹大风）
今天是星期几
明天是星期几
今天是否是节假日
明天是否是节假日
今天电影院上映的电影过去七天的票房
....
林林总总的数据。

第二步，要把相关的特征去掉，取特征尽量取正交的特征，这样训练起来不会在 loss function 那里飘忽不定。也不会让特征有一个钦定的初始权重，假设你使用 LR 模型，选用了两个基本一样的特征，那么该特征的权重就天然是其他特征的二倍了。
比如饮品店里，有三个特征，今日销售额，今日奶茶销售额，今日其他饮品销售额，显然今日销售额是今日奶茶销售额和其他饮品销售额的现行叠加，第一个特征和第二，第三个特征成相关性，那么就应该将其舍弃，至于舍弃特征一还是舍弃特征二三，看你的取舍咯，或者各自做一下实验看看效果。

第三步，上一步经过选择后，得到一系列原始特征，下一步要做的是数值化。
数值化又分这几种：
第一种，离散的。比如预测奶茶销售额的 case ，明天是星期几可能非常影响销售量，星期六星期日最高，星期一星期五次之，星期二到星期四最低，那么可以采用 one hot representation 的方式，把 weekday 拆分成一个 7 维的向量，明天是星期几就在星期几置 1 ，比如明天是星期日，那么 weekday 特征就是[0,0,0,0,0,0,1]七维。
第二种， scale 非常大的数值特征，但又不能舍弃的。比如假设淡季每天只卖 1k 元，节假日每天能卖 20k 元，而一般的时候能卖 10k ，那么这个特征的范围就过大，在 normalization 中会大大影响特征的表示能力，会影响特征的权重。这时候应该做的是，将特征拆分开，即使特征是连续的。
那么销售额就拆分成一个 n 维的 01 特征： 0-4k,4-8k,8-12k,12-16k,16-20k;然后每一个销售额都是一个五维向量，当然你也可以分得更细，不要害怕， LR 模型里面几万维度都有可能。
比如一个 17k 的销售额，特征向量就是[0,0,0,0,1]五维。
第三种，很平凡的数值特征， scale 也不太大，比如门口过路的游客数量，如果固定在 10k-20k ，且分布均匀，就可直接当数值特征。

第四步，现在你拥有了一系列的数值特征，我们大可以抽象掉他们，叫特征 1 ，特征 2 ，特征 3 ， f4, f5...
f1:1800
f2:[0,0,0,0,0,0,1]
f3:[0,0,0,1,0]
f4:2k
...

下一步要做的是 normalization ，用脚趾想想值为 1800 的特征对结果的贡献是值为 1 的特征的一千八百倍，而 1800 在这个特征中可能表示一个非常弱的结果（比如游客数量，日均 5k ，今天只有 1k8 ），我们要尽量缩小这种特征表示上的差距，而让对结果的贡献显示在特征本身的含义和特征的权重上，而不让数值来影响，这个就叫做 normalization ，

对每个数值特征（就是还没被打散的特征），取所有数据中最大和最小的，然后映射到[0,1]区间内，[-1,1]也可以，[-0.5-0.5]也能接受，总之就是一个小区间内，让数值特征的数量级和其他数值特征大致等同。

那么现在，你可能得到了
f1:0.18
f2:[0,0,0,0,0,0,1]
f3:[0,0,0,1,0]
f4:0.66

第五步，拉伸成一个特征向量（ f1,f2,f3,f4,f5)
[0.18,0,0,0,0,0,0,1,0,0,0,1,0,0.66]

这个就是你的输入特征咯，特征工程到此结束，下一步训练模型。

不论是分类还是回归，都是这么个路数，分类和回归的区别就是放的模型不一样。
你要用 LR 或者 SVM ，就放到 LR 或者 SVM 中，要是 DART 就放到 DART 中，特征都是一样的。

2016-06-06 23:47:32 +08:00

回复了 yangyaofei 创建的主题 › 程序员 › 这个海明码的解释好奇怪，是错的吧……

哪里有问题？

2016-06-06 19:55:35 +08:00

回复了 lezhou 创建的主题 › Uber › 大家平时用滴滴的多还是优步的多

优步，我觉得用优步的平均素质比用滴滴的司机高

2016-06-06 11:45:32 +08:00

回复了 hard2reg 创建的主题 › Python › 发现 Python 的一个坑。。。

@justjavac 你的博客写得真麻烦，不如直接看 IEEE754

2016-06-05 10:57:07 +08:00

回复了 alexapollo 创建的主题 › Python › one-python：三千 Lib 库，每领域取 Top 1，属于 Python 的单库索引

讲道理，对不懂的领域至少问一问懂的人，没必要强行选 top1 出来。

Machine Learning （ CV ）
你给选了一个 Caffe 是什么意思？

Caffe 是一个通用的 Deep Learning 的库，并不是 CV 专用也并不是最好的 CV 库按照如今 DL 和 ML 越来越分离的趋势放到 ML 也有待商榷。
说到 CV 选了 Caffe ， OpenCV 像吃了屎一样
而且 Caffe 出了名的难写，我也不是谦虚，怎么就 top1 了？

2016-06-01 15:17:11 +08:00

回复了 appstore54321 创建的主题 › 程序员 › 国内外的大学里，教授们做研究用 Java 的多还是 C++的多啊，他们选择的原因是什么？

说语言不重要的都是扯他妈蛋。

cv 用 matlab
涉及到了 dl 和 ml 用 python
如果用分布式计算了，现在基本都是 spark + mllib ，用 scala ，一个脱胎于 java 的语言

CS 其他科研
nlp 用 python 多，人工智能相关的都是 python 多

国内外还有这样的，实验室实力很强，工程和研究能兼顾的，会考虑性能问题等等，如果对性能要求很高用 CPP ，典型的例子， tree embedding 模型的包 XGBoost ，来自华盛顿大学，中文自然语言处理最厉害的实验室之一，哈工大的 ir 实验室的中文自然语言处理套件 ltp ，用 CPP 写成。国内使用最广泛的中科院的分词程序， ictclas ， CPP 写成。

以上包皆有 python wrapper ，使用上都可以用 python 调用。

算法、安全、操作系统、分布式不了解，不做评论

2016-05-31 01:05:12 +08:00

回复了 yeelone 创建的主题 › Django › djangoUeditor 源码中这一句是什么意思？

@menc 不是 tuple ，是 dict 更正一下

2016-05-31 01:04:29 +08:00

回复了 yeelone 创建的主题 › Django › djangoUeditor 源码中这一句是什么意思？

这是 python 中最基本的 string format ，你真的是写 pythond 的么。。。
在 settings.py 中， defaultPathFormat 是这么定义得。
"defaultPathFormat":"%(basename)s_%(datetime)s_%(rnd)s.%(extname)s"

加上%，再加上你的 path_format_var 的 tuple 正好组成一个 formatted string

2016-05-31 00:23:02 +08:00

回复了 gkiwi 创建的主题 › 程序员 › 多语言多环境多库占满了磁盘。。重装电脑么？

这个时候 node 洗地党要怎么说话。
一个项目凭空搞的很复杂又占空间，简直不能更操蛋

2016-05-30 16:45:25 +08:00

回复了 airqj 创建的主题 › VPS › 准备买几台 VPS 来爬知乎数据,兄弟们有可以推荐的吗

果然还是看工作啊，在搜狗工作的时候，我们组就拥有脱了敏的知乎全部数据，包括问答，用户， tag 等等等等，可惜太坚守职业操守，我一点也没有 down 下来。

2016-05-30 13:10:15 +08:00

回复了 packenx 创建的主题 › Android › 以后 Android 都可以随便换硬件了吗

不管怎么说，终于能换电池了，好，威武，支持，有希望了！

2016-05-28 18:15:01 +08:00

回复了 cszchen 创建的主题 › 程序员 › 自己的两个库求 star，身份证验证和 haffman 压缩算法

haffman -> huffman