V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX  ›  menc  ›  全部回复第 33 页 / 共 47 页
回复总数  933
1 ... 29  30  31  32  33  34  35  36  37  38 ... 47  
这个题目仍然不好啊。。
高屋建瓴。
农村的孩子的想象可能还局限在带一个眼镜,墙上自动出现显示屏什么的。
可是城里孩子就很清楚这东西已经实现,可以想想更多。
城里孩子明确的知道现在的虚拟世界能干什么,将来能干什么。
农村孩子不知道,他们靠想象力想象出来的,甚至可能和我们的现实世界有重叠,你换成阅卷老师,你会不会觉得这样的作文就很没新意了?
2016-06-08 11:45:21 +08:00
回复了 fever105 创建的主题 职场话题 下午面试出来,有种生无可恋的感觉
抱歉,用人单位只是希望在项目稍微涉及一点算法的时候,你能胜任,别以为没有,这样的 case 多了去了。
看到吐槽算法的都是学了算法之后没用上的,觉得没用。
你是没学过算法,就觉得没用,这个逻辑真的奇怪。

学过算法的,忘记了,很简单,搜索个算法名,就想起来了。
没学过算法的,连搜什么都不知道。

最简单给你一个问题,每个 APP 几乎都有的 instant search 功能。
搜索 beijing , bejing, bjing, bj, bejng, bjng
在下面的搜索提示中,都能匹配出 beijing
你知道要怎么做到么?

这个最平凡的功能都无法实现,还要想着去 github 上找代码的话,叫人怎么相信你的能力呢?
2016-06-08 11:36:20 +08:00
回复了 NightVermouth 创建的主题 程序员 有关转专业的问题
不推荐, V2 的人素质都一般,乱出馊主意。
毕业的时候非计算机专业简历看都不看直接筛掉了你想过么。
V2 闹得这么欢怕是因为即使是计算机专业的,他们的简历也过不去。
2016-06-07 00:19:35 +08:00
回复了 hujianxin 创建的主题 程序员 非深度学习,有哪些特征提取方案呢?
我不懂你的问题是什么,但是举一个差不多的例子。

一个开在电影院旁边的奶茶店卖奶茶和果汁,让你预测明天的销量,应该怎么找特征呢?

第一步,用脑子想,有什么因素可能影响销量呢?恩,考虑饮品销量可能不会突变,会平滑变化,那么过去几天的销量可能和明天的销量相关;恩,夏天果汁和奶茶会卖的多一些;恩,旁边电影院放大片的时候顾客多,销量会多一些;恩星期六星期日销量会多一些;法定节假日人也会多,卖的也会多一些等等等等。。。
然后去搜集相关的数据。

那么已知:
今天的总销售量
昨天的总销售量
前天的总销售量
今天的奶茶销售量
今天的果汁销售量
今天的天气(阴晴雨雪雾霾冰雹大风)
今天是星期几
明天是星期几
今天是否是节假日
明天是否是节假日
今天电影院上映的电影过去七天的票房
....
林林总总的数据。


第二步,要把相关的特征去掉,取特征尽量取正交的特征,这样训练起来不会在 loss function 那里飘忽不定。也不会让特征有一个钦定的初始权重,假设你使用 LR 模型,选用了两个基本一样的特征,那么该特征的权重就天然是其他特征的二倍了。
比如饮品店里,有三个特征,今日销售额,今日奶茶销售额,今日其他饮品销售额,显然今日销售额是今日奶茶销售额和其他饮品销售额的现行叠加,第一个特征和第二,第三个特征成相关性,那么就应该将其舍弃,至于舍弃特征一还是舍弃特征二三,看你的取舍咯,或者各自做一下实验看看效果。

第三步,上一步经过选择后,得到一系列原始特征,下一步要做的是数值化。
数值化又分这几种:
第一种,离散的。 比如预测奶茶销售额的 case ,明天是星期几可能非常影响销售量,星期六星期日最高,星期一星期五次之,星期二到星期四最低,那么可以采用 one hot representation 的方式,把 weekday 拆分成一个 7 维的向量,明天是星期几就在星期几置 1 ,比如明天是星期日,那么 weekday 特征就是[0,0,0,0,0,0,1]七维。
第二种, scale 非常大的数值特征,但又不能舍弃的。比如假设淡季每天只卖 1k 元,节假日每天能卖 20k 元,而一般的时候能卖 10k ,那么这个特征的范围就过大,在 normalization 中会大大影响特征的表示能力,会影响特征的权重。这时候应该做的是,将特征拆分开,即使特征是连续的。
那么销售额就拆分成一个 n 维的 01 特征: 0-4k,4-8k,8-12k,12-16k,16-20k;然后每一个销售额都是一个五维向量,当然你也可以分得更细,不要害怕, LR 模型里面几万维度都有可能。
比如一个 17k 的销售额,特征向量就是[0,0,0,0,1]五维。
第三种,很平凡的数值特征, scale 也不太大,比如门口过路的游客数量,如果固定在 10k-20k ,且分布均匀,就可直接当数值特征。

第四步,现在你拥有了一系列的数值特征,我们大可以抽象掉他们,叫特征 1 ,特征 2 ,特征 3 , f4, f5...
f1:1800
f2:[0,0,0,0,0,0,1]
f3:[0,0,0,1,0]
f4:2k
...

下一步要做的是 normalization ,用脚趾想想值为 1800 的特征对结果的贡献是值为 1 的特征的一千八百倍,而 1800 在这个特征中可能表示一个非常弱的结果(比如游客数量,日均 5k ,今天只有 1k8 ),我们要尽量缩小这种特征表示上的差距,而让对结果的贡献显示在特征本身的含义和特征的权重上,而不让数值来影响,这个就叫做 normalization ,

对每个数值特征(就是还没被打散的特征),取所有数据中最大和最小的,然后映射到[0,1]区间内,[-1,1]也可以,[-0.5-0.5]也能接受,总之就是一个小区间内,让数值特征的数量级和其他数值特征大致等同。

那么现在,你可能得到了
f1:0.18
f2:[0,0,0,0,0,0,1]
f3:[0,0,0,1,0]
f4:0.66


第五步,拉伸成一个特征向量( f1,f2,f3,f4,f5)
[0.18,0,0,0,0,0,0,1,0,0,0,1,0,0.66]

这个就是你的输入特征咯,特征工程到此结束,下一步训练模型。

不论是分类还是回归,都是这么个路数,分类和回归的区别就是放的模型不一样。
你要用 LR 或者 SVM ,就放到 LR 或者 SVM 中,要是 DART 就放到 DART 中,特征都是一样的。
2016-06-06 23:47:32 +08:00
回复了 yangyaofei 创建的主题 程序员 这个海明码的解释好奇怪,是错的吧……
哪里有问题?
2016-06-06 19:55:35 +08:00
回复了 lezhou 创建的主题 Uber 大家平时用滴滴的多还是优步的多
优步,我觉得用优步的平均素质比用滴滴的司机高
2016-06-06 11:45:32 +08:00
回复了 hard2reg 创建的主题 Python 发现 Python 的一个坑。。。
@justjavac 你的博客写得真麻烦,不如直接看 IEEE754
2016-06-05 10:57:07 +08:00
回复了 alexapollo 创建的主题 Python one-python:三千 Lib 库,每领域取 Top 1,属于 Python 的单库索引
讲道理,对不懂的领域至少问一问懂的人,没必要强行选 top1 出来。

Machine Learning ( CV )
你给选了一个 Caffe 是什么意思?

Caffe 是一个通用的 Deep Learning 的库,并不是 CV 专用也并不是最好的 CV 库按照如今 DL 和 ML 越来越分离的趋势放到 ML 也有待商榷。
说到 CV 选了 Caffe , OpenCV 像吃了屎一样
而且 Caffe 出了名的难写,我也不是谦虚,怎么就 top1 了?
说语言不重要的都是扯他妈蛋。

cv 用 matlab
涉及到了 dl 和 ml 用 python
如果用分布式计算了,现在基本都是 spark + mllib ,用 scala ,一个脱胎于 java 的语言

CS 其他科研
nlp 用 python 多,人工智能相关的都是 python 多

国内外还有这样的,实验室实力很强,工程和研究能兼顾的,会考虑性能问题等等,如果对性能要求很高用 CPP ,典型的例子, tree embedding 模型的包 XGBoost ,来自华盛顿大学,中文自然语言处理最厉害的实验室之一,哈工大的 ir 实验室的中文自然语言处理套件 ltp ,用 CPP 写成。国内使用最广泛的中科院的分词程序, ictclas , CPP 写成。

以上包皆有 python wrapper ,使用上都可以用 python 调用。


算法、安全、操作系统、分布式不了解,不做评论
2016-05-31 01:05:12 +08:00
回复了 yeelone 创建的主题 Django djangoUeditor 源码中这一句是什么意思 ?
@menc 不是 tuple ,是 dict 更正一下
2016-05-31 01:04:29 +08:00
回复了 yeelone 创建的主题 Django djangoUeditor 源码中这一句是什么意思 ?
这是 python 中最基本的 string format ,你真的是写 pythond 的么。。。
settings.py 中, defaultPathFormat 是这么定义得。
"defaultPathFormat":"%(basename)s_%(datetime)s_%(rnd)s.%(extname)s"

加上%,再加上你的 path_format_var 的 tuple 正好组成一个 formatted string
2016-05-31 00:23:02 +08:00
回复了 gkiwi 创建的主题 程序员 多语言多环境多库占满了磁盘。。重装电脑么?
这个时候 node 洗地党要怎么说话。
一个项目凭空搞的很复杂又占空间,简直不能更操蛋
2016-05-30 16:45:25 +08:00
回复了 airqj 创建的主题 VPS 准备买几台 VPS 来爬知乎数据,兄弟们有可以推荐的吗
果然还是看工作啊,在搜狗工作的时候,我们组就拥有脱了敏的知乎全部数据,包括问答,用户, tag 等等等等,可惜太坚守职业操守,我一点也没有 down 下来。
2016-05-30 13:10:15 +08:00
回复了 packenx 创建的主题 Android 以后 Android 都可以随便换硬件了吗
不管怎么说,终于能换电池了,好,威武,支持,有希望了!
2016-05-28 18:15:01 +08:00
回复了 cszchen 创建的主题 程序员 自己的两个库求 star,身份证验证和 haffman 压缩算法
haffman -> huffman
@hominthesky tangscan 是利用乌云的漏洞数据库,乌云自己说的,要由人来根据漏洞写插件,插件作者有奖励,漏洞发现者是没有的,但是漏洞和插件代码哪个更重要,不言自明。
@phithon 我是乌云最早期的注册用户,当时还是乌云 rank top5 组织的一员,后来整个组织都被乌云恶心坏了。

想知道乌云的风评?看看其他地方怎么评价,看看土司那帮人怎么评价乌云,别活在你自己的世界里。
@RockShake 哪天乌云的人买到原书版权要出版禁止网上传播了,拿的还是你参与校对和翻译的文本,你也懂得愤慨了。
@firebroo 不才还真拿到过一些 20rank 的通用型漏洞
1 ... 29  30  31  32  33  34  35  36  37  38 ... 47  
关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   956 人在线   最高记录 6679   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 36ms · UTC 20:00 · PVG 04:00 · LAX 13:00 · JFK 16:00
Developed with CodeLauncher
♥ Do have faith in what you're doing.