V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX  ›  encro  ›  全部回复第 121 页 / 共 156 页
回复总数  3116
1 ... 117  118  119  120  121  122  123  124  125  126 ... 156  
2020-02-20 23:01:33 +08:00
回复了 MrhuangSTR 创建的主题 Python 各位大佬有什么好的办法解析网页中不规整的表格吗
原来是表格啊。
不太可能有通用的,因为表格就不规范。
你只能根据不同类型自己去写解析程序了。

提示下:
table 的 tr 下是 td,td 有两个属性,rowspan 和 colspan,它们的值就是分析表格的关键。但是对于这种不规则的,只能自己写程序,看有多少种类型,就微调下吧。
2020-02-20 22:51:53 +08:00
回复了 MrhuangSTR 创建的主题 Python 各位大佬有什么好的办法解析网页中不规整的表格吗
直接使用 xpath 或者 css 遍历,最简单网站了。
2020-02-20 22:49:24 +08:00
回复了 l4ever 创建的主题 Python BeautifulSoup 找到的内容, 属性为什么是倒过来的?
这个,只能看源码吧。
如果没有记错的话,反转不是直接利用原来文档,是重新生成了,要原来文档有一个双下划线的属性。
2020-02-20 22:43:20 +08:00
回复了 SlipStupig 创建的主题 程序员 被 spam 评论给弄疯了,如何有效的建立机器学习模型呢?
@SlipStupig

曾经负责两个世界排名 1000 以内的社区,
每天发布内容条数十万以上吧,
识别联系方式过滤是最有效的,
逐渐优化后达到 95%以上。

既然是小公司,追求智能不一定划算,因为样本不够,且调试过程比你逐渐完善过滤机制代价更大。
当然如果是公司事少、不考虑成本、或者学习目的,那么肯定是可以的。
我文章中开源方案提到一个,我没有实际使用过,[使用 TensorLayer 训练一个垃圾文本分类器] https://github.com/pakrchen/text-antispam
2020-02-20 21:18:08 +08:00
回复了 SlipStupig 创建的主题 程序员 被 spam 评论给弄疯了,如何有效的建立机器学习模型呢?
新鲜出炉的 BLOG 文章:
论坛和社区如何防止垃圾文章和评论: https://c4ys.com/archives/2058

包含:
通过关键词库识别 spam 内容
通过联系方式特征识别 spam 内容
通过用户身份识别 spam 内容
通过操作特征识别 spam 内容
识别后的处理
开源方案
商业方案
2020-02-20 19:47:44 +08:00
回复了 SlipStupig 创建的主题 程序员 被 spam 评论给弄疯了,如何有效的建立机器学习模型呢?
要自动发现垃圾信息,不用机器学习,简单分词即可:
1,比如将所有历史垃圾内容进行分词,抽取特征词库(其实也可以人工建立和导入网络上的词库);
2,对发布的内容进行分词,如果发现特征词超过一定数量,且存在疑似联系方式的的(这点很重要,因为都会留联系方式,而识别联系方式很简单,甚至有这一点你分词可以不做),直接进入待审核,用户账号进入禁言状态;

但是必须还需要提高作案成本,比如:
1,防止自动发帖工具(验证码,手机注册);
2,防止人工发垃圾帖( IP 黑名单,手机号黑名单);
2020-02-20 19:32:24 +08:00
回复了 SlipStupig 创建的主题 程序员 被 spam 评论给弄疯了,如何有效的建立机器学习模型呢?
重要的是你连自己要防的是对象人还是机器都没有确定。

假设对方是人,如果你不提高注册门槛,根本没法用机器的方式防住,

贴吧,V2 很多论坛都有人工复审
2020-02-20 19:26:54 +08:00
回复了 SlipStupig 创建的主题 程序员 被 spam 评论给弄疯了,如何有效的建立机器学习模型呢?
比如参考 v2,注册后需要一天才能发信息;
比如参考恩山,需要邀请或者花钱才能注册;

33 楼的可以根据实际情况,找到办法解决。
2020-02-18 13:39:41 +08:00
回复了 RealGM 创建的主题 程序员 V 友们谁会开发社区团购小程序请留言哈!
长沙有一个专门做团购的,
前几年开发了几十个,
去年底只剩几家了,
少于三万是不太可能做出能用的东西的。
2020-02-18 13:35:34 +08:00
回复了 erwa 创建的主题 程序员 你职业发展最『失意』的时候,是怎么破茧重生的?
除了努力提高自己跳出恶向循环走向正向循环,
还有其他办法吗?
2020-02-17 10:22:34 +08:00
回复了 doraos 创建的主题 Linux 什么版本的 Linux 更适合新手
fedora
2020-02-14 20:29:10 +08:00
回复了 station 创建的主题 NGINX 连不上 PHP -fpm 还是怎么回事 ?
@station

php-fpm.conf 还有一个 access log 默认是不开启的

php_flag[display_errors] = on
php_admin_value[error_log] = /var/log/php-fpm/www-error.log
php_admin_flag[log_errors] = on


access.log string
Access log 文件。 默认值:不设置

access.format string
access log 的格式。 默认值: "%R - %u %t \"%m %r\" %s"

access.log = log/$pool.access.log
#每一个请求的访问日志,默认是关闭的。
access.format = "%R - %u %t \"%m %r%Q%q\" %s %f %{mili}d %{kilo}M %C%%"
#设定访问日志的格式。

[php-fpm 配置详解]( https://juejin.im/entry/5870bc8961ff4b005c3c47ec)
2020-02-14 18:26:40 +08:00
回复了 station 创建的主题 NGINX 连不上 PHP -fpm 还是怎么回事 ?
500 应用程序错误,
你开启 fpm 的 access log 看下。
开启 php.ini 的 display_error=ON,error_reporting=E_ALL

将 index.php 改为 <?php echo 'hello';exit; 测试

如果不是很会环境配置的话,建议用宝塔吧。
2020-02-14 18:05:14 +08:00
回复了 station 创建的主题 NGINX 连不上 PHP -fpm 还是怎么回事 ?
@station 这是程序出错了,和 nginx 配置已经无关,开启 notice 级别错误提示
2020-02-14 09:35:58 +08:00
回复了 station 创建的主题 NGINX 连不上 PHP -fpm 还是怎么回事 ?
1,通过 ps 查看 php-fpm 进程的配置文件;
2,查看 php-fpm 配置文件,开启 fpm 的 access 和 error 日志;
3,重启 fpm,用 ps 看看是否运行成功;
4,查看 fpm 日志,是否有请求过来,没有的话,修改监听方式为端口试试;

一般就楼上的问题:
1,关闭 SeLinux ;
2,nginx,fpm,代码,sock 文件,log 目录所属用户一致;
3,server 换成 unix:///run/php-fpm/fpm.sock;
2020-02-13 18:55:03 +08:00
回复了 yiren1997 创建的主题 PHP 求推荐 PHP 入门书籍
@wfdaj 一直有效。
2020-02-11 21:20:29 +08:00
回复了 ioioioioioioi 创建的主题 远程工作 远程工作监控软件推荐
究竟你们是要用员工的脑呢,还是用它的身体。

我觉得可以发明一种按点数计算贡献的方法:
比如一个项目给初始给 10000 点,
假设某个 issue 预估需要花总代价的 1%,则建立 issue 时先分配 100 点,
issue 被认领后,如果按时完成,则可以获得点数,
最后根据总点数来计算收入。
2020-02-11 21:11:46 +08:00
回复了 lynn0977 创建的主题 Python 怎么阅读学习源代码
非常好的题目,根据你的题目我刚写了一篇短 Blog。

如何通过阅读源代码学习?
https://c4ys.com/archives/2034

分为三个部分:
1,有选择的阅读
2,阅读步骤
3,学习的要点

总体思路是带着问题学习。
2020-02-10 23:29:49 +08:00
回复了 nervebing 创建的主题 职场话题 被通知在家办公,工资 50%
@jhdxr
大部分公司都是欠了银行钱的,
而且不够银行扣,
不知道员工是否能优先,
估计即使优先也是需要等到判决下来,
以前有同事办过,请律师,收集申诉材料,出庭,等判决,等付款,一路麻烦死了。
2020-02-10 21:37:52 +08:00
回复了 nervebing 创建的主题 职场话题 被通知在家办公,工资 50%
看个人意愿,
如果老板一直很好,
一起共度难关也不是不可以,
没必要听别人的。
1 ... 117  118  119  120  121  122  123  124  125  126 ... 156  
关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   2456 人在线   最高记录 6679   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 49ms · UTC 14:54 · PVG 22:54 · LAX 07:54 · JFK 10:54
Developed with CodeLauncher
♥ Do have faith in what you're doing.