各位大佬们关于机器学习数据集中特征少

Liu6 · 2019-10-10T00:47:21Z

数据集中只有一列 id 和 comment 然后 comment 全是中文这个怎么进行处理？？？加特征吗？那应该加什么特征呢？？？？第一次接触文本数据集

comment

特征

机器学习

数据

25 replies • 2019-10-10 16:57:19 +08:00

1

Liu6

OP

Oct 10, 2019

我是萌新！！！求各位大佬解答！！！

2

Liu6

OP

Oct 10, 2019

QAQ 么大佬解答吗？ QAQ

3

SeaRecluse

Oct 10, 2019

1

并没有看出哪里特征少，也不知道你是要做 NLP 的什么任务。情感分析？分类？自动回复？

4

Liu6

OP

Oct 10, 2019

这里好像不能发图片就是一列 iD 　　一列　评论　　类似　商店评论　　然后　在预测

5

e3kiq0

Oct 10, 2019

是不是应该有个具体点的预测目标？

6

vsitebon

Oct 10, 2019

发图片的方法： https://www.v2ex.com/t/408727?p=2

7

Liu6

OP

Oct 10, 2019

@e3kiq0 一列　 ID 　一列　ｌａｂｅｌ一列　 comment 　　 label 　只有０或１　　０　代表 comment 中的好评论　１反之　　　 comment 　全是中文评论　上面是训练集　　　对这个训练集　操作　　然后对 test 集中的 comment 预测２０００条评论　看是０　还是１

8

Liu6

OP

Oct 10, 2019

@vsitebon 看了但是还是云里雾里的不会 QAQ 不知道怎么把电脑上的图片上传

9

Liu6

OP

Oct 10, 2019

数据包含 2 个 csv 文件：

train.csv：训练集，共 10000 条，使用 UTF-8 编码，comment 和 label 用 Tab 分隔。

字段名称字段说明
comment comment 即用户评论
label label 是评论的类别，有 0 和 1 两个值
test.csv：测试集，共 2000 条，使用 UTF-8 编码。id 与 comment 用“,”分割。

字段名称字段说明
id 行的唯一标示，提交时需要一一对应提交结果文件
comment comment 即用户评论

10

e3kiq0

Oct 10, 2019

直接用 comment 学习效果怎么样？

11

Liu6

OP

Oct 10, 2019

比赛链接 www.datafountain.cn/competitions/370 发链接要手机验证 HTTP 我删了

12

duanxian1hao

Oct 10, 2019

萌新说一下自己的想法，对 comment 进行分析，提取基础的特征，比如说字数；对 comment 按照词粒度生成 embedding，将 comment 转为向量表示；

13

e3kiq0

Oct 10, 2019

[email protected] 能不能分享一下数据？学习一下。感谢。

14

Eleutherios

Oct 10, 2019 via iPad

1

等等……#11 的意思是，比赛题不会做了，请外援出出主意？

It is unfair (

15

Liu6

OP

Oct 10, 2019

@Eleutherios 不是我做出来了但是精度不高想问下大佬们的思路只有 0.57 数据处理我现在还在优化

16

lv2016

Oct 10, 2019

之前做过类似的文本情感分类，当时主要定义了一些负样本里常见的特征比如中英文混杂、特定词出现频率等

17

TimePPT

PRO

Oct 10, 2019

这不就是典型的二分类问题么……题目已经很简单了😂

18

Liu6

OP

Oct 10, 2019

@TimePPT en 是的我用的 svm 但是我数据处理的不是很好精度不高主要是一列是中文加特征或者其他方法我不知道怎么选择萌新没什么经验面对中文应该怎么办

19

TimePPT

PRO

Oct 10, 2019

2

@Liu6 算力足够试试 RoBERTa 中文预训练模型？ https://www.jiqizhixin.com/articles/2019-09-05-6

20

Liu6

OP

Oct 10, 2019

@TimePPT 感谢！我去瞅瞅

21

misaki321

Oct 10, 2019

svm 已经不适合这类题目了
用词向量+神经网络

22

Liu6

OP

Oct 10, 2019

@misaki321 神经网络一开始有考虑但是我个人觉得最根本的原因是数据处理的不好我把中文进行了 label 编码了我觉得这个是主要原因我就一直不知道中文应该怎么处理

23

xwhxbg

Oct 10, 2019

bert 中文，把最后一层替换输出就行了，既不用分词也不用手动词向量，更不用手工提取特征

24

xwhxbg

Oct 10, 2019

首先震惊于这个比赛奖励居然是 100w，其次发现这是个训练赛，不知所以。。。
我用 bert 随便跑了一个 epoch，validation acc 0.91 看排行榜基本能进前 50 了。。。
https://colab.research.google.com/drive/1j9cBSsitjm2igaj50u9pwtu56XY3uBYg

25

Liu6

OP

Oct 10, 2019

@xwhxbg 我没有接触过 Bert 今天下午也看了一下 Bert 但是有点懵!!

各位 大佬们 关于机器学习 数据集中特征少

各位大佬们关于机器学习数据集中特征少