1
OhYee 2019-09-27 00:40:00 +08:00 via Android
直接用大学或者学院把字符串分开就行吧,应该所有学校都是这俩词结尾吧
|
2
RicardoY 2019-09-27 00:41:09 +08:00 via Android
绝大部分学校按照大学和学院截断就可以解决问题了吧..截断以后查一下 hashset 确认一下是不是一个合法的解
|
3
Enya 2019-09-27 00:44:47 +08:00 via iPhone
先截学院,后截大学。
因为会有类似北京航空航天大学大学北海学院这种存在。 |
4
lihongming 2019-09-27 00:52:27 +08:00 via iPhone
用 SVM 吧,万一有很多不按规则说话的呢?
|
5
axwz88 OP |
6
Yourshell 2019-09-27 01:06:40 +08:00 via iPhone
想匹配不规则字符串的话只有 ml 之类的了
|
7
aguesuka 2019-09-27 01:10:26 +08:00 via Android
所有大学,塞一个 trietree 里面,先匹配大学,后面的就是专业课。嫌麻烦可以用 treemap
|
8
AX5N 2019-09-27 02:52:35 +08:00
2000 个学校不算多,我觉得直接预先把所有学校拉出来最好。
|
9
wmc 2019-09-27 03:13:48 +08:00 via Android 1
想起《数学之美》中 Google 地图关于地址信息的解析,这应该算是一种比较简单的上下文有关文法,Google 的做法是用自动机来进行 街道->地区->城市->州 的各个部分的匹配,感觉思路可能比较接近🤔
|
10
littlecap 2019-09-27 05:51:29 +08:00
先下载一个高校库,然后匹配一下就好了。如果需要我可以发给你。
|
11
mcorley 2019-09-27 08:52:21 +08:00
excel 导出,分列,剩下几十个特殊的手动一下就好了
|
12
nevin47 2019-09-27 08:55:56 +08:00 via Android
我要把这个帖子转给我的同事哈哈哈哈。
自从我司开始考试,我就天天听到一个论调就是考算法的东西完全没用😂😂😂终于发现一个实际问题了 这个问题如果不用数据库的话,绝对用 hash 最快啊,逐一阶段,然后去 hash 里面比对,就立刻找到属于哪个学校了 |
13
passerbytiny 2019-09-27 09:01:43 +08:00
人是怎么处理的,程序就怎么处理,以下为自动化层次逐步增高的几种方式:
逐条手工识别和拆分 ↓ 按已知规则自动拆分,然后人工逐条审核和纠正 ↓ 同上,每次审核后再将新发现的规则融合到拆分规则中(已初步是 AI ) ↓ 上一层次执行多次后,将审核、融合新规则也弄成程序自动处理(已是 AI 或者人工智障) |
14
passerbytiny 2019-09-27 09:06:32 +08:00
@nevin47 #11 ⁉ hash 还能部分匹配原文?
|
15
zenan9001 2019-09-27 09:06:42 +08:00
先考虑通用情况,把"大学"作为截断关键字,再考虑特殊情况,括号什么的比较少,可以特殊处理
|
16
no1xsyzy 2019-09-27 09:10:57 +08:00
|
17
dog82 2019-09-27 09:11:16 +08:00
先粗匹配学校,然后人肉修正一遍,专业的名字用正则就行
|
19
no1xsyzy 2019-09-27 09:13:19 +08:00
|
20
LeeSeoung 2019-09-27 09:24:28 +08:00
正则。。
|
21
muxixi 2019-09-27 11:35:49 +08:00
都是 学校+院系的组合
先排序 按前几个字符分组,然后随便算算相同的前缀,找出学校名,然后院系就出来了。 |
22
LudwigWS 2019-09-27 11:46:01 +08:00
V 站各路大神啊
|
23
MaiKuraki 2019-09-27 12:17:57 +08:00
正则表达式?
|
24
wysnylc 2019-09-27 12:21:49 +08:00
正则筛选+人工纠错
换什么方式都逃不掉人工纠错 |
25
yianing 2019-09-27 12:55:41 +08:00 via iPhone
想到了最长前缀匹配,计算机网络学了这个匹配路由的,可以用来匹配学校吧
|
26
axwz88 OP |
27
axwz88 OP 每条回复我都认真看了,的确解决问题的方式不止一种,综合大家的回复我考虑用 ac 自动机去实现
|
28
axwz88 OP 感谢大家
|