V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX  ›  74123gzy  ›  全部回复第 7 页 / 共 7 页
回复总数  126
1  2  3  4  5  6  7  
从某种程度上讲,ChatGPT 会颠覆以往的 NLP 行业的生态。它不会带来 NLP 产业的繁荣。 今后,以 NLP 子任务领域独立研究和开发的项目都将逐渐消亡,仅仅留下极个别具有超大规模的数据和算力的公司。 它就像三体一样,像水滴一样,对整个 NLP 行业进行了降维打击。这虽悲观,但并非绝路,先别急,容我慢慢展开讲。2022 年以前的 NLPer 都在干什么?
NLP 工程师们在 2022 年 11 月 30 日之前,市面上有大大小小的互联网或 IT 企业需要进行文本处理,相应地,也就需要雇佣大量的 NLP 工程师们来解决相关的问题。绝大多数的 NLP 工程师们所做的工程项目,主要是针对某些特定任务提出一个具体的模型,进行有针对性的数据标注,然后再制作模型。简而言之,就是以 NLP 子任务独立进行研究开发。比如分词、实体识别、文本分类、相似度判别、机器翻译、文摘系统、事件抽取,等等,不一而足。
比如,一个公司需要做一套舆情监控系统,那么 NLP 工程师需要做的工作包括文本分类、关键词(短语)抽取、实体识别、事件抽取、文本聚类、相似度判别等等模型或模块。这些任务,要么以小模型如 fasttext 完成;要么以 预训练+finetune 模式完成;而对于一些数据过于稀疏,本身过于小众的任务,就直接采用规则和解析的方式来做。需要指出的是,NLP 的任务,除了前述的若干传统研究方向以外,还包括大量的十分小众的任务,比如,根据下面的一段话,模型需要返回应当几点通知用户参会: 我今天比较累了,想 9 点睡觉,然后明天的会议吧,早上大概 9 点一刻叫我一声,我上线,大概到中午能开完。 针对这种小众任务,传统 NLP 手段处理这种问题是比较困难的。另一方面,NLP 的工作还以数据领域进行了区分,比如,针对医疗文本领域需要定制一套实体识别系统,用于识别药物、疾病、诊疗日期等实体类型;而针对法律领域,则需要定制另一套实体识别系统,用于识别所犯罪行、量刑年限、罪犯名称、原告、被告等信息。两个模型完成的功能相似,但却并不能互通使用。也就是说,NLP 产业界实际上处于一种手工业模式,你干你的,我干我的,针对不同的企业、不同的需求,需要不断地定制模型、定制数据来完成工作。每一个定制需求都需要人力,从而涌现出大量的 NLP 公司和从业者。
作者:JioNLP 团队
链接: https://zhuanlan.zhihu.com/p/605673596
来源:知乎
著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。
这玩意现在把普通的提取数据的 NLP 全干碎了
2023-02-14 10:09:36 +08:00
回复了 74123gzy 创建的主题 职场话题 垃圾学历转区块链有可能么?
@Tdy95 加了
2023-02-12 21:26:20 +08:00
回复了 74123gzy 创建的主题 职场话题 垃圾学历转区块链有可能么?
@lasuar 那试试吧,反正本来也就是前端
2022-09-30 16:25:58 +08:00
回复了 xpclassical 创建的主题 分享创造 用心电监测有什么好功能可以做?大家一起想想
开发给 vtb 用,直播时候带着心脏参数
1  2  3  4  5  6  7  
关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   4096 人在线   最高记录 6679   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 15ms · UTC 05:23 · PVG 13:23 · LAX 21:23 · JFK 00:23
Developed with CodeLauncher
♥ Do have faith in what you're doing.