从某种程度上讲,ChatGPT 会颠覆以往的 NLP 行业的生态。它不会带来 NLP 产业的繁荣。 今后,以 NLP 子任务领域独立研究和开发的项目都将逐渐消亡,仅仅留下极个别具有超大规模的数据和算力的公司。 它就像三体一样,像水滴一样,对整个 NLP 行业进行了降维打击。这虽悲观,但并非绝路,先别急,容我慢慢展开讲。2022 年以前的 NLPer 都在干什么?
NLP 工程师们在 2022 年 11 月 30 日之前,市面上有大大小小的互联网或 IT 企业需要进行文本处理,相应地,也就需要雇佣大量的 NLP 工程师们来解决相关的问题。绝大多数的 NLP 工程师们所做的工程项目,主要是针对某些特定任务提出一个具体的模型,进行有针对性的数据标注,然后再制作模型。简而言之,就是以 NLP 子任务独立进行研究开发。比如分词、实体识别、文本分类、相似度判别、机器翻译、文摘系统、事件抽取,等等,不一而足。
比如,一个公司需要做一套舆情监控系统,那么 NLP 工程师需要做的工作包括文本分类、关键词(短语)抽取、实体识别、事件抽取、文本聚类、相似度判别等等模型或模块。这些任务,要么以小模型如 fasttext 完成;要么以 预训练+finetune 模式完成;而对于一些数据过于稀疏,本身过于小众的任务,就直接采用规则和解析的方式来做。需要指出的是,NLP 的任务,除了前述的若干传统研究方向以外,还包括大量的十分小众的任务,比如,根据下面的一段话,模型需要返回应当几点通知用户参会: 我今天比较累了,想 9 点睡觉,然后明天的会议吧,早上大概 9 点一刻叫我一声,我上线,大概到中午能开完。 针对这种小众任务,传统 NLP 手段处理这种问题是比较困难的。另一方面,NLP 的工作还以数据领域进行了区分,比如,针对医疗文本领域需要定制一套实体识别系统,用于识别药物、疾病、诊疗日期等实体类型;而针对法律领域,则需要定制另一套实体识别系统,用于识别所犯罪行、量刑年限、罪犯名称、原告、被告等信息。两个模型完成的功能相似,但却并不能互通使用。也就是说,NLP 产业界实际上处于一种手工业模式,你干你的,我干我的,针对不同的企业、不同的需求,需要不断地定制模型、定制数据来完成工作。每一个定制需求都需要人力,从而涌现出大量的 NLP 公司和从业者。
作者:JioNLP 团队
链接:
https://zhuanlan.zhihu.com/p/605673596来源:知乎
著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。