信息抽取:从非结构化或半结构化的数据(常见为文本,如新闻、报告、网页、邮件)中,自动识别并提取结构化信息(如实体、人名地名、时间、关系、事件、属性),以便检索、分析或入库。
/ˌɪnfərˈmeɪʃən ɪkˈstrækʃən/
Information extraction can identify names, dates, and places in a news article.
信息抽取可以在一篇新闻文章中识别姓名、日期和地点。
By combining information extraction with machine learning, the system builds a database of companies and their relationships from thousands of documents.
通过将信息抽取与机器学习结合,该系统能从成千上万份文档中建立公司及其关系的数据库。
该短语由 information(信息)+ extraction(抽取/提取)组成。extraction 源自拉丁语 extrahere,意为“拉出、取出”(ex- “向外” + trahere “拉”)。在计算语言学与信息检索领域中,information extraction 指“把文本里隐含的信息‘抽出来’,变成可计算的结构化数据”。