分为两个部分:闲聊问答系统和古诗词的限定领域的问答系统
两大部分:
-
通过信息抽取建立详尽的知识图谱,对应查询时的功能,如何确定实体之间的关系集合,以及隐关系挖掘,关系到知识图谱的建立是否成功。
-
应用时,如何获取使用者真实的意图(这一部分主要依据),实体检测,意图识别,关系预测和查询构建。
涉及技术:
- 如何知识建模、通过多种结构化、非结构化和部分结构化数据建立知识图谱,进行知识表达。
- 不同的知识图谱之间是否可以融合?不同问题答案的不同,有些可以,但如何融合是,补充、更新和去重的操作,需要什么操作需要探索。
几大知识图谱,诸如wikidata、Yago、DBpedia、富含海量的世界知识,并以结构化形式存储。
每个节点代表现实世界中的某个实体,----知识获取----> 实体关系抽取技术。
实体关系抽取:特征工程、核方法、图模型曾被广泛应用~~
最新的神经网路关系抽取模型。
技术举例如下:
关系抽取:最新的神经网络关系抽取模型: 1、 RNN+LSTM 、卷积神经网络和Transformer 。Word embedding 85.4 / wordNET + POS + NER 86.3
关系抽取实际中问题:
-
数据规模?人工标注训练数据是不可能完成的任务
-
学习能力问题? 在实际情况下,实体间关系和实体对之间频率服从长尾分布。有大量的样例较少的关系和实体对。
- 复杂语境?现有模型主要从单个句子中抽取实体间关系,要求句子必须同时包含两个实体。实际上,大量实体关系表现在一篇文档的多个句子中,甚至多个文档中。如何在更复杂的环境中抽取关系,是关系抽取面临问题。
- 开放关系问题?现有任务设定一般假设有预先定义好的封闭关系集合,将任务转为关系分类问题。这样无法获取文本中蕴含的实体间的新型关系。如何利用深度学习模型自动发现实体间的新型关系,实现开放关系抽取,仍然是一个“开放问题”。 文档级关系抽取:多个语句之间关系抽取,需要大量的人工标注来进行训练和评测。 OpenNRE- 开源项目
- 有监督的经典关系抽取 SemEval ACE2005 TACRED Wiki80
- 远程监督关系抽取 NYT10
- 少次学习关系抽取 FewRel 2.0 FewRel
- 文档级关系抽取 DocRED