冯龙宇的技术专栏 NLP and ML Coder

知识图谱概览

2020-04-03
fly

NLP

知识图谱学习资料推荐 (先需要对知识图谱有宏观的概念以及背景了解,推荐 https://www.aminer.cn/ 清华AMiner实验室官网,有一些前沿的信息,以及它2019年发布的知识图谱89页ppt 链接:https://static.aminer.cn/misc/pdf/knowledgegraph.pdf)

作为IT从业者,无论理论学家还是coder,我认为show me the code 是最重要的。建立一个知识图谱,难度范围很大,简单的知识图谱很简单,难得知识图谱有相当得难度。

从两个方面,归纳知识图谱的知识,

1、工程实现和应用。
2、学术进展的研究方向。

一:知识图谱的定义

语义网络/多关系图

二:数据获取

数据库获取 授权数据和公开数据爬虫 第三方API

三:数据预处理

数据清洗,(字段对齐),纠错等等 知识抽取,NER,关系抽取,知识消歧等等

四:数据导入

1- 数据筛选 2- 知识图谱设计 3- 批量导入(初始化) 4- 增量导入(neo4j开源中cypher)

五: 图数据库简介

DB分类:

1- 关系型数据库

  • MySQL
  • ORACLE
  • SQL Server
  • DB2

    2- 非关系型数据库

    2.1 Key-value
  • Redis
  • MEMcached 等
    2.1 文档型
  • MongoDB 等
    列存储型
  • HBASE 等
    图数据库
  • Neo4j、InforGrid 等

    APOC - A package of Components

  • apoc-3.4.0.3-all.jar
  • mysql-connect-java-5.1.21.jar 比较重要的neo4j组件 包含许多功能,详情我们可以查看官方文档

    Cypher语句学习

    通过机器学习和模板方法,我们实现text2SQL,我们将自然语言转化为cypher语句。

    知识图谱简单的应用

    搜索 医疗 金融、风控 教育 广告 零售 电子商务等等

    分布式图计算Spark graphX等等

    大规模数据分布式存储及处理常用框架,2012年开始广泛使用


Similar Posts

下一篇 实体链接

Comments