- 1、工程实现和应用。
- 2、学术进展的研究方向。
- 一:知识图谱的定义
- 二:数据获取
- 三:数据预处理
- 四:数据导入
- 五: 图数据库简介
- APOC - A package of Components
- Cypher语句学习
- 知识图谱简单的应用
- 分布式图计算Spark graphX等等
知识图谱学习资料推荐 (先需要对知识图谱有宏观的概念以及背景了解,推荐 https://www.aminer.cn/ 清华AMiner实验室官网,有一些前沿的信息,以及它2019年发布的知识图谱89页ppt 链接:https://static.aminer.cn/misc/pdf/knowledgegraph.pdf)
作为IT从业者,无论理论学家还是coder,我认为show me the code 是最重要的。建立一个知识图谱,难度范围很大,简单的知识图谱很简单,难得知识图谱有相当得难度。
从两个方面,归纳知识图谱的知识,
1、工程实现和应用。
2、学术进展的研究方向。
一:知识图谱的定义
语义网络/多关系图
二:数据获取
数据库获取 授权数据和公开数据爬虫 第三方API
三:数据预处理
数据清洗,(字段对齐),纠错等等 知识抽取,NER,关系抽取,知识消歧等等
四:数据导入
1- 数据筛选 2- 知识图谱设计 3- 批量导入(初始化) 4- 增量导入(neo4j开源中cypher)
五: 图数据库简介
DB分类:
1- 关系型数据库
- MySQL
- ORACLE
- SQL Server
- DB2
2- 非关系型数据库
2.1 Key-value
- Redis
- MEMcached 等
2.1 文档型
- MongoDB 等
列存储型
- HBASE 等
图数据库
- Neo4j、InforGrid 等
APOC - A package of Components
- apoc-3.4.0.3-all.jar
- mysql-connect-java-5.1.21.jar
比较重要的neo4j组件
包含许多功能,详情我们可以查看官方文档
Cypher语句学习
通过机器学习和模板方法,我们实现text2SQL,我们将自然语言转化为cypher语句。
知识图谱简单的应用
搜索 医疗 金融、风控 教育 广告 零售 电子商务等等
分布式图计算Spark graphX等等
大规模数据分布式存储及处理常用框架,2012年开始广泛使用