Construcción del gráfico de conocimiento II. Definición y arquitectura de Knowledge Graph

Knowledge Graph Construction Ii

La interpretación de Wikipedia del término dado por el gráfico de conocimiento todavía sigue la definición de Google, es decir: el gráfico de conocimiento es la base de conocimiento auxiliar de Google que se utiliza para mejorar las funciones de su motor de búsqueda. Sin embargo, desde la perspectiva del desarrollo de la industria, esta definición parece demasiado simple. Después de que Microsoft lanzó su base de conocimiento de Satori en julio de 2013, Weitz, director senior de productos de motor de búsqueda Bing, declaró públicamente que el lanzamiento de Satori solo muestra que Microsoft ya tiene una tecnología similar, pero que todavía existen muchas tecnologías existentes. El problema es que Microsoft quiere ganar liderazgo en lugar de seguir a Google. Esta declaración refleja la feroz competencia técnica detrás de este campo. A partir de los productos comerciales actualmente divulgados, también se puede ver que la industria generalmente le da importancia a esto. La Tabla 1 muestra los antiguos productos de la base de conocimiento convencional y las aplicaciones relacionadas. Entre ellos, el mayor número de entidades es la base de conocimiento WolframAlpha. El número total de entidades ha superado los 10 billones. El gráfico de conocimiento de Google tiene 500 millones de entidades y 35 mil millones de entidades. La relación entre ellos y la escala aumenta constantemente. El número total de conceptos contenidos en Probase de Microsoft ha alcanzado los diez millones de niveles. Es la base de conocimientos que actualmente contiene la mayor cantidad de conceptos. AppleSiri, GoogleNow y otras aplicaciones de asistente inteligente actualmente populares se basan en el conocimiento de WolframAlpha. Biblioteca y gráfico de conocimiento de Google. Cabe señalar que algunos productos y aplicaciones de gráficos de conocimiento también han surgido en China, como el cubo de conocimiento de Sogou, que se centra en el cálculo del razonamiento lógico de gráficos. Puede complementar los datos de la entidad con un triple razonamiento basado en redes semánticas y comprender semánticamente las consultas de los usuarios y el análisis sintáctico, etc.



Como puede verse en la Tabla 1, además de los proveedores de servicios de búsqueda tradicionales, también se han sumado a la competencia líderes de Internet como Facebook, Apple, IBM y otros. Dado que las tecnologías y estándares relacionados aún no están maduros y sus aplicaciones también se encuentran en la etapa de exploración, el concepto de gráfico de conocimiento aún está en proceso de desarrollo y cambio. Al comparar y perfeccionar los resultados de la investigación existente, este artículo propone la definición de gráfico de conocimiento.



1.1. Definición de gráfico de conocimiento



Definición 1: El gráfico de conocimiento es una base de conocimiento semántica estructurada, que se utiliza para describir los conceptos y sus interrelaciones en el mundo físico en forma de símbolos. Su unidad básica es el triplete 'entidad-relación-entidad', así como la entidad y sus pares atributo-valor relacionados, y las entidades están conectadas entre sí a través de relaciones para formar una estructura de conocimiento en red.

A través del gráfico de conocimiento, la Web puede transformarse de enlaces a páginas web en enlaces conceptuales, lo que permite a los usuarios buscar por tema en lugar de por cadena de caracteres, implementando así la búsqueda semántica. El motor de búsqueda basado en el gráfico de conocimiento puede retroalimentar el conocimiento estructurado a los usuarios de forma gráfica. Los usuarios pueden localizar con precisión y adquirir conocimientos en profundidad sin navegar por una gran cantidad de páginas web.

La definición 1 contiene 3 significados:



1) El gráfico de conocimiento en sí mismo es una base de conocimiento en red formada por entidades con atributos vinculados por relaciones. Desde la perspectiva de los gráficos, el gráfico de conocimiento es esencialmente una red conceptual, en la que los nodos representan entidades (o conceptos) en el mundo físico, y varias relaciones semánticas entre entidades constituyen bordes en la red. Por tanto, el gráfico de conocimiento es una expresión simbólica del mundo físico.

2) El valor de investigación del gráfico de conocimiento es que es una capa de red superpuesta (overlaynetwork) construida sobre la base de la Web actual. Con la ayuda del gráfico de conocimiento, es posible establecer una relación de vínculo entre los conceptos de la página Web, de manera que se minimice el costo. La información acumulada en Internet se organiza en conocimientos que se pueden utilizar.

3) El valor de la aplicación del gráfico de conocimiento es que puede cambiar el método de recuperación de información existente. Por un lado, se da cuenta de la recuperación de conceptos a través del razonamiento (en comparación con el método de coincidencia difusa de cadenas existente) y por otro lado, proporciona a los usuarios un método gráfico. Muestre el conocimiento ordenado y estructurado, de modo que las personas puedan liberarse del modo de filtrar manualmente las páginas web para encontrar respuestas.

1.2, la estructura del gráfico de conocimiento

La estructura del gráfico de conocimiento, incluida la estructura lógica del propio gráfico de conocimiento y la arquitectura técnica (del sistema) utilizada para construir el gráfico de conocimiento.

Primero introduzca la estructura lógica del gráfico de conocimiento, divida lógicamente el gráfico de conocimiento en dos niveles: la capa de datos y la capa de patrón. En la capa de datos del gráfico de conocimiento, el conocimiento se almacena en la base de datos del gráfico en unidades de hechos. Por ejemplo, Graphd de Google y Trinity de Microsoft son bases de datos de gráficos típicas. Si el triplete 'entidad-relación-entidad' o 'entidad-atributo-valor de propiedad' se utiliza como expresión básica de los hechos, todos los datos almacenados en la base de datos del gráfico constituirán una enorme red entidad-relación, formando un 'gráfico de conocimiento' '.

La capa del modelo está por encima de la capa de datos y es el núcleo del gráfico de conocimiento. En la capa del modelo se almacena el conocimiento refinado, generalmente utilizando la biblioteca de ontologías para administrar la capa de modelo del gráfico de conocimiento, utilizando la capacidad de la biblioteca de ontologías para admitir axiomas, reglas y restricciones para regular entidades, relaciones y tipos y atributos de entidades. Conexión. El estado de la base de datos de ontologías en el gráfico de conocimiento es equivalente al de la base de conocimientos, y la base de conocimientos con la base de datos de ontologías tiene menos conocimientos redundantes.

A continuación, desde la perspectiva de la construcción del gráfico de conocimiento, introduzca la arquitectura técnica general del gráfico de conocimiento. La Figura 1 muestra la arquitectura general de la tecnología de gráficos de conocimiento. La parte del marco punteado es el proceso de construcción del gráfico de conocimiento y también el proceso de actualización del gráfico de conocimiento. Como se muestra en la Figura 1, el proceso de construcción del gráfico de conocimiento se basa en los datos originales, utilizando una serie de medios técnicos automáticos o semiautomáticos para extraer elementos de conocimiento (es decir, hechos) de los datos originales y almacenarlos en la capa de datos. de la base de conocimientos y el proceso de la capa del modelo. Este es un proceso de actualización iterativo. De acuerdo con la lógica de la adquisición de conocimiento, cada iteración contiene 3 etapas: extracción de información, fusión de conocimiento y procesamiento de conocimiento.

El gráfico de conocimiento tiene dos métodos de construcción: de arriba hacia abajo y de abajo hacia arriba. La denominada construcción de arriba hacia abajo se refiere al uso de fuentes de datos estructuradas, como sitios web de enciclopedias, para extraer información de patrones y ontologías de datos de alta calidad y agregarla a la base de conocimientos. medios técnicos para El patrón de recursos se extrae de los datos recopilados públicamente, y se selecciona el nuevo patrón con mayor confianza y, después de la revisión manual, se agrega a la base de conocimientos.

Al comienzo del desarrollo de la tecnología de gráficos de conocimiento, la mayoría de las empresas e instituciones de investigación científica participantes utilizaron un enfoque de arriba hacia abajo para construir una base de conocimiento básica. Por ejemplo, el proyecto Freebase utiliza Wikipedia como fuente de datos principal. Con la madurez continua de la tecnología de extracción y procesamiento de conocimiento automático, la mayoría de los gráficos de conocimiento actuales se construyen de abajo hacia arriba. Los ejemplos más influyentes incluyen KnowledgeVault de Google y Satori Knowledge Base de Microsoft, los cuales se recopilan en público. Los datos de la página web son la fuente de datos, y la base de conocimientos existente se construye, enriquece y mejora mediante la extracción automática de recursos.

A continuación, presentaré la tecnología de construcción de gráficos de conocimiento de abajo hacia arriba. Según el proceso de adquisición de conocimiento, se divide principalmente en tres niveles: extracción de información, fusión de conocimiento y procesamiento de conocimiento, así que estad atentos.