当今,用 LLM 一键就能生成百万级领域知识图谱了?!
来自中科大 MIRA 实际室权术东说念主员建议一种通用的自动化知识图谱构建新框架SAC-KG,提高成果 be like:
当使用 ChatGPT 算作基础模子时,SAC-KG 达到了 89.32% 的准确率和 81.25% 的领域特异性,相干于 SOTA 治安提高了 20%。
一直以来,知识图谱构建技能耐久是权术热门。
不外对构建领域知识图谱来说,由于需要广泛的民众知识和东说念主工干扰,其骨子应用受到严重截止。
对此,最近基于大言语模子(LLM)的构建治安成为了一种新趋势。但仍存在一些问题,严重影响所构建领域知识图谱的实在度。
针对上述痛点,权术团队进一步建议了 SAC-KG,关联论文已发表在 CCF-A 类东说念主工智能顶级会议 ACL 2024 Main。并成就部署领域知识图谱自动构建平台 SAC-KG,维持输入大规模领域语料,一键生成高质地领域知识图谱。
SAC-KG 是若何使命的
由于大言语模子出色的语义一语气智力和生成智力,基于 LLM 的治安成为了一种新趋势。通过运用 LLM 中存储的先验知识,从原始语料中提真金不怕火三元组。
但是,基于 LLM 的治安仍面对一些问题。输入中的险峻文噪声和输出中的知识幻觉会导致空幻或不关联的三元组生成,从而严重影响所构建领域知识图谱的实在度。
为了处理上述问题,该权术建议了一种全新的自动化知识图谱构建通用框架 SAC-KG,运用大言语模子算作领域知识图谱的自动化构建民众,在给定领域语料的情况下,以自动化、精确性和可控性为看法提真金不怕火三元组。
该框架包含三个组件:生成器、考证器和剪枝器。
生成器
当先,生成器包括领域语料检索器和绽开知识图谱检索器,诀别为指定的实体从领域语料库和绽开知识图谱中检索最关联信息。
其中,领域语料检索器提供最关联的文本语料算作 LLM 的输入,减少险峻文噪声的引入;绽开知识图谱检索器提供与实体最关联的三元组算作示例,匡助限度模子的输出步地。
LLM 的输入包括与实体关联的险峻文、三元组示例以及相应的教唆,输出为生成的以指定实体为头实体的三元组。
考证器
由于 LLM 存在知识幻觉,可能生成空幻三元组,因此由考证器认真检测并过滤掉由 LLM 生成的空幻三元组。
这如故由分为两个智商:空幻检测和空幻校正。
在空幻检测阶段,考证器会实行三种查验并进行符号:
数目查验:要是生成的三元组数目少于阈值(默许是 3 个),则符号为"数目不及"。
步地查验:要是三元组不顺应预界说步地,则符号为"步地空幻";要是头实体不匹配预界说实体,则符号为"头实体空幻";要是头实体和尾实体换取,则符号为"头尾矛盾"。
突破查验:考证器会检测三元组中的逻辑突破。举例,确保一个东说念主的出身时候早于死字时候,且年级不为负数。
在空幻校正阶段,把柄检测到的空幻类型提供相应的教唆,并再行让 LLM 生成正确的输出。举例,要是是"步地空幻",会教唆模子"请严格按照步地条件再行生成,瞩目三元组的步地"。
剪枝器
知识图谱的助长经由不错看作一棵树的逐层增长,从浅到深渐渐获取领域知识,意味着下一层三元组的头实体是上一层三元组的尾实体。
在经过考证器考证后,将得到的正确三元组整合到生成的新层图谱中,并络续生成下一层三元组。
但是,并不是统共三元组齐需要络续生成下一层。举例," ( 稻米 , 最好助长温度 ,20-25 摄⽒度 ) "是正确的三元组,但尾实体" 20-25 摄氏度"不需要算作下一层的头实体进行进一步生成。
为了提高知识图谱的可控性,该权术引入剪枝器,这是一个在开源知识图谱 DBpedia 上微调的 T5 二分类模子。输入为每个正确三元组的尾实体,输出为"助长"或"修剪",暗示是否需要络续生成下一层图谱。
考研剪枝器时,从 DBpedia 集聚考研数据,将部分头实体算作"助长"类的代表,尾实体则算作"修剪"类的代表。通过这些实体文本和对应标签进行微调。
实际及收尾主实际
在统一领域的知识图谱自动构建中,权术团队使用GPT-4进行自动和高效的评估。
如表 1 所示,SAC-KG 阐述优异,越过了多个基线模子。
四个基线模子包括 OpenIE6、StanfordOIE、DeepEx 和 PIVE,其中前两者为基于法例的三元组抽取治安,而 DeepEx 联接了 Bert 模子与法例技能,PIVE 则平直使用 ChatGPT 构建知识图谱。
SAC-KG 在知识图谱构建上耐久优于这些治安,尤其在准确率和领域特异性上阐述凸起。
当使用 ChatGPT 算作基础模子时,SAC-KG 达到了 89.32% 的准确率和 81.25% 的领域特异性,显赫优于基于法例的治安,相干于 SOTA 治安提高了 20%。
消融实际
消融实际中,权术团队每次迭代入网算这些方针,以取得更概述的收尾。
他们将莫得绽开知识图谱检索器的 SAC-KG 记作 SAC-KGw/oprompt,莫得领域语料检索器的记作 SAC-KGw/otext,莫得考证器的记作 SAC-KGw/overifier,莫得修剪器的记作 SAC-KGw/opruner。
如表 2 所示,SAC-KG 中的任一组件缺失齐会导致统共这个词框架性能着落。
相等是,修剪器和绽开知识图谱检索器对 SAC-KG 的性能影响更为显赫。这两个组件诀别限度生成标的和添加示例,标明在知识图谱构建经由中提高可控性的进犯性。
权术团队进一步可视化了 SAC-KG 每个消融版块生成的前三层知识图谱。如图所示,竣工的 SAC-KG 版块阐述出最好的举座收尾,且每一层中的空幻三元组数目莫得显赫各别。这一应许标明,在领域知识图谱的迭代生成经由中,空幻传播并不彰着。违抗,去除了文本处理模块(SAC-KGw/o text)和剪枝模块(SAC-KGw/o pruner)的版块清醒出彰着的空幻传播,导致在第三层生成的空幻三元组数目显赫加多。而去除了教唆模块(SAC-KGw/o prompt)和考证模块(SAC-KGw/o verifier)的版块仅能提真金不怕火较少的三元组,这意味着言语模子在枯竭示例和空幻校得当由的情况下难以从领域语料中回想知识。这些收尾进一步阐明了框架内每个组件对构建经由的进犯孝顺。
OIEbenchmarks
SAC-KG 在传统的绽开信息抽取任务中的灵验性和日常适用性通过多个开源基准数据集的实际得到了考证。
实际收尾清醒,SAC-KG 在这些传统 OIE 基准数据集上,显赫优于现存的来源进治安。
相等是,在与基于法例的治安(如 OpenIE6 和 StanfordOIE)和基于大规模言语模子的治安(如 DeepEx 和 PIVE)的比拟中,SAC-KG 耐久达到最好收尾,讲明了其在传统 OIE 任务中的灵验性和鲁棒性。
小结
针对大规模领域知识图谱构建资本高、精度低这一复杂的骨子问题,本权术建议了基于大模子的迭代式领域 / 学问图谱通用构建框架。
该框架达成了多源领域语料中的精确知识检索,并联接开源图谱达成了自顺应教唆机制,通过模拟树助长经由,奏效构建了百万级的高质地领域图谱。
论文发表在 CCF-A 类东说念主工智能顶级会议 Annual Meeting of the Associationfor Computational Linguistics(ACL 2024 Main)。
论文作家第一作家陈瀚铸是中国科学技能大学 2021 级硕博连读生,师从王杰造就,主要权术标的为知识图谱与大言语模子,数据合成等。曾获 KDDCup 各人高校团队第一等荣誉。
论文地址:
https://aclanthology.org/2024.acl-long.238.pdf
绽开构建平台:
http://8.149.242.106:5000(可试用)
— 完 —
投稿请发邮件到:
ai@qbitai.com
标题注明【投稿】,告诉咱们:
你是谁,从哪来,投稿内容
附上论文 / 技俩主页贯串,以及沟通形态哦
咱们会(尽量)实时恢复你
点这里� � 和顺我,谨记标星哦~
一键三连「共享」、「点赞」和「在看」
科技前沿进展日日再见 ~