位置:中冶有色 >
> 基于知識圖譜的冶金知識問答方法及系統(tǒng)
權(quán)利要求
1.基于知識圖譜的冶金知識問答方法,其特征在于,包括: 獲取冶金相關(guān)的詢問語音,并將所述詢問語音轉(zhuǎn)換為第一文本向量; 根據(jù)預(yù)設(shè)的冶金知識圖譜,從冶金描述文本數(shù)據(jù)中獲取冶金過程對應(yīng)的實體信息,并根據(jù)所述實體信息創(chuàng)建問答向量庫,所述問答庫中包含問題向量以及對應(yīng)的答復(fù)向量; 根據(jù)所述第一文本向量從所述問答向量庫中獲取多個匹配的問題向量,并對所述匹配的問題向量進行排序,根據(jù)排序結(jié)果獲取對應(yīng)問題向量的答復(fù)向量并輸出。2.根據(jù)權(quán)利要求1所述的基于知識圖譜的冶金知識問答方法,其特征在于,根據(jù)所述第一文本向量從所述問答向量庫中獲取多個匹配的問題向量,包括: 利用關(guān)鍵詞搜索引擎對所述第一文本向量進行分詞,獲取多個詞向量,根據(jù)所述詞向量從已有的故障報告以及故障文本中獲取匹配的關(guān)鍵詞,構(gòu)建關(guān)聯(lián)詞向量,并根據(jù)所述關(guān)聯(lián)詞向量從所述問答向量庫中獲取多個匹配的問題向量;和/或, 利用向量搜索引擎將所述第一文本向量和所述問答向量庫中的問題向量映射到同一個語義向量空間,通過相似度檢索算法從所述語義向量空間中獲取與所述第一文本向量相似度達到所述設(shè)定閾值的問題向量。 3.根據(jù)權(quán)利要求2所述的基于知識圖譜的冶金知識問答方法,其特征在于,所述關(guān)鍵詞搜索引擎包括:ElasticSearch搜索引擎。 4.根據(jù)權(quán)利要求2所述的基于知識圖譜的冶金知識問答方法,其特征在于,所述向量搜索引擎包括:Faiss引擎和/或Annoy引擎。 5.根據(jù)權(quán)利要求1所述的基于知識圖譜的冶金知識問答方法,其特征在于,根據(jù)預(yù)設(shè)的冶金知識圖譜,從冶金描述文本數(shù)據(jù)中獲取冶金過程對應(yīng)的實體信息,并根據(jù)所述實體信息創(chuàng)建問答向量庫,包括: 獲取所述冶金知識圖譜中的多組實體關(guān)系,根據(jù)所述實體關(guān)系構(gòu)建第一句子向量; 將所述冶金描述文本數(shù)據(jù)拆分為多個子句,每個所述子句作為第二句子向量; 將所述第一句子向量和所述第二句子向量輸入預(yù)訓(xùn)練的句子向量模型進行相似度比對,獲取與所述第一句子向量匹配的第二句子向量,作為問題向量; 設(shè)置各所述問題向量對應(yīng)的答復(fù)向量,創(chuàng)建所述問答向量庫。 6.根據(jù)權(quán)利要求1所述的基于知識圖譜的冶金知識問答方法,其特征在于,所述冶金描述文本數(shù)據(jù)包括:冶金故障報告、故障總結(jié)。 7.根據(jù)權(quán)利要求1所述的基于知識圖譜的冶金知識問答方法,其特征在于,對所述匹配的問題向量進行排序,包括: 通過深度學(xué)習(xí)排序算法獲取所述匹配的問題向量與所述第一文本向量的相似度值,根據(jù)所述相似度值對所述多個匹配的問題向量進行排序。 8.根據(jù)權(quán)利要求7所述的基于知識圖譜的冶金知識問答方法,其特征在于,所述深度學(xué)習(xí)排序算法包括:關(guān)鍵詞檢索算法、BM25算法和/或余弦相似度算法。 9.基于知識圖譜的冶金知識問答系統(tǒng),其特征在于,包括: 語音識別模塊,用于獲取冶金相關(guān)的詢問語音,并將所述詢問語音轉(zhuǎn)換為第一文本向量; 問答向量庫創(chuàng)建模塊,用于根據(jù)預(yù)設(shè)的冶金知識圖譜,從冶金描述文本數(shù)據(jù)中獲取冶金過程對應(yīng)的實體信息,并根據(jù)所述實體信息創(chuàng)建問答向量庫,所述問答庫中包含問題向量以及對應(yīng)的答復(fù)向量; 輸出響應(yīng)模塊,用于根據(jù)所述第一文本向量從所述問答向量庫中獲取多個匹配的問題向量,并對所述匹配的問題向量進行排序,根據(jù)排序結(jié)果獲取對應(yīng)問題向量的答復(fù)向量并輸出。
說明書
技術(shù)領(lǐng)域
本發(fā)明涉及智能冶金領(lǐng)域,尤其涉及基于知識圖譜的冶金知識問答方法及系統(tǒng)。
背景技術(shù)
目前知識圖譜領(lǐng)域蓬勃發(fā)展,并廣泛應(yīng)用于通用領(lǐng)域和垂直領(lǐng)域的知識管理。然而傳統(tǒng)冶金行業(yè)的生產(chǎn)管理方面也存在著以下問題:
1)缺少冶金行業(yè)故障知識的整合庫,不利于冶金從業(yè)人員快速獲取生產(chǎn)故障原因及解決方案;
2)現(xiàn)有的知識庫語義檢索準確率、高效性不高且智能化程度不高,不能很好的支持近義詞、不同表達方式的相同語義識別;
3)多數(shù)檢索平臺僅僅采取文字輸入的方式,用戶輸入文字較為繁瑣,便捷性差。
發(fā)明內(nèi)容
鑒于以上現(xiàn)有技術(shù)存在的問題,本發(fā)明提出一種基于知識圖譜的冶金知識問答方法及系統(tǒng),主要解決冶金行業(yè)傳統(tǒng)檢索方式操作繁瑣,影響作業(yè)效率的問題。
為了實現(xiàn)上述目的及其他目的,本發(fā)明采用的技術(shù)方案如下。
一種基于知識圖譜的冶金知識問答方法,包括:
獲取冶金相關(guān)的詢問語音,并將所述詢問語音轉(zhuǎn)換為第一文本向量;
根據(jù)預(yù)設(shè)的冶金知識圖譜,從冶金描述文本數(shù)據(jù)中獲取冶金過程對應(yīng)的實體信息,并根據(jù)所述實體信息創(chuàng)建問答向量庫,所述問答庫中包含問題向量以及對應(yīng)的答復(fù)向量;
根據(jù)所述第一文本向量從所述問答向量庫中獲取多個匹配的問題向量,并對所述匹配的問題向量進行排序,根據(jù)排序結(jié)果獲取對應(yīng)問題向量的答復(fù)向量并輸出。
可選地,根據(jù)所述第一文本向量從所述問答向量庫中獲取多個匹配的問題向量,包括:
利用關(guān)鍵詞搜索引擎對所述第一文本向量進行分詞,獲取多個詞向量,根據(jù)所述詞向量從已有的故障報告以及故障文本中獲取匹配的關(guān)鍵詞,構(gòu)建關(guān)聯(lián)詞向量,并根據(jù)所述關(guān)聯(lián)詞向量從所述問答向量庫中獲取多個匹配的問題向量;和/或,
利用向量搜索引擎將所述第一文本向量和所述問答向量庫中的問題向量映射到同一個語義向量空間,通過相似度檢索算法從所述語義向量空間中獲取與所述第一文本向量相似度達到所述設(shè)定閾值的問題向量。
可選地,所述關(guān)鍵詞搜索引擎包括:ElasticSearch搜索引擎。
可選地,所述向量搜索引擎包括:Faiss引擎和/或Annoy引擎。
可選地,根據(jù)預(yù)設(shè)的冶金知識圖譜,從冶金描述文本數(shù)據(jù)中獲取冶金過程對應(yīng)的實體信息,并根據(jù)所述實體信息創(chuàng)建問答向量庫,包括:
獲取所述冶金知識圖譜中的多組實體關(guān)系,根據(jù)所述實體關(guān)系構(gòu)建第一句子向量;
將所述冶金描述文本數(shù)據(jù)拆分為多個子句,每個所述子句作為第二句子向量;
將所述第一句子向量和所述第二句子向量輸入預(yù)訓(xùn)練的句子向量模型進行相似度比對,獲取與所述第一句子向量匹配的第二句子向量,作為問題向量;
設(shè)置各所述問題向量對應(yīng)的答復(fù)向量,創(chuàng)建所述問答向量庫。
可選地,所述冶金描述文本數(shù)據(jù)包括:冶金故障報告、故障總結(jié)。
可選地,對所述匹配的問題向量進行排序,包括:
通過深度學(xué)習(xí)排序算法獲取所述匹配的問題向量與所述第一文本向量的相似度值,根據(jù)所述相似度值對所述多個匹配的問題向量進行排序。
可選地,所述深度學(xué)習(xí)排序算法包括:關(guān)鍵詞檢索算法、BM25算法和/或余弦相似度算法。
一種基于知識圖譜的冶金知識問答系統(tǒng),包括:
語音識別模塊,用于獲取冶金相關(guān)的詢問語音,并將所述詢問語音轉(zhuǎn)換為第一文本向量;
問答向量庫創(chuàng)建模塊,用于根據(jù)預(yù)設(shè)的冶金知識圖譜,從冶金描述文本數(shù)據(jù)中獲取冶金過程對應(yīng)的實體信息,并根據(jù)所述實體信息創(chuàng)建問答向量庫,所述問答庫中包含問題向量以及對應(yīng)的答復(fù)向量;
輸出響應(yīng)模塊,用于根據(jù)所述第一文本向量從所述問答向量庫中獲取多個匹配的問題向量,并對所述匹配的問題向量進行排序,根據(jù)排序結(jié)果獲取對應(yīng)問題向量的答復(fù)向量并輸出。
如上所述,本發(fā)明一種基于知識圖譜的冶金知識問答方法及系統(tǒng),具有以下有益效果。
利用預(yù)設(shè)的知識圖譜獲取冶金行業(yè)較為全面的冶金知識數(shù)據(jù),通過語音輸入快速完成冶金信息的檢索匹配,獲取需要的數(shù)據(jù)輸出,為作業(yè)人員提供便捷的檢索方式的同時,提高數(shù)據(jù)輸出的準確性和有效性。
附圖說明
圖1為本發(fā)明一實施例中基于知識圖譜的冶金知識問答方法的流程示意圖。
具體實施方式
以下通過特定的具體實例說明本發(fā)明的實施方式,本領(lǐng)域技術(shù)人員可由本說明書所揭露的內(nèi)容輕易地了解本發(fā)明的其他優(yōu)點與功效。本發(fā)明還可以通過另外不同的具體實施方式加以實施或應(yīng)用,本說明書中的各項細節(jié)也可以基于不同觀點與應(yīng)用,在沒有背離本發(fā)明的精神下進行各種修飾或改變。需說明的是,在不沖突的情況下,以下實施例及實施例中的特征可以相互組合。
需要說明的是,以下實施例中所提供的圖示僅以示意方式說明本發(fā)明的基本構(gòu)想,遂圖式中僅顯示與本發(fā)明中有關(guān)的組件而非按照實際實施時的組件數(shù)目、形狀及尺寸繪制,其實際實施時各組件的型態(tài)、數(shù)量及比例可為一種隨意的改變,且其組件布局型態(tài)也可能更為復(fù)雜。
請參閱圖1,本發(fā)明提供基于知識圖譜的冶金知識問答方法,包括以下步驟。
步驟S01,獲取冶金相關(guān)的詢問語音,并將所述詢問語音轉(zhuǎn)換為第一文本向量;
步驟S02,根據(jù)預(yù)設(shè)的冶金知識圖譜,從冶金描述文本數(shù)據(jù)中獲取冶金過程對應(yīng)的實體信息,并根據(jù)所述實體信息創(chuàng)建問答向量庫,所述問答庫中包含問題向量以及對應(yīng)的答復(fù)向量;
步驟S03,根據(jù)所述第一文本向量從所述問答向量庫中獲取多個匹配的問題向量,并對所述匹配的問題向量進行排序,根據(jù)排序結(jié)果獲取對應(yīng)問題向量的答復(fù)向量并輸出。
在一實施例中,語音錄入功能可采用了現(xiàn)有的語音實時轉(zhuǎn)寫工具。前端調(diào)用對應(yīng)的語音轉(zhuǎn)寫api,將語音流實時轉(zhuǎn)換為文字信息,輸入到問答對話框中實現(xiàn)了語音智能輸入,具體的語音轉(zhuǎn)寫工具可根據(jù)實際應(yīng)用需求進行選擇,這里不作限制。
在一實施例中,精準識別用戶語音輸入的冶金會話后,可利用自然語言處理技術(shù)HanLP對冶金會話進行預(yù)處理并轉(zhuǎn)換成語義向量(即第一文本向量)。具體地,利用HanLP工具及收集的冶金行業(yè)專用名詞詞典對冶金會話進行分詞、詞性標注、實體識別、糾錯及語義召回等預(yù)處理,并進一步利用句子向量模型Sentence BERT將問題語句轉(zhuǎn)換成詞向量,得到對應(yīng)的第一文本向量。
在一實施例中,根據(jù)預(yù)設(shè)的冶金知識圖譜,從冶金描述文本數(shù)據(jù)中獲取冶金過程對應(yīng)的實體信息,并根據(jù)所述實體信息創(chuàng)建問答向量庫,包括:
獲取所述冶金知識圖譜中的多組實體關(guān)系,根據(jù)所述實體關(guān)系構(gòu)建第一句子向量;
將所述冶金描述文本數(shù)據(jù)拆分為多個子句,每個所述子句作為第二句子向量;
將所述第一句子向量和所述第二句子向量輸入預(yù)訓(xùn)練的句子向量模型進行相似度比對,獲取與所述第一句子向量匹配的第二句子向量,作為問題向量;
設(shè)置各所述問題向量對應(yīng)的答復(fù)向量,創(chuàng)建所述問答向量庫。
具體地,可收集冶金行業(yè)的相關(guān)資料如故障描述文本、故障匯總解決方案等,通過提取實體-關(guān)系-實體或?qū)嶓w-關(guān)系-屬性三元組,生成對應(yīng)的知識圖譜。具體的知識圖譜構(gòu)建過程可采用現(xiàn)有技術(shù),這里不再贅述。基于預(yù)先構(gòu)建的底層知識圖譜中的實體關(guān)系,通過搜集冶金故障報告和故障總結(jié),抽取出故障知識,并利用句子向量模型Sentence BERT構(gòu)建故障問答向量庫。
在一實施例中,根據(jù)所述第一文本向量從所述問答向量庫中獲取多個匹配的問題向量,包括:
利用關(guān)鍵詞搜索引擎對所述第一文本向量進行分詞,獲取多個詞向量,根據(jù)所述詞向量從已有的故障報告以及故障文本中獲取匹配的關(guān)鍵詞,構(gòu)建關(guān)聯(lián)詞向量,并根據(jù)所述關(guān)聯(lián)詞向量從所述問答向量庫中獲取多個匹配的問題向量;和/或,
利用向量搜索引擎將所述第一文本向量和所述問答向量庫中的問題向量映射到同一個語義向量空間,通過相似度檢索算法從所述語義向量空間中獲取與所述第一文本向量相似度達到所述設(shè)定閾值的問題向量。
在一實施例中,利用關(guān)鍵詞搜索引擎進行關(guān)鍵詞召回,關(guān)鍵詞搜索引擎可采用ElasticSearch搜索引擎,ElasticSearch將第一文本向量進行自動分詞處理,并在非結(jié)構(gòu)化故障報告及故障文本中進行全文索引和相關(guān)性搜索,快速獲取高匹配度返回結(jié)果。
在一實施例中,利用向量搜索引擎進行語義召回,向量搜索引擎可采用Faiss或Annoy向量索引算法,F(xiàn)aiss或Annoy索引算法為問答向量庫中的問題向量構(gòu)建一個索引,用戶輸入問題和問答向量庫中的問題被映射到同一個語義向量空間,通過ANN算法快速獲得最相似的K個問題向量。
在一實施例中,對所述匹配的問題向量進行排序,包括:
通過深度學(xué)習(xí)排序算法獲取所述匹配的問題向量與所述第一文本向量的相似度值,根據(jù)所述相似度值對所述多個匹配的問題向量進行排序。
具體地,所述深度學(xué)習(xí)排序算法,包括:結(jié)合傳統(tǒng)的關(guān)鍵詞檢索、BM25、Cosine相似度算法以及一些基于神經(jīng)網(wǎng)絡(luò)訓(xùn)練的Word2vec模型或者卷積匹配模型等共同對topK問題進行排序。
完成排序后,可將排序結(jié)果反饋給用戶,每個問題向量對應(yīng)一個索引信息,用戶可通過語音輸入匹配對應(yīng)的索引信息,進行問題選擇。根據(jù)用戶選擇輸出對應(yīng)問題向量對應(yīng)的答復(fù)向量。答復(fù)向量對應(yīng)具體問題的解決方案,可在通過知識圖譜從各非結(jié)構(gòu)化冶金描述文本中獲取問題向量后,基于獲取的問題向量配置對應(yīng)的解決方案作為問題向量對應(yīng)的答復(fù)向量,存儲在問答向量庫中。
在一實施例中,問答流程包括:
步驟1,利用Sentence BERT語意向量模型將提出的問題轉(zhuǎn)換成語義向量,同時基于底層知識圖譜抽取構(gòu)建故障問答向量庫;
步驟2,結(jié)合Elasticsearch關(guān)鍵詞召回及Faiss、Annoy向量召回技術(shù),將問題向量與問答向量庫訓(xùn)練的語義向量進行相似度對比,獲取與提出的問題相似的topK問題;
步驟3,利用排序算法對topK問題進行排序,從而關(guān)聯(lián)出輸入問題的最佳答案。
本實施例中還提供了一種基于知識圖譜的冶金知識問答系統(tǒng),用于執(zhí)行前述方法實施例中所述的基于知識圖譜的冶金知識問答方法。由于系統(tǒng)實施例的技術(shù)原理與前述方法實施例的技術(shù)原理相似,因而不再對同樣的技術(shù)細節(jié)做重復(fù)性贅述。
在一實施例中,基于知識圖譜的冶金知識問答系統(tǒng),包括:
語音識別模塊,用于獲取冶金相關(guān)的詢問語音,并將所述詢問語音轉(zhuǎn)換為第一文本向量;
問答向量庫創(chuàng)建模塊,用于根據(jù)預(yù)設(shè)的冶金知識圖譜,從冶金描述文本數(shù)據(jù)中獲取冶金過程對應(yīng)的實體信息,并根據(jù)所述實體信息創(chuàng)建問答向量庫,所述問答庫中包含問題向量以及對應(yīng)的答復(fù)向量;
輸出響應(yīng)模塊,用于根據(jù)所述第一文本向量從所述問答向量庫中獲取多個匹配的問題向量,并對所述匹配的問題向量進行排序,根據(jù)排序結(jié)果獲取對應(yīng)問題向量的答復(fù)向量并輸出。
綜上所述,本發(fā)明一種基于知識圖譜的冶金知識問答方法及系統(tǒng),支持問答會話語音輸入,不需要手動輸入,極大地節(jié)省了冶金一線從業(yè)人員的時間;借助底層知識圖譜搭建了一個較為全面的冶金故障知識庫,幫助冶金從業(yè)人員快速獲取生產(chǎn)故障原因及解決方案;基于關(guān)鍵詞搜索引擎和向量搜索引擎結(jié)合的搜索匹配索引技術(shù)大大提高了搜索的準確率,并且支持語義理解實現(xiàn)了問答的智能化;能夠達到毫秒級響應(yīng)的高校檢索,更適合鋼鐵生產(chǎn)場景。所以,本發(fā)明有效克服了現(xiàn)有技術(shù)中的種種缺點而具高度產(chǎn)業(yè)利用價值。
上述實施例僅例示性說明本發(fā)明的原理及其功效,而非用于限制本發(fā)明。任何熟悉此技術(shù)的人士皆可在不違背本發(fā)明的精神及范疇下,對上述實施例進行修飾或改變。因此,舉凡所屬技術(shù)領(lǐng)域中具有通常知識者在未脫離本發(fā)明所揭示的精神與技術(shù)思想下所完成的一切等效修飾或改變,仍應(yīng)由本發(fā)明的權(quán)利要求所涵蓋。