一、主要內容
(一) 技術研究部(略)
1.試驗數(shù)據(jù)文本摘要和關鍵詞提取
試驗數(shù)據(jù)具有(略)廣泛、種類繁多、數(shù)據(jù)量大的特點,導致數(shù)據(jù)的關鍵信息不突出、利用率低的問題。為實現(xiàn)試驗數(shù)據(jù)的高效利用,提取試驗數(shù)據(jù)的文本摘要和關鍵詞是文本(略)析的重要一環(huán)。為此,研究抽取式摘要生成技術。提出自監(jiān)督預訓練摘要生成模型,支持在試驗數(shù)據(jù)上進行微調訓練,通過訓練可以實現(xiàn)對試驗數(shù)據(jù)摘要和關鍵詞的準確提取。
2.試驗數(shù)據(jù)文本命名實體識別
試驗數(shù)據(jù)中經常包含大量的技術術語、裝備名稱和實體信息,為獲取這些信息,研究以下內容:
(1)研究基于深度學習的命名實體識別模型,有效地學習文本的語義特征,并且能夠處理長距離依賴關系,用于提取試驗文本信息中的具體實體和關鍵術語,為試驗數(shù)據(jù)的(略)析和解釋提供有力支持。模型能夠適應不同的數(shù)據(jù)集。將該模型應用到試驗數(shù)據(jù)文本命名實體識別中,能夠提升數(shù)據(jù)(略)析處理的效率和準確性。
(2)研究命名實體識別模型在特定標注數(shù)據(jù)集的微調方法,以更好地適應指控通信裝備試驗文本信息(略)析任務。研究將試驗專業(yè)領域的專有詞表集成到模型中,以提高對特定實體的識別能力方法。
3.試驗數(shù)據(jù)文本(略)類
試驗數(shù)據(jù)種類繁多,采用文本(略)類技術對大量數(shù)據(jù)進行科學地組織和管理顯得尤為重要。為此,本課題研究如下內容:
(1)試驗數(shù)據(jù)文本(略)類相關技術。研究并提出詞匯特征模型,研究基于詞匯特征模型來進行具體的試驗數(shù)據(jù)文本(略)類任務。
(2)針對裝備試驗知識圖譜構建需求,設計自頂向下和自底向上相結合的知識圖譜構建框架。
4.試驗數(shù)據(jù)文本檢索(略)析方法
(1)研究基于知識圖譜的試驗文檔檢索(略)析方法。構建從用戶問題、檢索條件到知識圖譜檢索語句的生成模型,將用戶提出問題轉化為結構化的檢索語句,在知識圖譜中進行語義檢索和答案生成。
(2)研究試驗文檔聯(lián)合檢索和全文檢索方法,研究并解決制約檢索效率的關鍵問題,為數(shù)據(jù)輔助(略)析提供支撐。
(二)
驗證(略)開發(fā)部(略)
在技術研究的基礎上,編制相應的驗證(略),驗證技術研究相應算法,含數(shù)據(jù)錄入和摘要提取、命名實體識別和數(shù)據(jù)(略)類、全文檢索和統(tǒng)計(略)析等模塊。
1.數(shù)據(jù)錄入和摘要提取
(1)能夠對文檔文件進行錄入、解析、存儲、處理,文檔文件支持(略)LS、T(略)T、PDF、DOC、WPS等格式。
(2)在(略)數(shù)據(jù)時支持添加通用標簽,如錄入人員、所屬單位、錄入時間、數(shù)據(jù)(略)類、主題詞、專業(yè)類別、存儲地址等內容;支持根據(jù)數(shù)據(jù)具體情況設置專有標簽。支持標簽的增加、刪除、編輯。標簽更改后,原標簽自動同步更新。
(3(略)中試驗數(shù)據(jù)的文本內容進行(略)析,包括中文(略)詞、文本摘要及關鍵詞的提取、實體抽取、文檔自動(略)類等,知識目錄支持根據(jù)不同的(略)類原則進行(略)類,支持自定義(略)類
(4)對文檔文本進行抽取,支持手動進行關聯(lián)標注,然后將抽取的數(shù)據(jù)存入數(shù)據(jù)庫,建立查詢索引支持查詢。
2.實體識別和數(shù)據(jù)(略)類
(1)通過讀入訓練數(shù)據(jù)、構造配置字典、構建特征空間、循環(huán)迭代更新參數(shù)這四個步驟實現(xiàn)實體識別。
(2)支持術語識別、特定裝備及事件識別和實體關系抽取。
(3)支持重點實體發(fā)現(xiàn),根據(jù)用戶指定的重點話題關鍵詞,從試驗數(shù)據(jù)文本中找出包含該關鍵詞的短語或句子;從該短語或句子中發(fā)現(xiàn)命名實體,所發(fā)現(xiàn)的命名實體作為重點實體,在數(shù)據(jù)庫中標記其屬性為“重點實體”。
(4)提供數(shù)據(jù)導航功能,通過實體、事件、專業(yè)等多個(略)度對信息進行綜合展現(xiàn),從而為用戶提供一個靈活、高效的數(shù)據(jù)導航(略)類瀏覽方式。
3.全文檢索和統(tǒng)計(略)析
(1)文本(略)的文本進行展現(xiàn),支持DOC、(略)LS、PDF、WPS等常用辦公文檔預覽功能,能夠保持文本中原有(略)素的格式等。
(2)為用戶提供檢索界面,支持全文檢索、組合檢索、模糊化查詢檢索。
(3)支持二次檢索,根據(jù)用戶輸入的過濾條件,進一步縮小結果的范圍,實現(xiàn)對檢索結果的精準定位。
(4)在查詢結果展示頁面上給出每條檢索結果的關鍵詞、摘要、(略)時間、名稱、類型、時間、簡要描述等基本信息介紹等基本信息,以及標題。在標題上附加有詳情鏈接;用戶(略)該鏈接可以進入該文件的詳情頁面。
(5(略)中所有數(shù)據(jù)或查詢結果數(shù)據(jù)進行(略)類統(tǒng)計,使用柱狀圖、餅狀圖、折線圖等多種表現(xiàn)形式進行展示,支持對數(shù)據(jù)類別、(略)時間、專業(yè)類別等的統(tǒng)計(略)析。
五、指標要求
1.文檔文件支持(略)LS、T(略)T、PDF、DOC、WPS等格式。
2.驗證(略)組合檢索支持不少于5個關鍵詞的組合檢索,檢索時間響應≤3秒;檢索到的文本資源按照與檢索詞的匹配度進行排序。
3.支持GB級數(shù)據(jù)的存儲、處理和檢索。
4.驗證(略)采用B/S架構,應能流暢運(略)計算機上。
5.至少研究三種命名實體識別方法,并通過驗證(略)模塊的實例驗證,實現(xiàn)并優(yōu)化其中的一種方法。
6.所構建的知識圖譜實體和關系覆蓋率達到(略)%。
7.按照裝備、任務、部門進行(略)類,文本(略)類準確率和正確率均不小于(略)%。
8.技術報告應內容詳實,具備獨創(chuàng)性,查重率應低于(略)%。引用他人的研究結果需明確標注。
二、成果形式
1.“試驗數(shù)據(jù)文本信息(略)析技術研究”研究報告;
2.試驗數(shù)據(jù)文本信息(略)析驗證(略)(含數(shù)據(jù)錄入和摘要提取、實體識別和數(shù)據(jù)(略)類、全文檢索和統(tǒng)計(略)析三個模塊);
3.研究報告和驗證(略)需提交光盤1份,紙質報告一式3份。
三、資質要求
1.符合《中華人民共和國政府采購法》第二十二條資格
(1)具有獨立承擔民事責任的能力;
(2)具有良好的商業(yè)信譽和健全的財務會計制度;
(3)具有履行合同所必須的設備和專業(yè)技術能力;
(4)有依法繳納稅收和社會保障資金的良好記錄;
(5)三年內在經營活動中沒有重大違法記錄;
(6)法律、行政法規(guī)規(guī)定的其他條件。
2.具有獨立法人資格,非外資(含港澳臺)獨資企業(yè)或外資控股企業(yè);
3.(略)列入政府采購嚴重違法失信行為記錄名(略)軍隊采購暫停名單處罰范圍內或軍隊采購失信名單禁入處罰期和處罰范圍內;未被“信用中國”列入嚴重失信主體名單或國家(略)列入嚴重違法失信名單;
4.具備三級以上(含三級)保密資質。
四、(略)時間及(略)方式
8.1(略)時間:(略)年(略)月2日-(略)月6日(8:(略)-(略):(略)、(略):(略)-(略):(略),北京時間)
8.2(略)方式:聯(lián)系負責人進行(略)。
五、聯(lián)系人及聯(lián)系方式
地址:(略) 編:(略)
聯(lián)
系 人:(略)p>
電
話:(略)-(略),(略)
傳 真:(略)-(略)