結(jié)合GAN與BiLSTM-Attention-CRF的領(lǐng)域命名實(shí)體識(shí)別

作者:張晗; 郭淵博; 李濤 戰(zhàn)略支援部隊(duì)信息工程大學(xué)密碼工程學(xué)院; 鄭州450001; 鄭州大學(xué)軟件學(xué)院; 鄭州450001

摘要:領(lǐng)域內(nèi)命名實(shí)體識(shí)別通常面臨領(lǐng)域內(nèi)標(biāo)注數(shù)據(jù)缺乏以及由于實(shí)體名稱(chēng)多樣性導(dǎo)致的同一文檔中實(shí)體標(biāo)注不一致等問(wèn)題.針對(duì)以上問(wèn)題,利用生成式對(duì)抗網(wǎng)絡(luò)(generative adversarial network, GAN)可以生成數(shù)據(jù)的特點(diǎn),將生成式對(duì)抗網(wǎng)絡(luò)與BiLSTM-Attention-CRF模型相結(jié)合.首先以BiLSTM-Attention作為生成式對(duì)抗網(wǎng)絡(luò)的生成器模型,以CNN作為判別器模型,從眾包標(biāo)注數(shù)據(jù)集中整合出與專(zhuān)家標(biāo)注數(shù)據(jù)分布一致的正樣本標(biāo)注數(shù)據(jù)來(lái)解決領(lǐng)域內(nèi)標(biāo)注數(shù)據(jù)缺乏的問(wèn)題;然后通過(guò)在BiLSTM-Attention-CRF模型中引入文檔層面的全局向量,計(jì)算每個(gè)單詞與該全局向量的關(guān)系得出其新的特征表示以解決由于實(shí)體名稱(chēng)多樣化造成的同一文檔中實(shí)體標(biāo)注不一致問(wèn)題;最后,在基于信息安全領(lǐng)域眾包標(biāo)注數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,該模型在各項(xiàng)指標(biāo)上顯著優(yōu)于同類(lèi)其他模型方法.

注:因版權(quán)方要求,不能公開(kāi)全文,如需全文,請(qǐng)咨詢(xún)雜志社

計(jì)算機(jī)研究與發(fā)展

北大期刊 下單

國(guó)際刊號(hào):1000-1239

國(guó)內(nèi)刊號(hào):11-1777/TP

雜志詳情
相關(guān)熱門(mén)期刊

服務(wù)介紹LITERATURE

正規(guī)發(fā)表流程 全程指導(dǎo)

多年專(zhuān)注期刊服務(wù),熟悉發(fā)表政策,投稿全程指導(dǎo)。因?yàn)閷?zhuān)注所以專(zhuān)業(yè)。

保障正刊 雙刊號(hào)

推薦期刊保障正刊,評(píng)職認(rèn)可,企業(yè)資質(zhì)合規(guī)可查。

用戶(hù)信息嚴(yán)格保密

誠(chéng)信服務(wù),簽訂協(xié)議,嚴(yán)格保密用戶(hù)信息,提供正規(guī)票據(jù)。

不成功可退款

如果發(fā)表不成功可退款或轉(zhuǎn)刊。資金受第三方支付寶監(jiān)管,安全放心。