比特幣行情 比特幣行情
Ctrl+D 比特幣行情
ads
首頁 > TUSD > Info

CRF:NLP 的命名實體識別 Jieba

Author:

Time:1900/1/1 0:00:00

本文主要來介紹NLP中的命名實體識別。命名實體識別與中文分詞、詞性標注一樣,也是NLP的一個基礎任務,是信息抽取、信息檢索、機器翻譯、問答系統等多種NLP技術不可或缺的一部分。其目的是:識別語料中的人名、地名、組織機構名等命名實體。

隨著命名實體數量的不斷增加,一般不可能在詞典中全部列出,由于命名實體的構成方法具有規律性,通常把對這些詞的識別在任務中進行獨立處理,稱之為命名實體識別。NER一般分為3大類和7小類。

1.中文命名實體識別的難點

各類命名實體的數量眾多。命名實體的構成規律復雜。比如人名的構成規則各有不同,中文人名識別又可以細分為中國人名識別、日本人名識別和音譯人名識別等;再比如機構名的組成方式,機構名的種類繁多,各有獨特的命名方式,用詞也相當廣泛,只有結尾用詞相對集中。嵌套情況復雜。一個命名實體經常和一些詞組合成一個嵌套的命名實體,人名中嵌套著地名,地名中也經常嵌套著人名。長度不確定。與其他類型的命名實體相比,長度和邊界難以確定,使得機構名更難識別。中國人名一般二到四字,常用地名一般二到四字,但是機構名長度變化范圍極大,少的只有兩個字簡稱,多的達到幾十個字的全稱。2命名實體識別方式

DeFi收益率市場Pendle集成Chainlink Automation以支持vePENDLE池投票:12月21日消息,DeFi收益率市場Pendle集成Chainlink Automation以支持vePENDLE池投票。Chainlink Automation可在達成指定條件(如特定資產到達特定價格)時自動喚醒智能合約。Pendle將借助Chainlink Automation觸發vePENDLE投票周期的最終投票。[2022/12/21 21:58:11]

中文分詞中,主要有基于規則方法、基于統計方法和基于二者的混合方法。命名實體識別主要也包含這三種方法。

基于規則的命名實體識別:規則加詞典是早期命名實體識別中最行之有效的方式。依賴手工規則,結合命名實體庫,對每條規則進行權重賦值,然后通過實體與規則的相符情況來進行類型判斷。基于統計的命名實體識別:與分詞類似,目前主流的基于統計的命名實體識別方法有:隱馬爾可夫模型、最大熵模型、條件隨機場等。其主要思想是:基于人工標注的語料,將命名實體識別任務作為序列標注問題來解決。基于混合的命名實體識別:NLP并不完全是一個隨機過程,單獨使用基于統計的方法使狀態搜索空間非常龐大,必須借助規則知識提前進行過濾修剪處理。目前幾乎沒有單純使用統計模型而不使用規則知識的命名實體識別系統,在很多情況下是使用混合方法,結合規則和統計方法。序列標注方式是目前命名實體識別中的主流方法,下面重點介紹基于CRF條件隨機場的方法。

Chainlink計劃今年推出Chainlink Staking v0.1版本:6月8日消息,Chainlink官方發文介紹Chainlink Staking的長期目標、路線圖和初步實施計劃。Chainlink表示,Staking的引入是一個關鍵時刻,標志著Chainlink Economics 2.0的發展,后者是Chainlink長期安全和網絡經濟的新時代。

Chainlink Staking的四個長期目標如下:增加Chainlink服務的加密經濟安全性和用戶保障;讓社區參與Chainlink網絡;從真正的長期使用中獲得可持續的回報(提供基本獎勵、合作伙伴成長計劃);讓節點運營者通過質押獲得更高價值的工作。

初步實施方面,Chainlink Staking將發展為多個版本,預計今年晚些時候將發布最初的v0.1版本。第一個版本的重點是引入聲譽框架和質押者警報系統。經過充分驗證后,v1版本將引入額外的功能,如份額罰沒(slashing)以增強加密經濟安全,并納入用戶費用作為獎勵。此外,v2版本將探索引入損失保護,以在受支持的預言機網絡偏離其鏈上服務級別協議(SLA)時幫助保護參與的發起人。[2022/6/8 4:09:34]

3基于CRF的命名實體識別

Unlock Venture Partners合伙人:大型元宇宙平臺將通過與初創公司合作來加速元宇宙發展規模:金色財經報道,Unlock Venture Partners合伙人Andy Liu在接受外媒Geekwire采訪時表示,元宇宙將成為物理世界與虛擬世界的交匯,它通過AR/VR、區塊鏈等技術,幫助人們主動去開發和體驗元宇宙中的沉浸世界,人們可以通過這種虛擬世界表達自己、建立聯系、互動、開展商業模式并體驗全新的現實。Unlock Venture Partners正在積極投資元宇宙等相關領域的初創公司。我認為,元宇宙市場存在大機遇,而這將需要敏銳的企業和豐富的資本去扶持。與普遍的看法相反,Unlock認為大型元宇宙平臺將通過與初創公司合作來加速元宇宙發展規模,包括合作開發新內容體驗、應用場景等等。此外,我認為未來還將出現其他的巨頭加入元宇宙市場。(36kr)[2022/2/15 9:51:22]

條件隨機場的主要思想來源于HMM,也是一種用來標記和切分序列化數據的統計模型。不同的是,條件隨機場是在給定觀察的標記序列下,計算整個標記序列的聯合概率,而HMM是在給定當前狀態下,定義下一個狀態的分布。

億萬富翁Barry Sternlicht:加密貨幣作為分散投資組合的一種方式是有意義的:10月15日消息,投資公司喜達屋資本首席執行官億萬富翁Barry Sternlicht在接受采訪時透露,他目前擁有BTC和ETH,并指出加密貨幣作為分散投資組合的一種方式是有意義的。在評論摩根大通CEO Jamie Dimon關于比特幣一文不值的言論時,他說道:“黃金也是一文不值的,我擁有比特幣的原因是因為美國政府在不斷地印發鈔票,而比特幣是數量有限的東西,并且可以在全球交易,是具有價值的。”(Bitcoin.com)[2021/10/15 20:31:00]

條件隨機場的定義為:假設X=(X1,X2,X3,…,Xn)和Y=(Y1,Y2,Y3,…,Ym)是聯合隨機變量,若隨機變量Y構成一個無向圖G=(V,E)表示的馬爾可夫模型,則其條件概率分布P(Y|X)稱為條件隨機場,即:

動態 | 區塊鏈研究公司AnChain指責Chainlink(LINK)操縱市場 先拉后砸:區塊鏈研究公司AnChain在其最新報告中指責2019年表現最佳的加密貨幣之一Chainlink(LINK)操縱市場,先拉高后砸盤(pump and dump)。AnChain首席執行官Victor Fang表示:“我們相信,我們的研究足以證明(LINK)在人為操縱市場。因為它僅涉及少數幾個地址,這些地址在短時間內占了非常不成比例的交易量,且這些交易受到各種形式的混淆和隱瞞,這些都是反常的市場活動。” CMC數據顯示,自五月初以來,LINK價格自0.5美元持續拉升,六月末突破價格4美元,但目前僅報1.8美元,自峰值已下降超50%。Anchain表示,當價格足夠高的時候,巨鯨地址開始出售他們的代幣,其中某個巨鯨地址在7月2日至7月15日期間售出了420萬LINK代幣。(CoinGape)[2019/9/11]

P(Yv|X,Yw,w≠v)=P(Yv|X,Yw,w~v)

其中w~v表示無向圖G=(V,E)中與結點v有邊連接的所有節點,w≠v表示結點v以外的所有節點。

例如:對句子“我來到陶家村”進行標注,正確標注后的結果為:我/O來/O到/O陶/B家/M村/E。采用線性鏈CRF來進行解決,那么是其一種標注序列,也是是其一種標注選擇,類似的可選擇的標注序列有很多,在NER任務中就是在這么多的可選標注序列中,找出最靠譜的作為句子的標注。

那么我們要解決的問題就是要判斷標注序列是否靠譜。就剛才的兩種標注方法,顯然第一種比第二種更為準確,因為第二種將“陶”和“家”都作為地名首字標成了“B”,一個地名兩個首字符,顯然不合理。假如給每個標注序列打分,分值代表標注序列的靠譜程度,越高代表越靠譜,那么可以定一個規則,若在標注中出現連續兩個“B”結構的標注序列,則給它低分。連續“B”結構打低分就對應一條特征函數。在CRF中,定義一個特征函數集合,然后使用這個特征函數集合為標注序列進行打分,據此選出最靠譜的標注序列,該序列的分值是通過特征函數集合得出的。

在CRF中有兩種特征函數,分別為:轉移函數tk(yi-1,yi,i)和狀態函數sl(yi,X,i)。tk(yi-1,yi,i)依賴于當前和前一個位置,表示從標注序列中位置i-1的標記yi-1轉移到位置i上的標記yi的概率。sl(yi,X,i)依賴當前位置,表示標記序列在位置i上為標記yi的概率。通常特征函數取值為1或0,表示符不符合該條規則約束。

4日期識別代碼示例

應用場景:

現有一個智能外呼系統,由機器人撥打電話給客戶,通知客戶新股中簽情況,客戶與機器人進行對話。對話機器人根據用戶的語音進行解析,發覺用戶的需求,比如:新股中簽的時間,新股買入的時間等。通過asr技術將用戶的語音轉換成中文文本,然后由于asr的識別準確度問題,許多日期類的數據并不是嚴格的數字,比如會出現“十一月12日”“2019年11月”“20191112”“后天下午”等形式。

現在的需求是識別出每個請求文本中可能的日期信息,并將其轉換成統一的格式進行輸出。比如:“我打算今天或明天買入新股”,那么通過日期解析后,應該輸出為“2019-11-12”和“2019-11-13”。

通過結果分析可以看到,text1text2text3text4結果還是相對較好的,對于text5這種規則覆蓋之外的場景,方法效果大大降低。

作者:KevinTao

知乎號:Kevin陶民澤

備注:轉載請注明出處。

如發現錯誤,歡迎留言指正。

Tags:CRFNLPNERCRF幣CRF價格NLP價格NLP幣NER價格NER幣

TUSD
比特幣:谷歌量子計算機Sycamor問世,2秒可挖光區塊鏈網絡現有的比特幣?

目前只有不到300萬比特幣(BTC)有待開采,開采過程預計需要121年左右。然而,一些人聲稱谷歌的量子計算機Sycamore可以在“不到2秒”的時間內完成這項工作.

1900/1/1 0:00:00
金字塔:把73億人塞到一棟樓里面,會發生什么?

在所有的問題中我們都涉及到了但從來沒有討論過的一點是:你需要多大的建筑才能把所有的人裝下? 紐約可以容納地球上全部73億人口大家在這兒感覺是怎樣的?emmmm...就像是這樣: 很好.

1900/1/1 0:00:00
SME:誰搶走了微博的廣告收入?

來源:億歐網 2月26美股盤前,微博發布了2019年第四季度財報。營收和利潤均出現了負增長。財報之后,微博股價盤前一度大跌10%以上,但開盤后一度翻紅,最后收盤下跌-4.59%至41.39美元.

1900/1/1 0:00:00
比特幣:中國四大忽悠天王

"走兩步!走兩步!沒病走兩步!"當腦袋大脖子粗的廚師"范偉",遇到大忽悠"趙本山",結局可想而知。原本一雙好腿,逃不過"忽悠",第一年買拐,"謝謝啊"。第二年買輪椅,"緣分吶".

1900/1/1 0:00:00
TAS:普京稱維基百科不靠譜 將斥資2.2億人民幣打造俄版百科全書

援引路透社報道,在弗拉基米爾·普京表示維基百科不可靠之后,俄羅斯計劃建立一個國家級的在線百科全書網站.

1900/1/1 0:00:00
BTS:BTSE將于3月在Blockstream Liquid網絡上發行第一個平臺幣

BTSE是一家利用比特幣和加密貨幣技術開發現實世界金融產品和服務的領先金融技術公司。BTSE于今日宣布其將在Blockstream的Liquid網絡上發行BTSE交易所代幣,并于2020年3月5.

1900/1/1 0:00:00
ads