top of page

​中文sample

來源:梁冠卿博士 慧科AI實驗室高級研究員    2021.01.12

新冠疫情爆發至今,香港市民由經歷天價搶口罩到供應過剩、口罩泛濫,假期選擇由Vacation變為Staycation ;疲於應對疫情的政府,亦先後推出多種防疫抗疫措施。然而,在資訊爆炸的網絡年代,我們如何準確地掌握市民需要甚麼?政府如何了解不同措施中哪些獲好評更多、哪些抵觸情緒嚴重?

網上社交平台(如Facebook, Instagram等)的盛行,成了市民獲取資訊、交流意見的主要渠道,每天有數以萬計的用戶帖文和數以百萬計的網上留言、點贊,構成了當下的熱議話題和討論內容也讓我們可以站在大數據這巨人的肩膀上,更精確地洞悉民意。

但這個巨人肩膊卻毫不簡單。網上帖文、留言數據一般為非結構化的文本數據,因此是無法直接被電腦解讀的,必須透過對非結構化的文本數據進行分類、信息抽取等處理,才能夠進行深層次的統計分析。讓我們以「關鍵詞」解讀作為例子解釋。

傳統的文本處理技術大部分是基於關鍵詞,研究人員需預先設定一些關鍵詞,然後對文本進行關鍵詞匹配。但若把這種傳統方式應用於大數據分析,卻面對三大缺點:1)無法識別新的表達樣式,例如新的俚語和名詞等,導致準確率日益下降; 2)無法處理複雜的語言語法邏輯; 3)只能處理提前預設的關鍵詞,一方面成本高,另一方面只能找到分析師已經能想到的東西,而無法發現一些隱藏在大數據中的無法預先設定的洞察和模式。大數據研究必須克服以上挑戰,才能突破關鍵詞研究技術的局限。而答案,就是基於神經網絡的智能文本分析技術,從而大大提升模型的表示能力和泛化能力。

這種嶄新的「人工智能文本分析技術」 ,包含不同的技術,以下我們分享四個有代表性的技術:情感分析,命名實體識別,文本分類和熱詞發現。

情感分析 「情感分析」是指透過人工智能系統,自動識別文本所表達的情緒,並將之分為正面、負面和中性三種類型或者正面、負面兩種類型。由於社交媒體的文本夾雜著不同的語言(口語/英文/中文)和不同的表達方式(表情/俚語/hashtag),要準確辨識情感難度不低。舉例說:「跟團好chur」這句的情感,是正面還是負面?「大大力懲罰」的情感,又是正面還是負面?如果簡單從字面意思去判斷,「跟團好chur」”應該是正面,而「大大力懲罰」因包含「懲罰」這個負面詞語,而會判斷為負面情緒。真實的情況卻剛好相反。「跟團好chur」裡「chur」在粵語中,代表「很緊密、很趕緊」,帶有辛苦的意思,所以表達的情緒是負面。而「大大力懲罰」卻是源於香港近年政情的一個新興網絡用語,真正意思,是鼓勵大家去店鋪大力消費,是偏正面的情緒。要達到準確辨識文本的情感,分析系統必須通過先進的「預訓練」和「弱監督」的機器學習方法,再研發出情感分析模型。慧科專有技術在判斷文章整體情感傾向之外,亦支持基於主體的情感分析。主體情感是指文章裡面提及某個公司或者產品的情感,因為一篇文章可能提及很多公司或者產品,而這些公司的情感會不一樣。借力於情感分析,我們可以實時監測話題(防疫措施、財政預算等)的正/負面情緒和發展動態。

命名實體識別 傳統關鍵字分析有三大弱點;「命名實體識別技術」則可以無需提前設定關鍵字,利用人工智能技術,自動識別文本中出現的公司名/機構名、人名、職位、時間、地點、品牌、產品及各種自定義實體資訊。方法是建立結合了具有複雜語言學特徵的深度學習模型,然後,透過以反饋為本的在線學習機制,持續提升模型準確率。「命名實體識別技術」有助系統以自動發現熱議的公司、機構、品牌和產品等,支持突發事件預警、品牌危機跟蹤。

文本分類「 文本分類」是指依據文本內容,自動打上相應的標籤。標籤的分類體系可以是新聞版塊類別(如財經、體育、科技等)、行業類別(如汽車、奢侈品、飲食等)或者各種定製的分類體系。我們的數據庫包含了多年來數量達幾億的新聞和社交媒體數據,技術研究人員采用深度學習,訓練出一個包含有超過1300萬詞條的超大中文語意向量模型,並在此基礎上,研發了基於語意向量模型與深度學習相結合的「半監督學習」文本分類技術。借助文本分類技術,我們可以分析不同行業的聲量分佈和討論熱度。

熱詞發現 「熱詞發現」是指從大量的文本中,抽取出高頻出現的詞語。由於社交媒體的留言夾雜著不同的語言和表達方式,傳統的中文分詞技術會導致錯誤的詞語切分,例如「堅離地」會被切分成「堅離」和「地」。為此,我們研發了一個全新已申請專利的「新詞熱詞發現技術」,可以自動從文本中抽取出置信度高的詞語。利用熱詞發現技術,我們可以自動發掘最近網絡流行的潮語和分析留言的關鍵詞。

8.jpg
圖一  用文本分析技術去解構 社交媒體留言

最後,我們舉一個例子來展示如何從非結構化的文本數據,通過文本分析技術處理之後變得結「構化」。如圖一所示,假如現在網上出現了一則關於口罩的評論:「Z公司d 口罩真系貴到堅離地,尤其X123!」 利用「命名實體識別技術」,系統可以自動識別當中提及的公司名(Z公司)以及產品名(X123);經過「文本分類」後,我們得到「健康」這個行業標籤,最後經過「情感分析處理」後,我們得到負面情感標籤。

得到結構化標籤後,我們便可從大數據中,進行深層次的統計分析和對比分析,例如是分析在「健康」這個話題下,哪些產品/公司的好評最多;同一公司不同的產品的好評率等等。一個真實例子是,在慧科發表的《慧科疫情指數研究報告》中,我們的分析團隊利用大數據和文本智能技術,分析政府抗疫措施相關帖文和留言,發現衞⽣防護中心記者會在9項抗疫措施中最受網民認同,正面評價達29.6%,而衞生防護中心傳染病處主任張竹君亦成為最受網民歡迎的政府官員。相反,令網民最不滿的抗疫措施是政府派發免費口罩,負面評價達69.4%。⼤數據亦顯⽰網民對於口罩⽣產商的招標和口罩物料以及設計都頗為關注。

借助大數據以及先進的文本分析技術,我們可以真正做到數據見真知,從而實現更精準更實時的民意聆聽。 在這個幾乎人人是社媒用戶的年代,大數據分析是探知民意必不可少的工具。

 僅包括香港地區
bottom of page