大數據需要你的基本理解（一）

1/1

大數據需要你的基本理解（一）

來源：黃潔慧資深傳媒人、慧科大數據分析顧問 2021.03.08

在大數據中，應如何理解「熱度」及「受歡迎」呢？

首先得明白，這兩個是不同的概念。「熱議」是中性指標，純粹反映關注和討論程度 – 對了，你留意到了，「關注」和「討論」本身又是兩個概念：我把自己跟自家烹調的愛心牛扒照片，放上社交媒體，收穫了50個LIKE和70個心心，那些是「關注」，是社媒友好甲乙丙路過的一剎那表態，但「討論」牽涉內容，是當覺得有限表情符號不足以抒心中所想時，透過行動（留言）表達想法。這當中需要更多投入，也包含更多內涵。許多人只給LIKE不留言，同樣地，留言者亦不一定補上表情符號；還有第三類反應，以SHARE （分享）轉發帖文（連帶留言一同轉發），作為參與議論的方式。

回到上段最初：所以，「熱度」不只是多少LIKE、多少嬲嬲、多少心心的簡單數指頭，而是整體網上互動行為的反映；同時，基於投入程度的深淺不一，單純以1:1:1的比例去理解EMOJI、留言、分享這三種用戶，也顯然不準確。舉例說，明星A自拍性感照，收穫了1500 LIKE、150留言、50分享；高官B說了一句話，收穫了600 EMOJI、480留言、200分享；以互動總量計，明星A得數1700，高官B得數1280，難道說，明星A的「性感照」，比高官B的言論更熱議、更惹火嗎？顯然不能這樣比較。以學術語言說，明星性感照引起更多的EMOJI反應，只屬「weak ties」，投入程度不及花時間打幾行留言。

這就是為甚麼計算「熱度」時，不能只簡單把互動量加上，否則數據所反映的意義必有偏差，以之比較、指標用途，也必然有誤。解決方法，是由統計學專家根據過往數據，建立運算程式，以求更準確反映三種不同互動形式綜合呈現的熱議程度。

這就跟我們平日所理解的大數據不同了。我們許多人平日所理解的大數據，只是一堆原始數字，最大特色只是數量足夠多、足夠「大」而已。但這種理解實際上忽略了社交用戶不同行為的特質，及其背後反映的含義，有機會造成誤讀。說到這裡，我想起一個近期常見例子。

近年，數據新聞成為新興報道種類，這除了歸因於大數據應用漸次普及外，也因為有平台開放資源，讓編輯獲取數據更便利。其中一個常用數據，就是網絡熱搜次數。去年七月底，特區政府為應對疫情，實施全日禁堂食，引起熱議，有網民認為措施令打工仔很為難，戲言「要識光合作用先維到生」。有傳媒捉著相關留言，用「堂食」及「光合作用」到網絡搜索引擎查看，得出熱度急升的結論。

表面看，這結論很符合一般人的認知，事實上，我相信當天人人的社交平台都被禁堂食消息洗版。然而，當我翻查慧科大數據庫時，卻發現「禁堂食」是熱議話題沒錯，但「光合作用」卻沒有登上熱詞榜。這難道說其中一方數據有誤嗎？

並非如此，而是兩組數據所反映的層次，有所不同。網絡搜索引擎反映的是「搜尋」熱度，如果用家心中本來沒有相關概念、說法，或者沒有意識去了解相關話題，便不會用引擎搜索。慧科大數據計算的，是社交媒體上所有互動行為，用戶甲乙丙丁戊的社交媒體圈中，若有人主動提及「光合作用」，他們也討論幾句，便能從大數據庫中反映出來，但假如當中沒有人有「光合作用」的想法，或不認同、不關心這話題，不發帖，那麼，甲乙丙丁戊能留下「光合作用」的機會自然也減少。

換言之，網絡搜尋數據反映的，是一班有心人的熱議詞組，而慧科大數據反映的，是整體社媒用戶的熱議話題分佈。套用在全日禁堂食這話題中，反對措施的人，對「光合作用」這熱詞特別關注、特別敏感，但當天有更大比例的用戶，對「光合作用」的共鳴不高。

這樣的分析結果有何實際應用意義呢？有。假如當日有需要作公眾溝通，先了解一下大數據的熱詞結果，可更有效針對特定受眾，擬定合適、有效的溝通要點及用詞。正如著名政治分析家Frank Luntz的暢銷書《有效溝通》（”Words That Work）的副題所說：It’s not what you say, it’s what people hear（不是你說了甚麼，而是別人聽了甚麼），若要達到有效溝通，還是得靠那句二千幾年前的名言：「知己知彼」；社媒年代，人人表態唯恐怠慢落單，本造就了上佳「知彼」平台，但尚需深入理解社媒各種功能及平台特質，務求分析準確、減少偏差。

好了，一千幾百字還在談論「熱度」，那麼「受歡迎度」呢？兩者數據能互換嗎？若否，大數據又當如何詮釋「受歡迎度」？對於政商應用有何啟示？下次再談。

上一篇：數據決策「好」與「壞」的分界點

下一篇：無

ENGLISH

大數據需要你的基本理解（一）

來源：黃潔慧 資深傳媒人、慧科大數據分析顧問 2021.03.08

上一篇：數據決策「好」與「壞」的分界點

下一篇：無

來源：黃潔慧資深傳媒人、慧科大數據分析顧問 2021.03.08