數據決策「好」與「壞」的分界點

1/1

數據決策「好」與「壞」的分界點

來源：趙竟辛博士慧科數據科學家 2021.02.12

在這個資訊密集的時代，觀眾的注意力分散而有限，公關需要勤懇小心地打造維護品牌形象，市場需要投入大量人力物力進行營銷活動，那麼，每日發佈10條帖文，是否就算努力？還是需要加倍到20條？每日獲得1000個like，是否就算成功？還是要達到1001個才算及格？今天我們就從統計學的角度來看一下，這個「好」與「壞」的分界點，為何就落在了那個特別的數字上。

首先，我們要想清楚我們是想要和什麼做比較。是過去的自己，看看自己品牌的熱度最近表現是否有提高；還是在同一時期，自己的營銷活動在同業中是否亮眼？在這兩種不同的情況下，我們需要使用的方法就不同。

如果是與自身歷史表現做比較，那麼我們就需要收集到一組按照時間發生先後順序進行排列的數據點序列 --- 時間序列。比如，一個月內每一天的品牌聲量，按時間順序排列，就是時間序列。關於這個時間序列，我們可以想像到每日的數字都會上上下下變化，就如同股票價格一樣。從這個時間序列中，也會產生許多疑問，比如某一日的聲量的提高，是真的提高嗎？還是只是簡單的浮動？如果不能這樣簡單與前一天的數據做比較，那麼今天的品牌聲量，究竟要和哪一天的做比較？在計量經濟學中，有許多針對時間序列的的研究方法，其中一個簡單的來量度整體表現的工具，就是移動平均數。

一個簡單移動平均數就是前n個數據的平均數。例如，7日移動平均數，就是前7天的聲量的平均值，當計算下一天的移動平均的時候，就要加入今天新值，剔除第一個舊值。簡單來看，移動平均就是把數據變得光滑，從而可以看到這個時間序列的整體趨勢。得到了整體趨勢，我們就可以判斷今天的聲量，是否是有結構性的提高。這個移動平均數，就是一種有效的「好」、「壞」的分界點。

依然以品牌聲量為例，如果是想要了解自己在同業中的表現，我們就需要從另一個角度看待這個問題。在這個同一時間公平競爭的背景下，我們會自然假定各個品牌的聲量是獨立的。接下來我們將所有品牌的聲量放在一起，那麼我們能夠用一個「概率分佈」來描述它，從而在其中找到我們的位置。提起「概率分佈」，我們最常聽到的就是「正態分佈」。「正態分佈」的平均值和標準差都可以很容易地得到估計，同時，「正態分佈」也是一個非常理想的分佈。它以平均值為對稱軸，而且大部分人集中在中間位置，在「正態分佈」中，只有不到1%的數據會比平均值大3個或以上的標準差。也就是說，如果我們品牌的聲量，超過了平均值3個標準差，就意味著我們我品牌聲量位於top 1%的水平。反過來說，如果我們自己定義top 1%才算好，那我們的品牌聲量，要超過行業平均值3個標準差。這個超過行業平均值3個標準差的數字，就是我們想要找到的「好」與「壞」的分界點。

上一篇：站在大數據巨人肩膀上洞察民意：慧科的「人工智能文本分析技術」

下一篇：大數據需要你的基本理解（一）

但是，現實世界的聲量分佈，真的是「正態分佈」嗎？慧科大數據研究團隊收集了近三年香港社交媒體的數據，發現這個世界遠遠不是那麼「理想」。無論是從聲量的維度，還是互動量粉絲數等其它維度，都呈現為「指數分佈」甚至更廣泛的「GAMMA分佈」。這兩種分佈的主要表現為極度不對稱，重尾現像嚴重。此時，如果還是簡單地用「正態分佈」的方法估計整個行業的平均值和標準差，很有可能得到錯誤的判斷。因此，想要找到真正的「好」、「壞」分界點，就要深入研究所考察的數據的真實「概率分佈」。

慧科WiseInfluencer 的KOL排行榜中的Wisers Indices, 就充分地研究了香港社交媒體中的近三萬KOL賬號，發現「GAMMA分佈」更能準確地描述各個維度上的所有KOL的數據，並據此計算出Wisers Indices分數，穩定正確地對該時期內KOL的綜合表現進行評價。

ENGLISH

數據決策「好」與「壞」的分界點

來源：趙竟辛博士 慧科數據科學家 2021.02.12

來源：趙竟辛博士慧科數據科學家 2021.02.12