Fork me on GitHub

為什么單身小姐姐在微信群更活躍?數據分析告訴你

前言

相信大部分人的微信里面總會有那么幾個微信群,有的是被迫被拉進去的,也有自己主動加的一些群。這些微信群中不乏有一些特別活躍的群,每天能產生大量的聊天數據,少則幾百條,多則上千上萬條。對于一些感興趣的群,我們常常希望能夠從中學到東西,或是參與到話題當中。在聊天內容比較少的時候還好,我們能夠清楚的閱讀聊天記錄,知道所聊的話題,可一旦聊天內容倍增的時候,尤其是成千上萬條消息的時候,我們經常就會放棄閱讀了,因為太多了,人根本沒那個耐心閱讀幾千甚至幾萬條消息內容的。那有沒有一個簡單的辦法可以對聊天數據進行分析呢?

作為一個數據分析愛好者,這點肯定是難不倒我的。本文針對微信群聊內容展開分析,深度挖掘聊天記錄數據背后的故事,想知道群里的意見領袖是誰嗎?想知道群什么時候更活躍嗎?想知道這一天天的上萬條記錄聊最多的關鍵詞是什么嗎?本文將針對這一系列的問題給出解答。

如何獲取數據

獲取數據采取兩種辦法,會使用到以下的工具:

  • iTunes(IOS):數據備份;
  • iPhone backup Extractor:讀取備份,導出sqlite數據庫;
  • DB Browser for SQLite:讀取聊天記錄數據庫;
  • 微信管理大師:直接讀取備份導出聊天記錄;

準備好工具之后依次進行以下步驟:

  • 將iPhone連接至Mac,然后打開iTunes,備份iPhone,請勿勾選加密,因為加密之后無法打開備份文件;
  • 打開iPhone backup Extractor,讀取剛剛的備份,然后點擊Expert Mode,找到路徑:Applications/com.tencent.xin/Doucuments/{md5(你的微信號)}/DB/MM.sqlite,這個就是微信的本地聊天數據庫,然后將這個數據庫導出;
  • 使用DB Browser for SQLite打開數據庫文件,然后找到聊天記錄,可直接導出txt或者csv即可,見下圖,到這里為止,獲取數據就完成了。

eA0ZJx.png

如果以上的步驟覺得很煩人且沒有一定技術能力的話,推薦使用微信管理大師,它可直接讀取iTunes的備份數據,并輕松導出微信群聊天記錄。

開始數據分析

在拿到了數據之后我們就可以開始分析了,本文我將以一個民謠歌手——花粥的線下演出群聊內容來進行分析,這種群有意思的地方在于,演出時間是7月9日,在演出前一天我主動加進了這個群,主要也是希望了解到更多關于livehouse的資訊,已經現場是否有什么福利。下文會詳細敘述分析的數據維度,主要通過tableau與python來進行數據分析。

群聊每日活躍度趨勢

從演出前一天到截止今天,有差不多半個月的時間,通過分析,我發現總的聊天數量會逐步下降,在演出日期前后會出現高潮,然后逐漸降低。另外,周末也是一個低谷,一般周一到周三群聊更為活躍。

eA0kw9.png

成員內容條數排名

將每個成員所聊天的內容進行匯總,然后進行排名。通過排名可以得到一個數據:誰是這個群里最活躍的人?通過分析,我們發現,單身的小姐姐在微信群特別活躍,具體原因可能多種多樣,但經過我縝密的分析,答案只有一個:當一個漂亮小姐姐在群里發言時(漂不漂亮誰知道),更容易得到異性的附和(舔狗),從而小姐姐更加有了一種歸屬感,這也是為什么我分析了多個聊天群之后,發現非常活躍的微信群一定有一個特質,那就是群里面有小姐姐。而單身則更具備吸引力,人類本身也是動物,潛意識會有求偶的趨勢,所以當異性在群里發言時,更容易得到回復。

eA0PL4.png

我們平常有聽到一種效應叫馬太效應,其實在微信群也是這樣的,這個群總共132人左右(中途有人退群有人進群),產生的總聊天數量為23961條,而通過數據分析我們可以得出,前10名的聊天內容總共占比為66.7%,也就是說,一個活躍的群,其實有10個人,就能夠撐起一片天了。

活躍時段分析

為什么要分析時段,通過時段分析可以得出活躍的一類成員的工作狀態,正常來講,如果說工作時間壓力很大的話,是沒有機會在群里活躍的。通過分析得知:活躍度非常高的這一類成員可能不需要固定工作,這也就意味著他們可能還在學校,正處在放暑假的時候。

eA0VF1.png

但是當我看到數據的時候我還是很詫異,為什么聊天的高峰期出現在上午的11點與下午的15點?難道是學校這個時候不管了?還是別的原因?

群聊類型分析

分析下現在的年輕人主要都發啥(表情包,文字,語音,視頻,圖片),通過分析可知,大部分內容還是以文本為主,除了文本最多的就是微信表情了。

eA09QU.png

成員性別分析

通過python itchat庫獲取指定群聊成員性別,通過分析,發現群內男女比例相對平衡,也側面說明,喜歡民謠的文藝女青年還是有一定的比例。群內的性別分布見下圖:

eA0SzT.png

成員簽名詞云分析

個人簽名一般代表著一個人對美好事物的向往,或者是自身特性的一些表現,我抓取了所有群成員的個人簽名,并生成了詞云,見下圖:

eA0FeJ.png

從圖中可以看出,喜歡民謠的人大多數都希望做一個努力的人,性格善良,有趣,快樂。

關鍵詞分析

最后分析下群聊關鍵詞,這部分在分析的時候做了關鍵詞處理,首先將微信表情去掉了,因為所有微信表情在聊天系統中存的就是[微信表情]四個字,保留會影響詞云的準確性。

eA0AoR.png

通過上圖的分析,我們能夠看到,現在的年輕人很喜歡用”哈哈哈哈哈哈“,估計過幾年哈哈也會不如”呵呵“的后塵,哈哈。

總結

本文通過獲取數據,處理數據,分析數據三步流程對微信群聊做了分析,其實一開始的本意也就是分析這玩玩,后來越分析越覺得這件事兒比較好玩,有意思,于是就有了本文。

文章中有些代碼也是直接參考了其它作者的代碼,所以也就沒貼出來了。我覺得數據分析有意思的地方就是能夠通過數據看到數據背后鮮活的人,再跟數據一對比,會顯得他們很可愛。

微信群聊分析的緯度還很多,本文也只選取了其中幾個緯度來進行分析,實際上能夠挖掘的信息很多,比如如果通過聊天記錄分析出股票微信群里誰是托?可能還有很多緯度暫時我也沒能夠想起來,后續想起來再寫。

參考資料

  1. 微信聊天記錄分析,Python 之 WorldCloud
  2. python wordcloud詞云
  3. 使用python獲取X信群聊信息并進行分析
  4. 基于python的itchat模塊進行分析群組成員的信息
任三胆拖