
YouTube社群數據大解密
影片流行度關鍵因素分析與預測模型評估
工作代號:ZU
姓名:1091618 施羿亘
1091619 王子珊
1091630 黃沛萱
輔導老師:楊錦生
研究方法

-
API爬蟲
-
資料處理
-
統計分析
-
機器學習
-
敏感度分析
API爬蟲
需先至Google Cloud建立一個專案,並且新增一個Youtube API憑證,在日後爬取資料均需使用到。

圖.申請API
下列為使用Youtube API時會用到的參數:
-
part: 這是一個必需的參數,指定 API 應該返回哪些部分的數據。
-
snippet: 包含有關資源的基本信息,如標題、描述、發布時間等。這通常是使用 API 時最常用的部分。
-
contentDetails: 包含有關資源內容的詳細信息,如視頻的持續時間、播放列表的內容等。
-
statistics: 包含有關資源的統計信息,如觀看次數、喜歡數、不喜歡數等。
-
status: 包含有關資源的狀態信息,如是否被刪除、是否被封鎖等。
-
id: 用於指定 YouTube 資源的唯一識別符。可以是視頻、頻道或播放列表的 ID。
-
maxResults: 限制 API 返回的結果數量。
-
pageToken: 如果结果集很大,可以使用pageToken参数进行分页。在请求的下一批结果时,将上一次请求返回的nextPageToken作为pageToken的值传递。
-
type: 用於指定返回的資源類型,如視頻、頻道或播放列表。
-
order: 用於指定返回結果的排序順序,如按照日期、相關性等。
這些只是一些基本的參數示例,實際使用時,可以根據自身需求組合不同的參數,以便達成想要的結果。
使用API抓取頻道內容以便日後作資料處理

圖.API抓取頻道內容
下列為我們在六大主題內挑選了五個不同頻道的資訊:
_edited.jpg)
.png)
.png)
使用API抓取影片及留言資訊並儲存成Json以便日後作資料處理

圖. API抓取影片內容

圖. API抓取留言內容
資料處理
使用API抓取影片及留言資訊並儲存成Json以便日後作資料處理

.png)
統計分析
針對連續值和類別值的分群統計我們分別使用了敘述統計、卡方檢定、ANOVA檢定來進行分析。
1.敘述統計與ANOVA分析連續值
在進行統計分析時,首先利用連續值敘述統計方法(如平均值、標準差、中位數等),深入描述單一連續數據集的中心趨勢和變異情況。接著,若有多個組別,可透過ANOVA(變異數分析)來比較組別間的平均值是否存在統計上的差異,並評估不同因素對這些差異的影響。最後,針對結果進行解釋,以全面了解數據特性並辨別可能存在的組別差異。這樣的統計分析流程有助於深入挖掘數據的含義並作出相應的推斷。結合敘述統計和ANOVA的結果提供了對數據更全面的理解,特別是針對中心趨勢和組別之間的差異。以下是對上述結合洞察的進一步說明:
-
全面了解中心趨勢:
敘述統計通過提供平均值、標準差等統計量,深入描述了數據的中心趨勢。這有助於我們了解整體數據的典型值和變異情況。
-
差異的意義:
敘述統計和ANOVA的結合分析有助於評估組別之間的差異是否具有統計學上的意義。如果ANOVA顯示差異是顯著的,這可能表示這些組別之間的差異不僅僅是隨機波動引起的,而可能反映了真實的差異。
-
連續值的變異性:
當敘述統計顯示單一連續數據集有較大的變異性時,這可能表明該連續值在整體上具有多樣性。而如果ANOVA進一步指出組別之間存在差異,這暗示這種多樣性在不同組別之間有顯著變化,可能代表了重要的特徵。
-
有意義的特徵:
當組別之間的差異被證明是有意義的時,這可以提醒我們該連續值可能是解釋數據變異的一個重要特徵。這對於進一步的解釋和理解數據中不同組別之間的差異至關重要。
總體而言,結合敘述統計和ANOVA分析的洞察提供了更深入、更全面的數據理解,有助於確定數據中存在的模式和趨勢。這樣的綜合分析不僅支援統計上的推斷,還能夠指導進一步的研究方向和制定相應的決策。
根據表八 顯著程度數值,將Anova分析數值做顯著程度的劃分以下表 .教育類別頻道連續值描述分析 為例將顯著程度做劃分後計算出顯著比例,方便我們觀察在頻道中顯著比例以分析出屬性的顯著與否。
.png)
根據表九 教育類別頻道的連續值描述分析數據,我們可以得出以下觀察:
在顯著比例(介於0.8至1)有8個數據點;在不顯著比例(介於0.3至0.8),有3個數據點;在不顯著比例(小於0.3)方面,有3個數據點。顯著的變數包括:duration(影片時長)、likeCount(讚數)、commentCount(評論數)、Number of Tags(標籤數量)、CVAW_average(平均視覺注意權重)、CVAW_max(最大視覺注意權重)、CVAW_min(最小視覺注意權重)、title_length(標題長度)。這些變數可能會影響頻道的點閱數。
這樣的分析提供了對這些變數的洞察,進一步指導我們理解教育類別頻道的影片特性,並有助於制定相應的內容策略,以提高觀眾吸引力和點閱數。這種結合描述統計的方法為充分了解不同變數之間的關係提供了有價值的信息。
.png)
2.敘述統計與卡方檢定分析類別值
在統計學中,統計敘述與卡方檢定分別擁有不同功能。敘述統計利用平均值、標準差等統計量,旨在描述和總結數據的基本特徵,包括中心趨勢和分散度。卡方檢定則是一種統計檢定方法,專 注於評估觀察值與期望值之間的差異,特別適用於分類數據分析,包刮卡方獨立性檢定和卡方式和度檢定。兩者在統計分析中各司其職,敘述統計用於數據描述,卡方檢定則用於檢驗統計上的差異,以支援不同的分析目的和階段。
結合敘述統計和卡方檢定,我們可以更全面地了解教育類別頻道的影片特性和類別變數之間的關聯。敘述統計提供了有關連續變數的基本描述,而卡方檢定則揭示了類別變數之間的相依性。
首先,透過敘述統計,我們深入了解了連續變數(如影片的時長、讚數、評論數、標籤數量、平均視覺注意權重、最大視覺注意權重、最小視覺注意權重和標題長度)的中心趨勢和變異情況。這些數據提供了對這些特徵的整體了解。
接著,卡方檢定則展示了在教育類別頻道中的類別變數之間是否存在統計上的差異。具體來說,結果表明了在類別變數中的某些比例之間存在顯著的差異,可能涉及到與教育主題相關的特定類別。
結合這兩者,我們能夠更深入地理解不同教育頻道影片的特性,以及這些特性如何與類別變數相關聯。這有助於制定更精準的內容策略,提高 觀眾吸引力,並優化YouTube頻道的表現。这种綜合的數據分析方法為提煉實際洞察和制定相應策略提供了更全面的基礎。
根據上述表 顯著程度數值,將卡方分析數值做顯著程度的劃分以下表 .教育類別頻道類別值描述分析 為例將顯著程度做劃分後計算出顯著比例,方便我們觀察在頻道中顯著比例以分析出屬性的顯著與否。
根據對教育類別頻道的連續值描述分析,我們可以得出以下觀察:
-
顯著比例分析:
在顯著比例(介於0.8至1)方面,有8個數據點,表明這些數據點在該區間具有較高的值。這可能指示了某些特定的變數在這些教育頻道的影片中呈現較高水平的趨勢。這些變數可能是影片的重要特徵,對於影片的表現具有顯著影響。
-
不顯著比例分析:
在不顯著比例(介於0.3至0.8)方面,有3個數據點。這可能表明一些變數在這些影片中呈現中等水平的趨勢,對於這些頻道來說,這些特徵可能不是主要的影響因素。
-
不顯著比例(小於0.3):
在不顯著比例小於0.3的情況下,有3個數據點。這可能顯示某些變數在這些頻道的影片中呈現較低水平的趨勢,並且這些特徵對於影片的表現不是那麼重要。
-
顯著變數:
根據描述,顯著的變數包括 weekday 和 day_night。這表示這兩個變數在教育頻道的影片中可能具有明顯的影響,並可能是該類別影片的重要特徵。
總體而言,這樣的連續值描述分析提供了對教育類別頻道影片特性的深入洞察,並且有助於理解不同變數對於影片成功的貢獻。這將有助於優化影片內容,提高觀眾參與度,並制定更有效的內容策略。
_edited.jpg)
機器學習
我們將資料整理後,使用機器學習模型去分析。使用Weka進行數據分析時,我們首先需要確保我們的數據集已經被載入。Weka支持多種數據格式,此專題數據整理後使用CSV。一旦數據載入完成,我們可以使用Weka的圖形用戶界面(GUI)來執行不同的機器學習算法,以獲取有關數據的洞察和模型的預測。使用六個類別頻道的數據集,以建立預測模型進行分析:
1. J48
Weka中實現的C4.5決策樹算法的一部分。它通過將數據分割成不同的子集,以生成一個樹形結構,用於進行分類。每個節點都代表一個屬性測試,每個葉子節點代表一個類別。
2. Random forest
隨機森林是一種集成多個決策樹的方法。它通過在訓練過程中引入隨機性,例如隨機選擇特徵和樣本,以提高模型的泛化能力。最後,多個決策樹的投票結果用於進行最終的預測。
3. NaïveBayes
Naïve Bayes基於貝葉斯定理,假設特徵之間獨立。儘管這是一個簡化的假設,但Naïve Bayes在文本分類、垃圾郵件檢測等應用中表現出色。它適用於高維度的數據集,並且計算效率高。
4. Logistic
Logistic迴歸是一種線性模型,用於二元分類。它通過使用logistic函數將線性輸入映射到0和1之間,以表示屬於某一類的概率。Logistic迴歸在理解和解釋模型方面具有優勢,並且對於線性可分的問題表現良好。
5. SMO
SMO是一種用於訓練支持向量機(SVM)的優化算法。SVM旨在找到在特徵空間中具有最大邊界的超平面,以區分不同類別的數據點。SMO通常用於處理高維度數據和非線性分類問題。
這些算法都有各自的優勢和應用場景,選擇哪一種取決於數據的特性、任務的要求以及算法的性能。在實際應用中,通常需要嘗試多種算法,然後根據效果和需求進行調整和選擇。
表十一 機器學習模型比較的欄位意義:
-
Accuracy
這表示模型在測試數據中正確分類的比例。一般來說,我們希望這個指標越高越好,因為它表示模型的整體預測精度。
-
F-Measure
F-Measure 是一種綜合考慮了模型的精確度和召回率的度量。這個值越高越好,表示模型在正確識別正類和避免錯誤地將負類樣本分為正類方面表現較好。
-
ROC Area
ROC Area 是接收者操作特徵曲線(Receiver Operating Characteristic Curve)下的面積,用於評估二元分類模型的性能。ROC Area的取值範圍在0到1之間,越接近1表示模型性能越好。
所以根據表一 機器學習模型比較表中,可以觀察到此專題的數據集在Random Forest的模型中有較好的預測表現。
以下為各類型頻道的Random Forest的數據:
(紅色字體為該類別中欄位最大的值、底線字體為該類別中欄位最小的值)
_edited.jpg)
_edited.jpg)
_edited.jpg)
_edited.jpg)
根據上述的數據可以觀察到教育類別頻道的平均準確率最高,所以下面的敘述我們將根據表十三 教育類別Random Forest數據來做敘述分析。
透過對YouTube數據的Random Forest分析,我們觀察到模型在不同測試數據集上有不同的表現。根據表三 教育類別頻道Random Forest數據
我們看到了一些讓人樂觀的趨勢,尤其是在某些情況下,模型能夠達到高達 83.64%的正確分類率。除此之外,F-Measure指標的表現也相對穩定,且在某些運行中超過了0.7的水平,這表明模型在平衡精確度和召回率方面的表現良好。ROC Area的結果同樣是積極的,顯示模型對於區分正例和負例的能力。然而,我們也注意到模型在某些情況下的表現較差,例如在某些運行中僅達到了 57.74% 的正確分類率。這可能是由於數據特性、模型參數設置或者其他因素導致的。因此,我們建議進一步調整模型參數、優化特徵工程,以提升模型的性能。
Random forest在YouTube數據分析中展現了一定的潛力,但仍需要繼續優化以達到更好的預測效果。這種分析有助於我們深入了解YouTube數據的特性,去分析了解YouTube頻道的流行趨勢。
根據表十八 教育類別頻道Random Forest數據表做說明:
-
藍色格子:該頻道在五種不同的機器學習中Accuracy最佳的模型。
-
綠色格子:該頻道在五種不同的機器學習中F-Measure最佳的模型。
-
黃色格子:該頻道在五種不同的機器學習中ROC Area最佳的模型。
_edited.jpg)
當我們做完統計分析及機器學習結果後發現,在所有不同的主題內容的影片中likecount、commentcount兩個參數都與影片流行度有高度的相關性,因此我們決定把兩個參數拿掉再跑一次機器學習,進一步的了解模型的預測能力。
敏感度分析
.png)
以下為各類型頻道的Random Forest的數據:
(紅色字體為該類別中欄位最大的值、底線字體為該類別中欄位最小的值)
.png)
.png)
.png)
.png)
根據上述數據可以觀察到教育類別頻道的平均準確率最高,所以下面的敘述我們將根據表二一 教育類別Random Forest數據來做敘述分析。
.png)
根據表二六 教育類別頻道Random Forest數據表做說明:
-
藍色格子:該頻道在五種不同的機器學習中Accuracy最佳的模型。
-
綠色格子:該頻道在五種不同的機器學習中F-Measure最佳的模型。
-
黃色格子:該頻道在五種不同的機器學習中ROC Area最佳的模型。
與表十八 教育類別頻道Random Forest數據表(包含likecount, commentcount)做比較可發現預測模型的數據機皆有下滑的趨勢,且可發現原本預測最準確的頻道由吉娜英文改為阿滴英文,這代表阿滴英文該頻道的影片熱門度分析較不受likecount, commentcount兩變數的影響。