top of page

將爬取的資料集進行資料處理後,利用統計檢定分析及人工智慧的機器學習技術,辨識會影響影片熱門度的屬性判別及預測分析:

螢幕擷取畫面 2023-11-24 141336.png

圖1. 為研究計畫圖,首先挑選了不同類別的主題內容,並對這些主題進行訂閱人數的分類。隨後,進行了對這些影片的資料收集,並將所獲得的資訊進行處理,轉化為可供進一步分析的形式。透過引入區別機制,我們將這些影片熱門度分為高(H)、中(M)、低(L)三個不同的階級。最終,我們進行統計分析和機器學習,以深入瞭解不同主題類別中各個訂閱人數階級之間的關聯性,並揭示潛在的趨勢和模式,為後續研究提供重要參考。

1.目標確認

NoxInfluencer YouTube網紅排行榜的數據排名,挑選六大頻道類型中由高至低的五個頻道。

螢幕擷取畫面 (177).png

圖. 為在教育類的類別下,台灣地區粉絲訂閱數前百大YouTuber排行榜。

2.資料獲取

使用Python的Requests庫和YouTube API,替換相應的API金鑰和影片ID,獲取需要的YouTube頻道影片數據,如標題、觀看次數、按讚數和留言數等…。

3.資料清洗

處理缺失值、重複數據或不必要的信息,以確保分析所使用的數據質量高並符合需求。

4.資料整理

特徵提取、轉換格式、排序等步驟,以便更有效地進行後續的預測分析。

5.機器學習

使用WEKA工具進行機器學習分析,建立預測模型,探索YouTube流行趨勢的相關特徵和模式,以提升預測準確度。

6.模型測試

7.模型選擇

​在模型測試的基礎上,模型選擇是預測分析過程中的重要步驟。這一階段涉及使用不同機器學習算法,如決策樹、支持向量機、隨機森林等,建立預測模型,並通過比較它們的性能來選擇最適合的模型。首先,透過評估指標如準確度、精確度和召回率,我們比較了各個模型在模型測試階段的表現。考慮了模型的預測能力、泛化能力和適應性,以確定哪個模型在解決YouTube流行趨勢預測問題上表現最佳。

8.統計分析

-敘述統計與ANOVA分析連續值

在進行統計分析時,首先利用連續值敘述統計方法(如平均值、標準差、中位數等),深入描述單一連續數據集的中心趨勢和變異情況。接著,若有多個組別,可透過ANOVA(變異數分析)來比較組別間的平均值是否存在統計上的差異,並評估不同因素對這些差異的影響。最後,針對結果進行解釋,以全面了解數據特性並辨別可能存在的組別差異。這樣的統計分析流程有助於深入挖掘數據的含義並作出相應的推斷。

-敘述統計與卡方檢定分析類別值


在統計學中,敘述統計和卡方檢定分別擁有不同的功能。敘述統計利用平均值、標準差等統計量,旨在描述和總結數據的基本特徵,包括中心趨勢和分散度。卡方檢定則是一種統計檢定方法,專注於評估觀察值和期望值之間的差異,特別適用於分類數據的分析,包括卡方獨立性檢定和卡方適合度檢定。兩者在統計分析中各司其職,敘述統計用於數據描述,卡方檢定則用於檢驗統計上的差異,以支援不同的分析目的和階段。
 

將模型應用於獨立的測試數據集,以評估其預測性能。透過比較模型預測值與實際觀測值之間的差異,可以使用不同的評估指標(如準確度、精確度、召回率等)來評估模型的效果。此階段有助於確認模型是否能夠泛化到新的數據,並指導進一步的調整和優化。模型測試的結果將提供對模型性能的洞察,並支援對預測分析的信心程度。

9.​洞察結論

透過目標確定、資料獲取、清洗、整理,以及機器學習建模和模型測試等階段的分析流程,我們成功地進行了YouTube流行趨勢的預測分析。在模型載入後,我們進一步進行了描述分析,包括對連續值的敘述統計和ANOVA分析,以及對類別值的敘述統計和卡方檢定分析。這些分析方法不僅深入挖掘了數據的含義,還辨別了可能存在的組別差異。這使我們能夠從不同角度全面了解YouTube流行趨勢,為相應的決策提供了豐富的洞察。這樣的綜合分析流程不僅支援了對預測模型的信心程度,也為未來的調整和優化提供了指導。最終,這些分析結果為制定有效的YouTube內容策略和增加觀眾吸引力提供了實際可行的建議。

第二十八屆專業實習競賽報告

bottom of page