中文降維正負評情感分析方法應用於 PTT 資料 Chinese dimension · PDF file...

Click here to load reader

  • date post

    20-May-2020
  • Category

    Documents

  • view

    9
  • download

    0

Embed Size (px)

Transcript of 中文降維正負評情感分析方法應用於 PTT 資料 Chinese dimension · PDF file...

  • 中文降維正負評情感分析方法應用於 PTT 資料

    Chinese dimension-reduction based sentiment

    analysis method applied to PTT data

    摘要

    現今的網路上有越來越多的平台提供使用者討論,在這些平台中的文章常

    涉及到近期發生的事件,而這些文章都會有正面或負面的傾向,我們希望可以利

    用多分類器技術將這些文章分類成正向或負向的文章,藉由分類後的結果可以針

    對負面文章的內容找到使用者不滿的事件並加以討論。批批踢實業坊是台灣很大

    的討論平台,因此本篇利用組合相異空間(CoDiS)方法將 PTT 八卦版的文章分類,

    其中,資料在輸入分類器前用到相異性轉換進行降維。本研究提出三種新的表示

    集合選取方法,並比較隨機森林與支持向量機在多分類器系統中的表現。

    關鍵字:文本分類、正負文分析、降維分類、集成學習

  • 1

    壹、緒論 一、研究背景

    在科技的推動下,多數人都有使用社群網站或軟體的習慣,隨著智慧型

    手機的普及,新聞媒體與商品行銷更是投入大量的資源於數位化的發展,這

    樣的趨勢讓所有人都能更容易且直接接觸各種在網路上傳播的資訊,也更容

    易地在網路上與其他人討論或分享。

    世新大學於「2012 年媒體風雲排行榜」中公布台灣民眾在五大媒體(電

    視、報紙、廣播、雜誌與網路)的使用比例,調查指出電視的使用率最高,總

    使用率佔 96.2%,而網路媒體首度打敗報紙,分別為 74.9%、67.7%;「2015

    年媒體風雲排行榜」調查中,電視的使用率相較於 2012 年有下降的趨勢,

    且網路的使用率上升了 5%,報紙的使用率大幅度的降低。從此調查中可以

    看出網路上提供的資訊越來越多且越來越方便取得,而在網路及行動裝置的

    快速發展下,網路使用量正在不斷的攀升。

    圖1為科技部傳播調查資料庫從2012年起蒐集台灣民眾媒體使用行為,

    顯示了 2014 年至 2016 年台灣民眾得知新聞方式的比例,從中可以看出台灣

    民眾每天接觸最少的媒體是報紙,而網路的使用量在 2014 與 2015 年間超越

    了電視的使用量。另外,2016 年台灣民眾每天閱讀報紙的時間只有 12 分鐘

    左右,而網路的使用變化很大,在 2014 年後使用率逐年攀升到 2016 年每天

    平均使用 278 分鐘網路,成為目前民眾最依賴的媒體方式。

    圖 1 民眾想得知消息所選擇的媒體

    在人們利用網路經由社群網站或是在討論平台得知新聞時,平台上通常

    都會提供留言區,使用者可以在平台上面表達自己的想法,然而其中留言包

    含了許多理性與非理性的評論,也造成了正反兩極的看法,因此我們希望能

    從中得知大眾對於某事件的觀感及偏好,也可以從負面的評論中改進缺點。

  • 2

    二、研究動機與目的

    由於現今網路言論自由的環境,使得網絡中興起許多討論區、部落格與

    資訊分享平台,時常可以看到對於某些事件的發生或銷售商品的各種評論或

    是批判的留言,這些評論往往反映出民眾或是消費者的真實心態與想法,而

    評論的正/負傾向可以看出留言者對於某事件的態度,甚至可以被當作支持或

    改進的重要參考,其中負面的評論中也有著不同的強度,因此在知道民眾的

    看法後,能夠從不同的負面評論中瞭解事件的趨勢或商品的銷售狀況,並持

    續追蹤找出解決問題的方法。

    《數位時代》於 2015 年公布 Web 100,即台灣最熱門網站前 100 名,

    從榜單中可知 Facebook 與 Youtube 位居一二名,然而以時事分享文章及評論

    為主的平台批踢踢實業坊(PTT)與巴哈姆特等知名網站皆有進榜單,其中網

    路知名論壇批踢踢實業坊平台上有一萬個以上的主題看板,且每日平均約有

    兩萬則文章在此平台上發表,留言推文更超過 50 萬則,因此每天都有大量

    的主題在被討論著。然而對於每篇新發表的文章,我們希望在有效的時間內

    判斷其屬於正面評論或負面評論,並可以針對負面的文章深入了解做出應對

    的解決策略。

    情感分析(Sentiment Analysis)是利用語言處理、文字探勘等方式來獲得

    文章的訊息,其中主要的方法包含監督式學習(Supervised learning)、半監督

    式學習(Semi-supervised learning)、非監督式學習(Unsupervised learning),以

    中文情緒分析來說,其目的是希望從文本中利用演算法擷取我們想預測或分

    析的資訊,並利用這些資訊訓練出有用的模型,而中文的情緒分析包含以下

    幾個重要的步驟,(1)在網路平台上利用爬蟲程式取得文章及留言,(2)利用詞

    庫將蒐集到的文本斷詞,(3)針對有興趣之方向做分析、結論彙整。然而正負

    評分析即為情緒分析中的一種方法,為了能夠瞭解大家對於某事件的觀感是

    正向或是負向的,我們可以透過討論平台上相關事件的文章或回覆進行正負

    評的判斷,在有效的時間內能夠針對負面評價給予補償或是改進。

    三、論文架構

    本論文共分為五個章節,第二章為文獻探討,介紹斷詞方法、相異轉換

    的降維方法之分類系統架構,以及本篇研究在組合分類系統中用到的分類器:

    支持向量機與隨機森林,最後介紹了加權會用到的 N-Gram 理論;第三章為

    研究方法,介紹CoDiS組合分類系統在選擇不同 representation set時的表現,

    且利用 600 篇隨機抽出的文章來選取最佳的超參數 L 與超參數 Q,並提出利

    用 N-Gram 所計算的加權方法;第四章則利用本篇改進的多分類器系統對

    1000 篇隨機選取的文章進行分析,以批踢踢實業坊中八卦版的資料進行正負

    評文章分類,並比較支持向量機與隨機森林的表現;最後於第五章做出結論

    以及未來的研究方向。

  • 3

    貳、文獻探討

    一、中文斷詞工具

    在進行中文自然語言處理時,在進行分析前都需要做資料清理的動作,

    其中一項重要的步驟則是斷詞,然而在英文斷詞中我們利用單詞與單詞之間

    的空格或標點符號作為斷詞的依據,但中文的特性並沒有詞與詞之間明顯的

    依據作為分割點,因此中文的斷詞需要藉由大量的語料庫比對或是特殊的演

    算法來達到分割中文詞語的目的。現今有許多公開的斷詞技術能夠幫助我們

    達到這樣的處理,接下來會介紹兩種較常用的中文斷詞技術。

    CKIP(Chinese Knowledge and Information Processing)斷詞系統為中央研

    究院資訊所以及語言所共同建立的中文自然語言處理團隊提出的一個線上

    公開斷詞系統,可以利用 CKIP 網站進行即時的中文文章斷詞,另外 CKIP

    網站上也有未知詞的偵測、詞性判斷等功能,圖 2 為 CKIP 中文斷詞系統之

    結果。

    在R 中有許多斷詞系統的套件,如 jiebaR、Rwordseg與 text2vec等套件,

    其中 jiebaR 套件為 Python 的斷詞工具中的 R 版本,Rwordseg 則是由 Java

    中的斷詞工具 Ansj 改寫的。圖 3 為 jiebaR 斷詞之結果。

    圖 2 CKIP 中文斷詞系統結果

    圖 3 jiebaR 斷詞結果

  • 4

    二、組合相異空間多分類系統(CoDiS)

    由 Pinheiro & Cavalcanti & Tsang (2017)提出的組合相異空間多分類器 系(Combined Dissimilarity Spaces, CoDiS)統,其概念是利用抽樣轉換在不同

    空間進行文本分類,利用多分類器系統的特性以增加文本分類的準確性,而

    此多分類器系統中使用的分類器為支持向量機(SVM)並採用 linear kernal 的

    轉換。

    (一)相異性轉換

    詞袋(Bag-of-words)是用來表示文檔最常用的方法之一,它是將所有出現

    過的每個字詞都當作文本的特徵,並且用字詞出現的次數來表示文本,但是

    詞袋的生成具有三個主要的缺點:高維度、資料高稀疏性以及高特徵比例

    (feature-to-instance ratio),因此組合相異空間(CoDiS)利用相異性轉換來解

    決詞袋的缺點,藉由降低維度及降低稀疏性的方式以增加計算效率。

    Pekalska & Duin (2005)的研究中提出的相異性轉換表示法,是計算每篇

    文本間的歐氏距離作為新的特徵,以此解決詞袋維度過高的缺點。其方法將

    所有文本以 Bootstrap aggregating 的方式從資料集合X中抽出等數量的訓練

    樣本,再以隨機抽取的方式抽出表示大小為Q × n的表示集合R,然後計算

    訓練樣本內的文本與表示集合R內的文本的相異性,相異性的計算方式為歐

    氏距離,計算公式如下(2.1)

    𝑑(𝑥𝑎, 𝑥𝑏) = √∑ (𝑤ℎ 𝑥𝑎 − 𝑤ℎ