题名

序列對序列模型在批踢踢自動產生推文之應用

并列篇名

Sequence-to-Sequence model on auto-generating PTT tweets

DOI

10.29428/9789860544169.201801.0149

作者

洪忠駿;顏士淨

关键词

自然語言處理 ; 批踢踢實業坊 ; 深度學習 ; NLP ; PTT ; Deep learning

期刊名称

NCS 2017 全國計算機會議

卷期/出版年月

2017(2018 / 01 / 01)

页次

793 - 798

内容语文

繁體中文

中文摘要

隨著近年社群網站的興起與普及,有許多平台供人們互動和獲取資訊,如何解析與應用這些龐大的資料越來越受重視。本專題使用批踢踢實業坊(PTT)中的八卦版(Gossiping)作為資料來源,將文章中的標題與推文進行處理及分析,希望能透過大量的文章找出人們對某一事情敘述的普遍回應。最終目的為透過使用者給定的一句文字敘述,輸出一段風格類似於推文的簡短回覆。首先撰寫爬蟲程式來獲取PTT Web的資料,透過篩選及過濾後,進行中文斷詞。以標題做為文意的主要依據,回應則從文章推文中基於詞頻挑選最佳推文,標題與推文間的關聯則是透過深度學習來建立。初步以開源函式庫Keras和產生好的詞向量,嘗試建立簡易的模型及訓練。再來利用Google的開源框架tf-seq2seq搭建基於RNN的Sequence-to-Sequence模型。最後展示它們在訓練及測試用資料的成果及相關討論。

主题分类 基礎與應用科學 > 資訊科學