题名 |
序列對序列模型在批踢踢自動產生推文之應用 |
并列篇名 |
Sequence-to-Sequence model on auto-generating PTT tweets |
DOI |
10.29428/9789860544169.201801.0149 |
作者 |
洪忠駿;顏士淨 |
关键词 |
自然語言處理 ; 批踢踢實業坊 ; 深度學習 ; NLP ; PTT ; Deep learning |
期刊名称 |
NCS 2017 全國計算機會議 |
卷期/出版年月 |
2017(2018 / 01 / 01) |
页次 |
793 - 798 |
内容语文 |
繁體中文 |
中文摘要 |
隨著近年社群網站的興起與普及,有許多平台供人們互動和獲取資訊,如何解析與應用這些龐大的資料越來越受重視。本專題使用批踢踢實業坊(PTT)中的八卦版(Gossiping)作為資料來源,將文章中的標題與推文進行處理及分析,希望能透過大量的文章找出人們對某一事情敘述的普遍回應。最終目的為透過使用者給定的一句文字敘述,輸出一段風格類似於推文的簡短回覆。首先撰寫爬蟲程式來獲取PTT Web的資料,透過篩選及過濾後,進行中文斷詞。以標題做為文意的主要依據,回應則從文章推文中基於詞頻挑選最佳推文,標題與推文間的關聯則是透過深度學習來建立。初步以開源函式庫Keras和產生好的詞向量,嘗試建立簡易的模型及訓練。再來利用Google的開源框架tf-seq2seq搭建基於RNN的Sequence-to-Sequence模型。最後展示它們在訓練及測試用資料的成果及相關討論。 |
主题分类 |
基礎與應用科學 >
資訊科學 |