题名 |
使用潛在語意分析與自我組織映射於中文文件摘要 |
并列篇名 |
Using Latent Semantic Analysis and Self-Organizing Map in Chinese Text Summarization |
DOI |
10.6843/NTHU.2008.00664 |
作者 |
黃信捷 |
关键词 |
文件摘要 ; 潛在語意分析 ; 自我組織映射 ; Text Summarization ; Latent Semantic Analysis ; Self-organizing Map |
期刊名称 |
清華大學資訊系統與應用研究所學位論文 |
卷期/出版年月 |
2008年 |
学位类别 |
碩士 |
导师 |
蘇豐文 |
内容语文 |
繁體中文 |
中文摘要 |
本論文提出了兩種分群式文件摘要器(clustering text summarizer)來抽取出文件中重要的語句產生摘要。第一個方法是使用自我組織映射(Self-organizing Map)技術,透過此方法將文件句子做分群,在從各群之中挑選最佳的句子當作摘要。第二個方法,我們結合潛在語意分析(Latent Semantic Analysis)與自我組織映射技術,透過潛在語意分析將文件中的句子隱含的語意挖掘出來,再將分析後的句子透過自我組織映射進行分群,在從各群之中挑選最佳的句子當作摘要。 挑選句子之前必須決定各群挑選的優先權,優先權的決定方式則為將每一群的所有句子分數做加總,總分數越高則該群的優先權越高。句子分數的計算方式則是根據「句子的關鍵字含量」、「句子在文件中的位置」、「句子的標題含量」、「句子的TFIDF(term frequency – inverse document frequency)強度」來決定之。 我們之所以考慮了分群,是因為我們假設摘要者在挑選了一句子當作摘要時,會儘量不再挑選與該句極為相似的句子。句子分群後,使得挑選摘要句子得以從不同分群的句子中挑選,以避免重複挑選出相似的句子。 在實驗部分,我們收集了100篇新台灣新聞週刊中關於政治類的文章,並將前述的兩種分群式文件摘要器應用於該政治類的文章中。實驗評估結果顯示,我們所提出的方法皆比基準方法(baselines)表現較優,在文件壓縮比率為20%以及不考慮特徵權重的情況下,準確率分別為46.70%與53.39%。 |
主题分类 |
基礎與應用科學 >
資訊科學 電機資訊學院 > 資訊系統與應用研究所 |
被引用次数 |