研究生: |
王韋鈞 WANG, Wei-Chun |
---|---|
論文名稱: |
從新聞擷取命名實體與應用 Name entity extracts and applications from NEWS |
指導教授: |
曾元顯
Tseng, Yuen-Hsien |
口試委員: | 林頌堅 江信昱 |
口試日期: | 2021/07/08 |
學位類別: |
碩士 Master |
系所名稱: |
圖書資訊學研究所圖書資訊學碩士在職專班 Graduate Institute of Library and Information Studies_Continuing Education Master's Program of Library and Information Studies |
論文出版年: | 2021 |
畢業學年度: | 109 |
語文別: | 中文 |
論文頁數: | 83 |
中文關鍵詞: | 命名實體 、新聞 、查詢系統 、資訊擷取 、關聯性資料庫 |
研究方法: | 實務報告 |
DOI URL: | http://doi.org/10.6345/NTNU202101292 |
論文種類: | 代替論文:專業實務報告(專業實務類) |
相關次數: | 點閱:142 下載:21 |
分享至: |
查詢本校圖書館目錄 查詢臺灣博碩士論文知識加值系統 勘誤回報 |
每天透過新聞的閱覽,可以得到許多的資訊,而這些最新的資訊是屬於「現在」的資訊。隨著每天不斷的累積著「現在」的資訊,堆積成許許多多雖然不是最新,但是仍然重要的「歷史」資訊。
本研究試著從新聞擷取命名實體並加以應用,試圖從中挖掘有意義且寶貴的資訊。
研究分為三階段,第一階段為分析文字類型,依據分析結果將文字歸類,將非結構化資料轉為結構化資料。第二階段為將結構化資料導入資料庫,利用關聯式資料庫建立結構化資料,以備未來分析。第三階段為建置搜尋與呈現資料的系統,以時間來看當時的人物與職務狀況,或是以人物來看時間與職務的變化。
在這個系統中目前已完成四種搜尋的功能系統,分別是:查詢職務、查詢姓名、查詢地名-職務、查詢機關-職務。
遇到最大的困難在資料的質與量。若是能做更好的命名實體識別,尤其是在姓名與職務的部分,那就能夠讓這系統更精確。
Through reading news paper every day, you can get a lot of information, and the latest information is "nowaday" information. With the accumulation of " nowaday " information every day, lot of "historical" information that is not the latest but still very valued.
This research extracts name entity from news and try to applicate collected data, to earn more meaningful and valuable information.
The three stages of this research are to analyze the type of text, classify the text by analyze the results, convert the unstructured data. into structured data. The second stage is to import structured data into the database, using relational database to contain these data for future analysis. The third stage is to construct a system for searching and presenting data, look for a person’s career through time, or look for personal career changes in a period time.
Among the four search function systems currently completed in this system, include: career searching, name searching, place-name searching, party-name searching.
The greatest difficulty encountered, can be in the quality and quantity of the data. If you can make your own identification, especially in the name entity extract and classify, surely will make this system more accurate.
中文詞知識庫小組(1993)。技術報告 93-05中文詞類分析(三版)。中央研究院,台北市。
中文詞庫知識小組。中文斷詞。中研院資訊所、語言所。
林政宏(2008)。正規表示法比對之演算法與硬體架構設計(未出版之博士論文)。國立清華大學,新竹市。
林育暘(2014)。以商家名稱萃取與地址配對協助地理資訊檢索之研究(未出版碩士論文)。中央大學資訊工程學系,桃園市。
孫鎮、王惠臨(2010)。命名實體識別研究進展綜述。現代圖書情報技術,26(6),42-47。
黃雅筠、張嘉惠、周建龍(2015)。基於以知名稱搜尋結果的網路實體辨識模型建立工具。Conference on Computational Linguistics and Speech Processing,計算語言學研討會,ROCLING 2015,148-163。
黃俊霖(2018)。自然語言處理研究與應用(未出版之碩士論文)。國立雲林科技大學,雲林縣。
陳鳳儀、蔡碧芳、陳克健、黃居仁(1999)。中文句結構樹資料庫(Sinica Treebank)的構建,Computational Linguistics and Chinese Language Processing,4(2),87-104。
陳聖為(2015)。混合式ICD-10 命名實體識別方法於日文電子病歷之研究(未出版碩士論文)。私立元智大學,桃園市。
陳柏宏(2015)。使用隱藏式馬可夫模型及維基百科辨識中文人名命名實體(未出版碩士論文)。國立雲林科技大學,雲林縣。
陳祥輝、陳臆如、黃浩(2017)。SQL SERVER效能調校。新北市:博碩文化。
郭欣逸 (2017)。一個基於語意分析的自然語言查詢系統(未出版碩士論文)。國立中興大學資訊管理學系所,台中市。
彭于晏(2018)。命名實體過濾器使用於穩健的機器閱讀理解(未出版碩士論文)。國立臺灣大學,台北市。
張尚斌(2006)。詞夾子演算法在專有名詞辨識上的應用-以歷史文本為例(未出版碩士論文)。國立台灣大學,台北市。
楊長諭(2013)。運用句法規則於命名實體辨識之研究(未出版碩士論文)。國立雲林科技大學,雲林縣。
楊志強(2009)。楊志強Microsoft SQL SERVER 2008 T-SQL實戰學堂。台北市:旗標。
謝順宏、柯皓仁、張素玢(2018)。台灣歷史人物文本檢索與探勘系統之建置。圖資與檔案學刊,92,67-87。
羅崇瑋(2013)。使用條件隨機域實作中文人名辨識系統(未出版碩士論文)。國立台灣大學,台北市。
蕭詩寰(2015)。電子醫囑時序資訊擷取之研究(未出版碩士論文)。淡江大學資訊管理學系碩士在職專班,新北市。
Archana, G., Vishal, G., & Manis, K.(2018). Recent Named Entity Recognition and Classification techniques: A systematic review. Computer Science Review, 29, 21-43.
Cheng-Wei Shih, Tzong-Han Tsai, Shih-Hung Wu, Chiu-Chen Hsieh, and Wen-Lian Hsu.(2004). The Construction of a Chinese Named Entity Tagged Corpus: CNEC1.0, Proceedings of the 16th Conference on Computational Linguistics and Speech Processing, 305-313.
David, N., Satoshi, S. (2007). A survey of named entity recognition and classification. Named Entities: Recognition, classification and use, 3-26.
Erik, F. T. K. S., Fien, D. M. (2003). Introduction to the CoNLL-2003 Shared task: Language-independent Named Entity recognition. Proceedings of the Seventh Conference on Natural Language Learning at HLT-NAACL 2003, 142-147.
Wei-Yun Ma and Keh-Jiann Chen (2003). Introduction to CKIP Chinese Word Segmentation System for the First International Chinese Word Segmentation Bakeoff. Proceedings of ACL, Second SIGHAN Workshop on Chinese Language Processing, 168-171.
Nick, C., Bhaskar, M., Emine, Y., Daniel, C., & Ellen, M. V. (2019). Overview of the TREC 2019 deep learning track. Retrived from https://arxiv.org/pdf/2003.07820.pdf
Ralph, G., Beth, S. (1996). Massage Understanding Conference - 6:A Brief History. COLING 1996 Volume 1: The 16th International Conference on Computational Linguistics.