研究生: |
張貴雲 Chang Guey-Yun |
---|---|
論文名稱: |
表單手寫欄位資料之萃取 EXTRACTION OF FORM FIELD AND FILLED-IN DATA |
指導教授: |
李忠謀
Lee, Chung-Mou |
學位類別: |
碩士 Master |
系所名稱: |
資訊教育研究所 Graduate Institute of Information and Computer Education |
畢業學年度: | 86 |
語文別: | 中文 |
中文關鍵詞: | 表單處理 、文件分析 、字元重建 、圖形表示法 、適應性共振理論 |
論文種類: | 學術論文 |
相關次數: | 點閱:244 下載:0 |
分享至: |
查詢本校圖書館目錄 查詢臺灣博碩士論文知識加值系統 勘誤回報 |
本論文試著為一般型式表單手寫資料萃取問題中的手寫欄位擷取與手寫資料 擷取提出解決方法。在手寫欄位擷取階段,除了以傳統的物件大小、比例作為分 類特徵外,更利用物件的結構性質作為主要的分類依據。本研究採用二種物件結 構特徵:物件整體結構特徵與物件方向性結構特徵。其中物件整體結構特徵乃指 不因觀察方向而有不同的結構特質;相對於物件整體結構特徵,物件方向性結構 特徵則是隨觀察方向變換而有不同性質呈現。為方便求得各項物件結構特徵,我 們採用影像編碼的方式,將空白表單影像轉換成簡化的結構圖。另外,在物件大 小方面,除了利用物件整體的大小比例外,對於物件重要特徵部分的尺寸比例亦 納入考量。同時,為區分含有說明文字的表格填寫欄與說明欄,本研究利用說明 文字分佈特微、說明文字字距特徵和說明文字大小特徵,配合ART2類神經網路技術進行分析辨識。在手寫資料擷取階段中,主要解決因框線去除使得與框線相交的手寫筆畫喪失某些重要的像素,造成筆畫的斷裂。為顧及後續的光學字元辨識率,我們提出判斷手寫字與框線的相交區段的想法。籍由重建屬於相交區段的框線部分,修復破碎的手寫筆畫。實驗證明本研究之手寫欄位擷取程序確實有效,且可容忍因掃描時造成的雜訊與傾斜;另外,以保留相交區段重建斷裂手寫筆畫的結果亦相當穩定。
This paper addresses the problems of form field and the filled-in data extraction. Extraction of form fields involves classifications of form layout, the printed text, the check boxes, the tables and the to be filled-in spaces. The classification was carried out based on both directional invariant global structural features and directional dependant structural features. Since tables can contain both name fields and data fields, an neural network classifier were used to extract the data fields. For filled-in data extraction, the major task was to separate and to remove preprinted entities while preserving the shape and the connectedness of the hand-written characters after removal of the preprinted form frame and text was was introduced. Experimental result on twenty-five different types of travel document forms showed a 99.92% recognition rate on form field extractions. Furthermore, a 93.09% of successful filled-in data extraction rate was achieved.