研究生: |
陳于佳 Yu-Chia Chen |
---|---|
論文名稱: |
中文文本可讀性特徵選取與模型建立 - 以華語為第二語言教材為例 Feature Selection and Model Construction for Classification of Chinese Text Readability: A Case Study of Teaching Materials for Chinese as Second Language |
指導教授: |
張國恩
Chang, Kuo-En 宋曜廷 Sung, Yao-Ting 張道行 Chang, Tao-Hsing |
學位類別: |
碩士 Master |
系所名稱: |
資訊教育研究所 Graduate Institute of Information and Computer Education |
論文出版年: | 2012 |
畢業學年度: | 100 |
語文別: | 中文 |
論文頁數: | 85 |
中文關鍵詞: | 可讀性 、特徵選取 、支援向量機 |
英文關鍵詞: | Readability, Feature Selection, Support Vector Machine |
論文種類: | 學術論文 |
相關次數: | 點閱:406 下載:36 |
分享至: |
查詢本校圖書館目錄 查詢臺灣博碩士論文知識加值系統 勘誤回報 |
由於全球學習華語熱潮的興起,學習華語的人數年年增加。不論是母語學習,或者是第二語言學習,閱讀在語言學習中都扮演了重要的角色。但如何選擇適當難易度的文本是在閱讀過程中常面臨到的問題。教師在教學時必須選擇符合學習者程度的教材,來提高華語文教學的效率。
本研究以《新版實用視聽華語》、《遠東生活華語》、《新實用漢語課本》、《中文聽說讀寫》、《讀報學華語》、《實用商業會話》等六套常用華語教材為例,結合特徵選取方法與支援向量機建立預測模型預測文本CEFR等級,並探討不同特徵組合所造成結果的差異。
實驗結果顯示,不需使用全部指標,只須採用較為重要的指標組合即可達到最佳預測正確率,約為85.47%。期盼本研究所建立的可讀性算則不但可提供華語教師能更系統化、循序漸進的教學,學生也可透過此預測模型選擇符合自身程度的課文學習,減少摸索的時間,來達到有效提升學習成效的結果。
In recent years, the number of people in the world learning Chinese is growing rapidly. Reading plays an important role in language learning. But how to select reading text which is suitable for learners is one of problem in reading. Teachers have to choose reading materials at right reading level for learners to improve efficiency. Readability assessment is a method to quantify reading difficulty for learners.
In this study we combined support vector machine with feature selection methods to construct a model to predict the CEFR level of the six most popular Chinese teaching materials : Practical Audio-Visual Chinese, Far East everyday Chinese, New Practical Chinese Reader, Integrated Chinese, Learning Chinese with Newspaper, and Practical Business Conversation. We also compared the predicting performance by different combination of features.
The experimental results have shown the effectiveness of the feature selection method. Choosing important features can reach the best performance, the accuracy is about 85.47%. We hope our study can promote more effective teaching and learning in Chinese learning.
中文部分:
王曉鈞(2004)。美國中文教學的理論與實踐。世界漢語教學,1,100-104。
石琢暐(2011)。支援向量機簡介。取自https://docs.google.com/viewer?a=v&pid=sites&srcid=ZGVmYXVsdGRvbWFpbnxlZWlsbmNrdXxneDo3ZWNlMjcyYTg1MjQ4ODg5
艾偉(1949)。漢字問題。北京:中華書局。
江新(2005)。詞的複現率和字的複現率對非漢字圈學生雙字詞學習的影響。世界漢語教學,74,31-38。
江少敏(2009)。句子難度度量研究(未出版之碩士論文)。廈門大學,廈門市。
宋曜廷、陳茹玲、李宜憲、查日龢、曾厚強、林維駿、張道行、張國恩(2012)。中文文本可讀性分析:指標選取、模型建立與效度驗證。中華心理學刊(已接受)。
宋佩貞(2009)。台灣審定版國小英語教科書適讀性公式建置與評估(未出版之碩士論文)。國立台東大學,台東縣。
李泉(2005)。對外漢語教學理論思考。北京:教育科學出版社
李孟謙(2004)。以資料採礦的方法探索影響台灣地區女性戶長的原因(未出版之碩士論文)。國立政治大學,臺北市。
李俊宏(2012)。商品評論的意見探勘之研究。高雄應用科技大學學報。41,73-92。
李御璽、顏秀珍、楊乃樺、廖晨涵、黃柏文、英家慶、賴郁菁(2007)。資料探勘在心臟病預測模型上之研究。資訊電子學刊。2(1),19-28。
呂必松(1999)。呂必松自選集。鄭州:大象出版。
吳毓傑、陳振南(2002年)。智慧型圖書分類。第四屆「網際空間:資訊、法律與社會」學術研究暨實務研討會」發表之論文,國立臺灣師範大學。
吳儼庭(2005)。應用類神經網路預測醫院之院內感染(未出版之碩士論文)。國立陽明大學,臺北市。
林宗勳(2006),Support Vector Machines簡介,臺灣大學通訊與多媒體實驗室。取自http://www.cmlab.csie.ntu.edu.tw/~cyy/learning/tutorials/SVM2.pdf
周中天、張莉萍 (2007年10月)。華語文能力分級指標之建立。「『東亞教育評鑑論壇』新興議題及挑戰」國際學術研討會發表之論文,國立臺灣師範大學。
柳燕梅(2002)。生詞重現率對歐美學生漢語詞彙學習的影響。語言教學與研究, 5。
教育部(2010)。大專外籍學位生及附設華語生人數。取自http://www.edu.tw/files/site_content/B0013/overview72.xls
荊溪昱(1995)。中國國文教材的適讀性研究:適讀年級值的推估。教育研究資訊,3(3),113-127。
孫德坤(1996)。組合式—教材編寫的另一種思路。世界漢語教學,1。
陳世敏(1971)。中文可讀性公式試擬。新聞學研究,8,p181-225。
陳燕秋(2000)。台灣現今華語文教材的評估與展望(未出版之碩士論文)。國立臺灣師範大學,臺北市。
陳順宇(2005)。多變量分析(四版)。華泰出版社。
陳惠玲(2006)。華語教材分級初探。華文世界,79,21-26。
崔岑岑(2008)。面向對外漢語教學的選擇複句研究(未出版之碩士論文)。南京師範大學,南京市。
舒兆民(2011)。華語為第二語言教學法。取自http://blog.huayuworld.org/gallery/12977/%E8%8F%AF%E8%AA%9E%E7%82%BA%E7%AC%AC%E4%BA%8C%E8%AA%9E%E6%95%99%E5%AD%B8%E6%B3%95.pdf
張金橋(2008)。留學生漢語單字詞識別的筆畫數效應、詞頻效應和詞素頻率效應。暨南大學華文學院學報,1,22-29。
張美玲(2009)。初探零代詞與華語教學。錦華工作坊參考資料。政治大學華語文教學中心,未出版。
國立臺灣師範大學國語教學中心主編(2003),實用商業會話修訂本I。臺北:國立臺灣師範大學國語教學中心。
國立臺灣師範大學國語教學中心主編(2006),實用商業會話修訂本II。臺北:國立臺灣師範大學國語教學中心。
國立臺灣師範大學國語教學中心主編(2008 a),新版實用視聽華語 1。臺北:正中。
國立臺灣師範大學國語教學中心主編(2008 b),新版實用視聽華語 2。臺北:正中。
國立臺灣師範大學國語教學中心主編(2008 c),新版實用視聽華語 3。臺北:正中。
國立臺灣師範大學國語教學中心主編(2008 d),新版實用視聽華語 4。臺北:正中。
國立臺灣師範大學國語教學中心主編(2008 e),新版實用視聽華語 5。臺北:正中。
國立臺灣師範大學國語教學中心主編(2009),讀報學華語三。臺北:國立臺灣師範大學國語教學中心。
國立臺灣師範大學國語教學中心主編(2010a),讀報學華語一。臺北:國立臺灣師範大學國語教學中心。
國立臺灣師範大學國語教學中心主編(2010b),讀報學華語二。臺北:國立臺灣師範大學國語教學中心。
楊孝濚(1978)。影響中文可讀性語言因素的分析,報學,4(7), 58-68。
楊孝濚(1971)。中文可讀性公式。新聞學研究,8,77-102。
楊燕珠、林莉雯(2008年5月)。整合BPSO與GA之特徵選擇於文件分類。「2011第七屆知識社群研討會」發表之論文,中國文化大學。
詹秀嫻(2002)。華語文教材發展研究-以系列式教材為例(未出版之碩士論文)。國立臺灣師範大學,臺北市。
葉德明主編(2001),遠東生活華語 bookII a。臺北:遠東。
葉德明主編(2002),遠東生活華語 bookIII。臺北:遠東。
葉德明主編(2003),遠東生活華語 bookII b。臺北:遠東。
葉德明主編(2005),遠東生活華語 bookI。臺北:遠東。
蔡雅薰(2009)。華語文教材分級研制原理之建構。臺北:正中書局
蔡雅薰(2008)。以共同歐洲語言架構CEFR為基礎之華語文能力指標暨課程綱要規劃設計。「2008華語文教材編寫國際研討會會議論文集」發表之論文,國立高雄師範大學華語文教學研究所。
蔡佾翰(2011)。使用TF-IDF和SVM評量中文文章適讀性(未出版之碩士論文)。國立嘉義大學,嘉義市。
鄧守信、葉德明、信世昌、曾金金(2000)。美國大學中文教學環境之調查研究。僑務委員會委託專案研究計畫執行報告。台北:國立臺灣師範大學華語文教學研究所。
劉珣主編(2006a),新實用漢語課本第三冊。北京:北京語言大學
劉珣主編(2006b),新實用漢語課本第四冊。北京:北京語言大學
劉珣主編(2008a),新實用漢語課本第一冊。北京:北京語言大學
劉珣主編(2008b),新實用漢語課本第二冊。北京:北京語言大學
劉珣主編(2008c),新實用漢語課本第五冊。北京:北京語言大學
劉珣主編(2010),新實用漢語課本第六冊。北京:北京語言大學
簡淑芬(2008年12月)。〈政大華語中心零起點學生的偏誤現象。「華語教學工作坊」發表之論文。
英文部分:
American Council on the Teaching of Foreign Languages [ACTFL]. (1986). ACTFL Proficiency Guidelines. Hastings-on-Hudson, NY: American Council on the Teaching of Foreign Languages.
American Council on the Teaching of Foreign Languages [ACTFL]. (l987). ACTFL Chinese Proficiency Guidelines. Foreign Language Annals, 20(5), 471-487.
Asia1 Society and The College Board. (2008). Chinese in 2008: An Expanding Field. Retrieved from http://asiasociety.org/files/Chinesein2008.pdf
Benjamin, R. G. (2012). Reconstructing Readability: Recent Developments and Recommendations in the Analysis of Text Difficulty. Educational Psychology Review, 24, 63-88.
Brown, J. D. (1998). An EFL readability index. JALT Journal, 29(2), 7–36.
Carrell, P. (1987). Readability in ESL. Reading in a Foreign Language, 4, 21–40.
Chall, J. S. & Conrad, S. S. (1991). Should textbooks challenge students? The case for easier or harder Textbooks. New York: Teachers College Press.
Council of Europe (2011). Common European Framework of Reference for Languages: Learning, Teaching, Assessment. Retrieved from http://www.coe.int/t/dg4/linguistic/Source/Framework_en.pdf
Crossley, S. A., Greenfield, J., & McNamara, D. S. (2008). Assessing text readability using cognitively based indices. TESOL Quarterly, 42 (3), 475-493.
Dale, E. & Chall, J. S. (1948). A formula for predicting readability. Educational Research Bulletin, 27, 37-54.
Duan, K., Keerthi, S.S., & Poo, A.N. (2003). Evaluation of simple performance measures for tuning SVM hyperparameters. Neurocomputing, 51: 41–59.
Dubay, W. H. (2004). The principles of readability. Costa Mesa, CA: Impact Information.
Feng, L., Jansche, M., Huenerfauth, M., & Elhadad, N. (2010). A Comparison of
Features for Automatic Readability Assessment. In Proceedings of the 23rd International Conference on Computational Linguistics (COLING 2010 ), Beijing, China.
Flesch, R. (1948). A new readability yardstick. Journal of Applied Psychology, 32, 221–233
Graesser, A. C., McNamara, D. D., Louwerse, M. L., & Cai, Z.(2004). Coh-Metrix: Analysis of text on cohesion and language. Behavior Research Methods, Instruments, & Computers, 36, 193-202.
Greenfield, G. (1999). Classic readability formulas in an EFL context: Are they valid for Japanese speakers? (Unpublished doctoral dissertation). Temple University, Philadelphia, PA, United States.
Greenfield, J. (2004). Readability formulas for EFL. JALT Journal, 26, 5–24.
Guajardo, J., Miranda, J., & Weber, R. (2005). A Hybrid Forecasting Methodology using Feature Selection and Support Vector Regression. The Fifth International Conference on Hybrid Intelligent Systems (HIS2005), 341-346
Hamsik, M. J. (1984). Reading, readability, and the ESL reader (Unpublished doctoral dissertation). Florida State University, U.S.
Hsu, C. W., Chang, C. C., & Lin, C. J. (2003). A Practical Guide to Support Vector Classification. Technical Report, Department of Computer Science and Information Engineering, National Taiwan University, Taipei.
Kincaid, J. P., Fishburne, R. P., Rogers, R. L., & Chissom, B. S. (1975). Derivation of new readability formulas (Automated Readability Index, Fog Count and Flesch Reading Ease Formula) for Navy enlisted personnel, Research Branch Report 8–75, Millington, TN: Naval Technical Training, U. S. Naval Air Station, Memphis, TN.
Klare, G. R. (1963). The measurement of readability. Ames, Iowa: Iowa State University Press.
Lin, S. Y., Su, C. C., Lai, Y. D., Yang, L. C., & Hsieh, S. K. (2009) Assessing text readability using hierarchical lexical relations retrieved from WordNet. International Journal of Computational Linguistics and Chinese Language Processing, 14(1), 45-84.
Liu, H. & Motoda, H. (1998). Feature Selection for Knowledge Discovery and Data Mining. Boston: Kluwer Academic Publishers.
McLaughlin, G. H. (1969). SMOG Grading: A New Readability Formula. Journal of Reading, 12(8), 639–646.
McNamara, D. S., Louwerse, M. M., McCarthy, P. M., & Graesser, A.C. (2010). Coh-Mertix: Capturing linguistic features of cohesion. Discourse Process, 47(4), 292-330.
Ng, H. T., Goh, W. B., & Low, K. L. (1997). Feature selection, perceptron learning, and a usability case study for text categorization. Proceedings of the 20th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval, pp. 67–73.
Petersen, S. E. & Ostendorf, M. (2009). A machine learning approach to reading level assessment. Computer Speech and Language, 23(1), 89-106.
Richard, J., Platt, J., & Weber, H. (1985). Longman dictionary of language Teaching & Applied Linguistics. Longman Group Limited, Essex.
Schwarm, S. E. & Ostendorf, M. (2005). Reading Level Assessment Using Support Vector Machine and Statistical Language Models. Proceeding of the 43rd Annual Meeting of the ACL, 523-530. doi:10.3115/1219840.1219905
Tanaka-Ishii, K., Tezuka, S., & Terada, H. (2010). Sorting Texts by Readability. Association for computational linguistics, 36(2), 203-227.
Vapnik, V. (1995). The Nature of Statistical Learning Theory. New York: Springer Verlag.
Yang, Y. & Pedersen, J. O. (1997). A comparative study on feature selection in text categorization. Proceedings of the Fourteenth International Conference on Machine Learning, 412–420.