以Cecil Textbook of Medicine為語(yǔ)料庫(kù)的醫(yī)學(xué)英語(yǔ)詞表構(gòu)建
發(fā)布時(shí)間:2017-10-11 14:20:50
【摘 要】筆者以醫(yī)學(xué)英語(yǔ)學(xué)習(xí)者為主要服務(wù)設(shè)計(jì)對(duì)象,以醫(yī)學(xué)內(nèi)科界的權(quán)威書(shū)籍Cecil Textbook of Medicine為語(yǔ)料庫(kù),以自主開(kāi)發(fā)的詞頻統(tǒng)計(jì)軟件獲取的單詞詞頻為依據(jù),參考了GSL&AWL 詞匯表,構(gòu)建了兩個(gè)醫(yī)學(xué)英語(yǔ)詞匯表,分別是General Word List of Internal Medicine 和Internal Medicine Terminology List,旨在提高醫(yī)學(xué)英語(yǔ)學(xué)習(xí)者單詞記憶有效性,也為醫(yī)學(xué)英語(yǔ)的教材編寫(xiě)、教學(xué)大綱的確定以及在此基礎(chǔ)上衍生的醫(yī)學(xué)英語(yǔ)學(xué)習(xí)者語(yǔ)料庫(kù)的完善和計(jì)算機(jī)輔助教學(xué)的展開(kāi)提供一定的學(xué)術(shù)參考。
【關(guān)鍵詞】醫(yī)學(xué)英語(yǔ) Cecil Textbook of Medicine 語(yǔ)料庫(kù)語(yǔ)言學(xué) 詞頻 GSL&AWL
基金項(xiàng)目:西安思源學(xué)院2016年橫向課題“基于Cecil Textbook of Medicine的醫(yī)學(xué)英語(yǔ)詞表構(gòu)建”。
引言
隨著20世紀(jì)80年代開(kāi)始大規(guī)模計(jì)算機(jī)語(yǔ)料庫(kù)的陸續(xù)創(chuàng)建和數(shù)據(jù)驅(qū)動(dòng)的語(yǔ)言學(xué)研究方法的普及,研究者們得以通過(guò)定量的方法對(duì)詞匯進(jìn)行更客觀準(zhǔn)確的統(tǒng)計(jì)。將詞匯按照使用頻次來(lái)劃分,成為語(yǔ)料庫(kù)方法下詞匯研究的重要成果,對(duì)于外語(yǔ)教學(xué)也具有重要的指導(dǎo)意義[1]。醫(yī)學(xué)英語(yǔ)具有詞匯量大、結(jié)構(gòu)復(fù)雜、專業(yè)性強(qiáng)、難以記憶等特點(diǎn),而通過(guò)詞頻統(tǒng)計(jì)篩選出高頻醫(yī)學(xué)詞匯,可以從一定程度上解決醫(yī)學(xué)英語(yǔ)詞匯習(xí)得中的這一瓶頸問(wèn)題。
理論回顧
1.Cecil Textbook of Medicine
Cecil Textbook of Medicine由J. Claude Bennett, M.D.和Fred Plum, M.D.編纂,是集合各方面專家共同執(zhí)筆的、世界上最具權(quán)威的醫(yī)學(xué)內(nèi)科學(xué)寶典?;谝韵?方面原因該書(shū)被選為本文語(yǔ)料庫(kù):
第一,經(jīng)典著作,確保語(yǔ)料庫(kù)的可信性。Cecil Textbook of Medicine自1927年出版以來(lái),再版22次,獲得醫(yī)學(xué)界專家一致的好評(píng),擁有數(shù)萬(wàn)擁躉。它清晰的寫(xiě)作和權(quán)威的疾病論述使得成千上萬(wàn)的讀者自動(dòng)地視其為首選參考書(shū)。
第二,完整涵蓋內(nèi)科學(xué),確保語(yǔ)料庫(kù)的完整性。全書(shū)共包括2,132,382個(gè)字,共計(jì)28個(gè)單元、448章。每章都詳細(xì)闡述了一種或一類疾病從發(fā)病機(jī)理到臨床及愈后的各環(huán)節(jié),強(qiáng)調(diào)病理個(gè)生理機(jī)制。因此,通過(guò)學(xué)習(xí)該書(shū),讀者可以系統(tǒng)、深刻地認(rèn)識(shí)整個(gè)內(nèi)科學(xué)[2]。
第三,電子版本確保語(yǔ)料庫(kù)的可操作性。第22版的《西塞爾內(nèi)科學(xué)》隨書(shū)贈(zèng)送光盤(pán),有利于詞頻統(tǒng)計(jì)軟件進(jìn)行詞頻分析統(tǒng)計(jì)。
2.詞頻和詞頻統(tǒng)計(jì)軟件
詞頻影響著語(yǔ)言從輸入到輸出的轉(zhuǎn)化,影響著語(yǔ)言加工的熟練程度和流利性。隨著計(jì)算機(jī)技術(shù)、語(yǔ)料庫(kù)以及語(yǔ)料庫(kù)語(yǔ)言學(xué)的發(fā)展,對(duì)詞頻作用的研究也成為語(yǔ)言學(xué)及語(yǔ)言教學(xué)的一個(gè)研究熱點(diǎn)。而跟詞頻密切相關(guān)的就是語(yǔ)料庫(kù)和語(yǔ)料庫(kù)語(yǔ)言學(xué)。詞頻統(tǒng)計(jì)的發(fā)展伴隨著語(yǔ)料庫(kù)的發(fā)展,許多語(yǔ)料庫(kù)也提供相應(yīng)的詞頻統(tǒng)計(jì)表;反之,詞頻統(tǒng)計(jì)也為語(yǔ)料庫(kù)的建立提供了重要、有價(jià)值的信息和線索。
詞頻統(tǒng)計(jì)是詞匯分級(jí)和篩選的重要依據(jù),在教學(xué)大綱設(shè)計(jì)、教材編寫(xiě)、語(yǔ)言測(cè)試、語(yǔ)言習(xí)得等方面都有廣泛的應(yīng)用。根據(jù)詞頻統(tǒng)計(jì)的結(jié)果,分析、整理得出的詞匯表是非常有價(jià)值的。根據(jù)詞頻,哪些單詞是重點(diǎn),學(xué)習(xí)者一目了然,從而學(xué)習(xí)和積累針對(duì)個(gè)體差異的積極詞匯和認(rèn)知詞匯。而醫(yī)學(xué)英語(yǔ)作為專門用途英語(yǔ)ESP(English for Special Purpose),更是需要詞頻來(lái)指導(dǎo)學(xué)習(xí)者進(jìn)行語(yǔ)言習(xí)得。隨著計(jì)算機(jī)的迅猛發(fā)展,越來(lái)越多的詞頻統(tǒng)計(jì)軟件被開(kāi)發(fā)和應(yīng)用。此次,作者專門根據(jù)課題的需要開(kāi)發(fā)設(shè)計(jì)了一個(gè)詞頻統(tǒng)計(jì)軟件。
3.GSL&AWL詞匯表
高頻詞匯涵蓋口語(yǔ)及各類書(shū)面語(yǔ)中的大部分常用詞匯,最具代表性的是由West(1953)提出的一般用途英語(yǔ)詞匯表GSL(General Service List),其中包含英語(yǔ)中最為常用的2000個(gè)詞組,覆蓋了英語(yǔ)口語(yǔ)中大約90%~95%的詞匯和書(shū)面語(yǔ)中80%~85%的用詞,可滿足日常一般用途英語(yǔ)的使用需要[3]。此論文中采用的是1995年由John Bauman and Brent Culligan創(chuàng)立的詞表。此詞匯表不僅包括1953年構(gòu)建的GWL詞表最初收錄的2000個(gè)中心詞,還增加了在Brown Corpus出現(xiàn)頻率較高的284個(gè)中心詞。
AWL是Academic Word List的縮寫(xiě),即英語(yǔ)學(xué)術(shù)詞匯表,由Averil Coxhead在新西蘭惠靈頓維多利亞大學(xué)創(chuàng)建。該表包括了570個(gè)詞組(head word),涵蓋除GSL以外學(xué)術(shù)語(yǔ)篇中出現(xiàn)的約10%的詞匯。且按照使用頻率劃分為10個(gè)子詞表,其中一個(gè)子列表則包含詞頻最低的學(xué)術(shù)詞匯[4]。AWL以大量真實(shí)的學(xué)術(shù)英語(yǔ)語(yǔ)料為基礎(chǔ),采用了合理的建構(gòu)方法,不僅科學(xué)地指出ESP即學(xué)術(shù)英語(yǔ)教學(xué)中哪些詞匯應(yīng)該被包含在學(xué)習(xí)材料中,同時(shí),AWL子表的編排也為ESP教材的編寫(xiě)和詞匯教學(xué)的順序提供了一定依據(jù)。這也是本文選用AWL作為甄選比對(duì)單詞覆蓋率詞表的原因所在。
詞表建構(gòu)
在詞頻統(tǒng)計(jì)中,專業(yè)學(xué)術(shù)英語(yǔ)詞匯選擇通常遵循兩個(gè)主要標(biāo)準(zhǔn),即范圍和頻率。在AWL的編制過(guò)程中,最終進(jìn)入詞表的詞匯不應(yīng)包含GSL,但能夠覆蓋建庫(kù)28個(gè)學(xué)科中一半以上學(xué)科語(yǔ)料,即保證入選詞匯使用范圍的廣度。入選詞匯還應(yīng)達(dá)到一定的使用頻率要求。在AWL所建3,500,000個(gè)詞的學(xué)術(shù)英語(yǔ)語(yǔ)料庫(kù)中,最終統(tǒng)計(jì)生成的學(xué)術(shù)英語(yǔ)詞匯在語(yǔ)料庫(kù)中的使用頻率至少應(yīng)達(dá)到100次以上,而高頻學(xué)術(shù)詞匯的使用頻率可達(dá)數(shù)千次。所以,在自建專業(yè)學(xué)術(shù)英語(yǔ)語(yǔ)料庫(kù)基礎(chǔ)上進(jìn)行詞頻統(tǒng)計(jì)時(shí),建庫(kù)者可根據(jù)實(shí)際需要來(lái)設(shè)定詞匯篩選統(tǒng)計(jì)的范圍和頻率標(biāo)準(zhǔn)[5]。因此,單詞甄選基于以下3個(gè)基本原則:第一,根據(jù)詞頻,高頻詞入選詞表。第二,根據(jù)詞表的大小。第三,根據(jù)對(duì)象。Cecil Textbook of Medicine的主要讀者是醫(yī)生、醫(yī)學(xué)從業(yè)者、醫(yī)學(xué)院高年級(jí)學(xué)生、研究生等。他們本身已經(jīng)掌握了一些GSL詞表中高頻單詞,所以有必要將這些單詞過(guò)濾出詞表。具體分為以下6個(gè)步驟。
根據(jù)詞頻統(tǒng)計(jì)結(jié)果共有34,955個(gè)單詞出現(xiàn)在Cecil Textbook of Medicine?;谠~表的詞匯量以及隨后自建小型醫(yī)學(xué)英語(yǔ)學(xué)習(xí)者語(yǔ)料庫(kù)的容量,筆者從這34,955個(gè)單詞中選取了大約8,000個(gè)單詞。根據(jù)詞頻統(tǒng)計(jì)結(jié)果,單詞出現(xiàn)的最高詞頻105,139次,而最低的詞頻是1次。有必要截取過(guò)濾掉這一部分功能詞。下表展示了一部分截取過(guò)濾的功能詞信息:
部分截詞詞表
通過(guò)截詞將GSL詞表收錄的單詞部分過(guò)濾出去,將剩余單詞同AWL詞表進(jìn)行比對(duì)、分析、計(jì)算覆蓋率等。
仿照antconc軟件的詞形還原功能,人工將詞表中單詞的不同變化形式進(jìn)行歸類、合并,組成一個(gè)單詞,找出主詞(headword),進(jìn)一步確認(rèn)其屈折變化以及派生變化。
Coxhead & Nation(2001)將英語(yǔ)詞匯劃分為四類,即高頻詞匯、學(xué)術(shù)詞匯、專業(yè)詞匯和低頻詞匯[6]。對(duì)于ESP學(xué)習(xí)者,造成詞匯困難的不是一般用途詞匯,也不是與學(xué)科高度相關(guān)的專業(yè)詞匯,而是介于兩者之間的學(xué)術(shù)詞匯。所以,這一步驟分離常用學(xué)術(shù)詞匯(半專業(yè)詞匯)和專業(yè)詞匯。最終得到兩個(gè)醫(yī)學(xué)英語(yǔ)詞表,分別為General Word List of Internal Medicine 和Internal Medicine Terminology List。
為了進(jìn)一步減少失誤,在上述步驟都完成之后, 筆者邀請(qǐng)了醫(yī)學(xué)英語(yǔ)界的權(quán)威、醫(yī)學(xué)英語(yǔ)教師、內(nèi)科醫(yī)生、醫(yī)學(xué)專業(yè)在校學(xué)生,對(duì)詞表做最后的檢查和鑒定。
進(jìn)一步開(kāi)發(fā)語(yǔ)料庫(kù)
在詞表的基礎(chǔ)上,可以研究開(kāi)發(fā)開(kāi)放式醫(yī)學(xué)英語(yǔ)學(xué)習(xí)者語(yǔ)料庫(kù)。該語(yǔ)料庫(kù)專為Cecil Textbook of Medicine英文版的學(xué)習(xí)者設(shè)計(jì),收錄該單詞在Cecil Textbook of Medicine中出現(xiàn)的頻率,通過(guò)前綴、后綴、詞根以及屈折變化、派生變化等構(gòu)詞法分析來(lái)強(qiáng)化記憶,也提供檢索功能,語(yǔ)料庫(kù)使用者可以檢索出該單詞在Cecil Textbook of Medicine 中的相關(guān)例句,也可向語(yǔ)料庫(kù)中添加沒(méi)有被語(yǔ)料庫(kù)收錄的詞條等。
參考文獻(xiàn):
[1]張敏:《專業(yè)學(xué)術(shù)英語(yǔ)詞匯表編制及其在EAP教學(xué)中的應(yīng)用》,《重慶世界》2011年第28(6)期,第100-102頁(yè)。
[2]J.Claude Bennett,M.D.& Fred Plum,M.D:Cecil Textbook of Medicine,(W.B.Saunders Company , 2003).
[3]M.West:A general service list of English words, (London Longman Green &Co.,1953).
[4]A.Coxhead:“A new academic word list”,TESOL Quarterly,2000,34(2):P213 -238.
[5]HylandK,TseP:Is there an “‘a(chǎn)cademic vocabulary’?”TESOL Quarterly,2007,41(2):P235-253.
[6]Flowerdew & Peacock:Research perspectives on English for academic purposes(Cambridge: Cambridge University Press,2001).



