時間:2023-06-12 16:20:42
導語:在超高效學習方法的撰寫旅程中,學習并吸收他人佳作的精髓是一條寶貴的路徑,好期刊匯集了九篇優秀范文,愿這些內容能夠啟發您的創作靈感,引領您探索更多的創作可能。

關鍵詞:英語詞匯教學,農村高中
所謂病從淺中醫,東西也要從最簡單的學起,在英語教學中,詞匯既是基礎又是難關。可能有人會問,“為什么這樣說呢?”其實很簡單,因為學習一門語言,首先從詞---句---篇的順序,但是根據對現狀的調查,現在的學生對英語的最難過的也是詞匯。所以說,英語詞匯教學從開始到結束都是占有很大的比重。2001年,自從中國加入世貿,中國與外國的聯系越來越多,不但是政治、經濟上,就連文化上也有很大的交融,特別的,英語在全球是最廣泛的語言,但是從對農村高中英語調查來看,大部分的學生都是反映英語教學詞匯始終是沖不破的難關,雖然農村學生比較勤奮,但是仍然對英語詞匯摸不著頭腦,這到底是為什么?難道還不夠勤奮,非也!應該是沒有一個系統的學習方法,學習一樣東西除了要付出相應的努力外,還要有計劃有方法,那樣學東西才能事半功倍。對于英語詞匯教學,很多商家洞察先機,生產了很多英語學習機(例如:一本通、諾亞舟、文曲星等等),有些家庭為了能讓自己的孩子在英語詞匯方面有了一定的突破,都為他們買了學習機,希望能提高他們的詞匯量,還有些家庭聘請了家教,讓他們傳授學習方法給自己的孩子……。這些做法都反映了人們注重英語詞匯的教學,同時一些農村高中委派老師到一些地方培訓,學習先進的經驗和方法。
先探討農村高中教學的英語詞匯教學:
現在的農村高中英語詞匯教學中,許多教師習慣于照著課本,脫離具體的語境來教詞匯,使得詞匯學習變得枯燥乏味,繼而造成學生對學習英語詞匯的興趣和信心漸漸喪失。這對廣大教師有效的提高詞匯教學帶來了更高的挑戰。詞匯學習效率低下,給學生在聽說讀寫諸方面的學習帶來了很大的困難。他們的學習應該是較高階段的學習,死記硬背不僅僅是枯燥乏味的,而且往往會徒勞無功,學習效率不高。特別的一些地區似乎只有學生掌握了語法,說出來的英語才“正宗”,殊不知,沒有一定量的詞匯輸入,學生語法學得再好,句型框架學得再多,學生們還是“巧婦難為無米之炊”,長此以往,學生們學成的英語便演變成“啞巴英語”;語法學得好的同學也只是暫時地能應付考試,卻無法領會英語作為語言工具可以交流的快樂。尤其是近年來推廣使用的高中牛津英語詞匯量大,掌握要求高,不少學生感到難以適應新一輪英語課改的要求。一方面,缺少訓練的平臺;農村高中的教學設備不足,很多時候學生只能在課堂的45分鐘接受英語知識,沒有其他方面的交流,但是對牛津英語詞匯只能靠短短的45分鐘是遠遠不夠的;另一方面,由于高考的影響,很多地區都是應試教學(在農村最為出),所以一些老師總是重語法輕詞匯,由于農村的條件差,學生回到家后還要干活,不能把時間全部投進學習,而老師又是教學生自己記單詞,學生一、沒有時間,二、缺乏科學的記詞匯方法??偟膩碚f這樣下去,學生的詞匯效果還是不能提升。還有,英語是一門語言,少不了交流,但是對農村學生來說,英語交流很貧乏,所以學生記詞匯時只是機械式的記憶,只是注重知識的傳授,單純地講解詞匯的詞義、拼寫及各種用法,把英語單詞和漢語意思籠統對應,或簡單舉例,缺乏對構詞法知識和詞的文化內涵的講解,更不善于把詞放在一定語境中講解。殊不知,這又陷入了詞匯教學的另一個誤區。教學反饋——詞匯量不足,對詞匯學習漸失信心;據調查,農村的學生大部門都認為讀書是他們唯一的出路,所以他們把高考看成人生中的一件大事,因此心理上就有很大的負擔,因為他們知道,他們不可以輸。慢慢的自卑的心理也出現了,當他們看見別人比自己好,心理就過不去,加上如果還有考試失敗的話,可能會導致心理上的打擊,所以學生都是忙著背單詞,有同學甚至背詞典,但收效甚微。這令他們苦惱萬分,有的對詞匯學習漸失信心,有的甚至采取放棄的態度。這不能不令人擔憂。所以教師在教學過程中要有意識地發現語言成分之間的共同形式特征,讓學生感受到語言的魅力,激發他們英語學習的興趣;學東西關鍵的是有興趣,如果興趣失去了,很多學生的主動性便會變得很低,學生的動力就會下降。單是在壓力的驅動下使學生記好單詞,不但取不到好的效果,而且還有給學生造成心理的負擔。比如說,可以通過搞什么比賽活動或師生的互動,盡量的提及有關活動式的教學,那么學生的興趣就會提高。
鑒于種種情況,筆者擬就本文談談詞匯教學的幾點具體做法。
1.在新授課中,通過情景教學,利用具體的語境來傳授新的詞匯。在新教學中,英語注重的更多是語境,記得上大一的時候,老師不是一味的給我們解析單詞的意義,而是從語境出發,著重講解文章的語境,讓我們從英語的語境中掌握詞匯,那樣一來不但減少工作量又能增加樂趣,同學在明白英語語境時又能從深層的領會到英語精髓,可以說是一舉幾得;因為英語是一門語言,學好一門語言首先要融入語境來理解,就好像學習古文一樣,要知道作者當時的背景,那樣才能明白作者當時的心情和作者的寫作目的。英語教學也是一樣,詞匯教學方法要求學生通過語境猜測詞義,通過意境領悟語感這對學生掌握詞匯也具有重要的意義。因為信息處理水平對記憶具有很大的影響。對信息的加工水平越深,信息就越能更長時間地深存在記憶中。
2.運用階段,可以采用讀和寫,說等,或者是通過翻譯寫作來操練所學的詞匯。英語學科離不開交流,所以學生在學習時要多朗讀,多聽,還有就是多寫,對于《牛津英語》教材題材豐富,詞匯量大,知識涉及面廣,信息量大,圖文并茂,內容新穎,實用性強等特點,學生如果還是一味的記單詞可能收獲不大,但是如果學生能通過多讀,讀寫。多聽,那么學生的閱歷就會更廣,而且語感也會慢慢的變好,還有的就是學生能通過寫作來提升詞匯,比如說,同意思的單詞不知一個,學生在寫作時默寫一個單詞時要想到另外一個單詞,那樣學生的記憶就會提高,同時在無意中學生把一些同義詞匯歸類了,記得上高中時老師曾經對我說,“當你們閱讀或翻譯時,遇上不懂的單詞就把它抄出來,然后查出它的意思和用它造句,周期性的回顧”當時我是半信半疑的,可是但我像老師說的那樣做時,慢慢的發現詞匯量增加了。
3.鞏固階段,可采用復述課文的大意等鞏固所學的詞匯。這就要整篇文章的結構都要理解,就像當我們做閱讀時,遇到不懂的單詞,不是叫我們停下來想單詞的意思,而是通讀文章,明白文章的內容后再回來弄懂該單詞的意思,有時候可以從上下文來明白單詞的意思。高中那個時,我班有個同學,她的閱讀能力超高,而且速度很快;當時我就很不解的問她,“為什么你的閱讀那么快,而且準確率那么高”,她只是笑笑的說,“沒有你們好,我的詞匯沒有你們多,我想我可能是從通篇內容來弄懂單詞的意思的吧”,想想,也是,不想我們那樣,一遇上不懂的單詞就慢慢的停下來想,所以閱讀能力自然低,在這里筆者認為,通過文章內容或上下句明白詞匯是一種很好的辦法。
4.創新式,所謂創新就不想以前那樣看到單詞就死機,而且是機械式的那種,而是采取適合現代學生的要求來記憶。這幾年各式各樣的詞匯記憶方法都有,例如,詞匯整體教學法、歸類法、記憶幫助法等,然而迄今為止結合牛津教材特點實施的有效詞匯教學的研究成果還不多,尤其是適合學力中下的農村學校的學生的詞匯教學方法更為匱乏。雖然上面所說的方法理論上有用,但是對于新版的牛津詞匯教學就不太適用了。筆者想在這里提出語音串記,字根巧計,語音串記就是利用新語言信息和已掌握語言信息之間語音上的某種共同特征來建立兩者之間的聯系,以此來促進單詞的記憶。如大家熟知的英語諺語:(1)Anappleadaykeepsthedoctoraway.一天一蘋果,不用請醫生。一方面加強了句子內部以及句子間的組織程度,另一方面更方便了批量單詞的記憶。還有字根式的—ject推出project,reject等等。通過結合語音或字根可以使詞匯更加牢固。
5.興趣式,根據調查,農村高中英語教學大部分都是很孤躁,同學的興致都沒有,整個教室呈現出沉悶的氣氛。其實無論做什么最重要的還是興趣,就像填志愿時,學生都是根據興趣去填自己喜歡的專業,如果做一樣事自己是沒有興趣,即使是做了,還是按部就班,根本沒有動力,由于缺乏了自動力,那么想學好它就是難事,所以在新版的英語教學中,由于牛津教學更切實生活,當時詞匯量大大提高了,學生要從生活上的樂趣學習,老師上課時也可以提出師生互動或讓學生成為課堂的主人,讓他們自由發揮,可以的話,通過問答形式,那樣聽的同學有精神,答的同學有記憶。其實條件允許的話可以通過通過舉行公開課,因為公開課一來可以使學生認真聽課,二來上課的效率又高,學生的積極性相對的也提高。學生興趣被激發起來后,學單詞的一大難事就不再可怕了。在課件中插入許多相關圖片,準備在課上教給學生。用生動形象的圖片作為載體,讓學生在快樂中學會單詞。特別的對于牛津詞匯教學本來就是很孤躁的學科,如果再不能提升學生的興趣,英語詞匯根本就跟不上。
6.網絡式,因為現在網絡技術非常發達,學生用所有可使用的資源,如網絡,圖片,漫畫,動畫,VCD,flash,電腦光盤等,各類文件播放載體如豪杰超級解霸,realplayer,flash等。課件的目的很簡單,不求花哨,只求實用,做教學有效的輔助手段。通過網絡可以下載一些詞匯軟件,也可以通過看一下西方的電影,話劇,在平時的生活中了解英語,把以前的被動變成主動,讓“生活會說話”,通過網絡上的英語聊天,英語上網,詞匯默寫等等方式來記憶英語詞匯。例如現在的視聽說(網絡版),那就需要同學們在網絡上完成人機口語,同學在上機做英語,一方面學習的效率高;另一方面,學生不會感覺到尷尬,因為上課時,學生會考慮到自己的詞匯不懂,從而自己的信心下跌。所以通過網絡,學生敢大聲朗讀。
7.師生配合;因為英語詞匯教學不單單是老師或學生的問題,要老師與學生相結合才能發揮最大的作用,老師在上課有什么問題是沒有說到的?哪個方面做得不好的?有沒有認真備課?學生有沒有預習?有沒有按照老師的要求學習?等等都會影響英語詞匯教學。所以學生可以通過師生的交流,培養老師與學生之間的關系,可以的話,做一些評價,就是評價老師的上課能力和學生的學習能力,學生在學習中領會到老師的上課方法。老師在授課中明白學生的難處,那樣針對性的學習可以縮短時間提高效率。
8.作為學校方面應該采取獎勵制度;就是對好的學生好的老師進行期末評比,然后進行表揚。那樣老師就會更加用功的講課,學生也會更加努力的學習。還有的就是老師和同學都會變得更加主動。好的老師,學生繼續努力。沒有得到獎勵的老師和學生也會抓緊,這樣共同進步,共同發展,形成了良好的學習風氣。
結論:詞匯教學是高中英語教學中非常重要的環節。英語詞匯是英語學習的基礎,是語言的三大要素之一。高中學生在英語學習中遇到的主要問題之一是詞匯,詞匯在英語學習和教學中的重要性已經引起國內外專家的認識與肯定。英語教學和其他學科的教學一樣,就是要結合詞匯,事實證明,很多學生花很多時間和精力學習詞匯,卻沒有得到預期的效果,主要原因就是他們缺乏有效的詞匯學習策略,不懂得如何有效地學習和鞏固詞匯。學生是教學活動的主體,如果能夠在語言學習過程中,教師在高效率開展教學活動的同時,有效地指導學生的外語學習,特別是有效地指導學生的詞匯學習,讓學生掌握一些行之有效的詞匯學習理論與方法,無疑將促進他們對語言學習的興趣和提高學習自主性,使其真正成為學習過程的主體。在詞匯教學中,采用多種教學方法相結合的方式才能擴大學生詞匯量,多方面提高學生學習新詞匯的能力和水平,才能使學生合理、準確地使用所學詞匯,進行聽、說、讀、寫、譯等各項活動,語言交流才能得以更好地實現。
參考文獻:
〔關鍵詞〕在線評論;意見挖掘;特征抽??;文本分析
DOI:10.3969/j.issn.1008-0821.2016.08.031
〔中圖分類號〕TP3911〔文獻標識碼〕A〔文章編號〕1008-0821(2016)08-0168-06
〔Abstract〕With the rapid development of Web20 technology and electronic commerce,more and more customers participate in the Internet,share product experience and express likes or dislikes about product.It is a challenge to extract product feature from customer reviews effectively in the product opinion mining field.Firstly,this paper introduced the research progress of extracting product feature from frequency,co-occurrence,modeling and implicit feature mapping both at home and abroad.Secondly,it presented their strength and limitation respectively.Finally,it enumerated some research interest about this task.
〔Key words〕online review;opinion mining;feature extraction;text analysis
近年來,隨著Web20技術的發展,大量的在線產品評論文本不斷涌現,對于有購買意向的潛在消費者來說,手工從產品評論中總結歸納出消費者對已購產品所持的褒貶態度是不現實的,尤其是意見相左的產品評論更讓他們感到無所適從;對于生產廠家來說,從產品評論中了解消費者對產品整體或某一特征的意見,對企業競爭情報分析和后期產品質量的改進都大有裨益,因而對于評論中用戶表達意見的研究具有重要意義。
隨著物質文化生活水平的提高,人們對消費品需求日趨多元化、個性化,他們不再滿足于產品的整體性能優劣,而是根據個人的消費喜好來關注產品的某一部件或屬性的性能,較多關注產品局部的評論內容,因此如何準確全面抽取評論文本中所蘊含的產品特征信息是研究者所面臨的重要問題。本文站在技術實現的角度從四個方面綜述文本評論中產品特征抽取技術在國內外的研究進展及各自的優勢和不足,最后指出產品特征抽取技術所面臨的挑戰和今后的發展方向。
1基于頻繁項的特征抽取
該方法通常對評論語料中出現頻率較高的名詞或名詞短語應用約束條件而抽取出來作為產品特征。產品特征詞通常由名詞、形容詞、副詞或動詞組成。Liu[1]認為60%~70%的產品特征詞是顯式名詞,由于人們習慣在評論中經常使用,因此產品的部件或屬性常由經常出現的這類名詞表示,同時還需要對頻繁出現的名詞中的非產品特征詞進行過濾。
Hu[2]最先提出的基于特征摘要(Feature-based Summarization)算法。他首先將產品評論中頻繁出現的名詞短語作為候選種子詞,然后通過密實度修剪(Compactness Pruning)去掉那些未按照指定順序在一起出現的無意義詞以及冗余修剪(Redundancy Pruning)去掉未能表示產品特征的單個詞,比如手機產品評論中的“時間”一詞,只有在“待機時間”或“通話時間”的名詞短語中才表示手機產品屬性,單獨出現則毫無意義,所以就把它從候選種子詞中去掉。隨后Popescu[3]基于如下假設:共現的次數越多的兩個詞,則它們之間的關聯度越高,因此Popescu提出點互信息(Point-wise Mutual Information,PMI)方法比Hu的算法提高了22%的準確率,但是召回率降低了3%。Ku[4]利用TF*IDF從文檔和段落級別來判斷某詞對產品特征的重要程度,Scaffidi[5]也用此方法將頻繁出現的名詞短語候選項在評論語料中的出現頻率與在一般性英文中的出現頻率進行比較。Raju[6]等人同樣在實驗中丟棄所有那些相比在產品描述中更為頻繁出現在一般性英文中的名詞短語,然后將剩下的描述產品同一特征的名詞短語進行聚類,該模型通過雙連詞重疊(Bigram Overlap)值來衡量名詞短語間的相似性,最后只保留至少含3個名詞短語的聚類簇。Long[7]等人基于出現頻率和信息距離(Information Distance)的考慮來抽取名詞短語,他們首先通過統計頻率方式找到產品特征核心詞,然后利用信息距離來查找與產品特征相關的其他詞或短語,如“”和“Dollars”均是產品價格屬性的核心詞。Hao[8]提出的基于語言依存分析和語料庫統計相結合的未登錄產品特征項抽取算法,實驗證明抽取的前200個產品屬性中準確率達到875%。
基于頻繁項的產品特征抽取方式簡單高效,許多商業機構通過這種方式分析客戶對產品的反饋意見。但也導致了抽取過程中出現過多與產品特征無關的詞匯同時漏掉那些不常出現的產品特征詞。另外需要對各種閾值參數進行手工調整,因此移植性差。
2基于產品特征和意見的共現關系
基于共現關系的產品特征項抽取前提是產品意見挖掘的主觀陳述中,意見的表達總是針對具體的評論對象,而意見詞在文本評論中是容易發現的[9]。
Liu[10]實現的Opinion Observer系統針僅對句子級的用戶評論內容使用監督模式發現算法進行意見挖掘后并可視化顯示不同產品(3種品牌)中各個特征(顯示屏、電池、揚聲器等)的比較結果。首先通過詞性標注器(NLProcessor Linguistic Parser)對訓練集進行詞性標注,然后手工識別產品特征項并用指定的詞([Feature])取代,如:“超高的性價比”被標注為“超高的ADJ性價比NN”,其中ADJ和NN分別表示形容詞和名詞。接著用“[Feature]”替換掉“性價比”,結果變成“超高的ADJ[Feature]NN”形式,上述操作的依據是他認為用戶在評論中的描述方式通常是以類似的語法形式出現,只是所用的特征項不同,所以需要詞性標注和[Feature]替換作為尋找語法規則的橋梁。最后利用關聯規則挖掘對上述的詞性標注模式進行產品特征項抽取。實驗結果表明該方法可使召回率和準確率分別達到902%和889%的效果。
Baccianella[11]提出的層次性評級(Multi-facet Rating)方式抽取產品特征。首先通過預定義的3種POS模式抽取出意見短語(如:“nice room”、“horrible location”)作為候選項,然后充分利用General Inquirer[12]詞典中情感詞的極性、強度、詞性等標簽知識對候選項進行細粒度的標注,比如將“nice room”標注為“[Virtue][Positive]room”,將“horrible location”標注為“[Strong][Negative]location”。最后按照這些已標注過的候選項的區分度使用最小方差(Minimum Variance)進行計算打分完成產品特征的抽取,在對TripAdvisor網站爬取來的26 000條酒店評論實驗中發現微觀平均絕對誤差(Micro Mean Absolute Error)降低了359%,宏觀平均絕對誤差降低了302%。
利用產品特征項的句法結構來抽取匹配項的方式,對于意見評論句中出現的相似句法結構處理起來顯得有些無能為力。針對該情況,Jiang[13]基于樹核(Tree Kernel)函數提出在線產品評論的產品特征抽取和情感極性分類方法可以隱式利用句法結構的子結構(substructure)特點并計算出子結構間的相似性。
Zhuang[14]通過應用依賴解析器來識別產品項之間的依賴關系和Du[15]利用產品特征項與情感詞之間的關系達到抽取的目的。二人均首先考慮將所有的名詞短語和形容詞分別作為產品特征項和情感詞,然后基于二者的共現關系建立對應的知識圖,最后使用信息增強(Information Reinforcement)的圖聚類算法來抽取與情感密切相關的產品特征項。隨后Hai[16]也利用產品特征項和情感(aspect-sentiment)之間的共現矩陣挖掘出用來形成抽取新的產品-觀點對的規則集。Qiu[17]也將依賴關系的思想應用到雙傳播方法中同時完成產品項和情感詞的抽取任務。Shi[18]通過人工建立基于產品特征的概念模型再利用中文語義詞典擴展的方式完成特征-意見對的抽取。
基于產品特征和意見之間共現關系抽取產品特征項的優勢在于能發現低頻的產品特征項,不足之處是抽取出的匹配共現關系模式的短語項中部分不能表示產品特征。簡言之,這類方法的召回率高,準確率低。
也可將基于頻繁項和基于共現關系的兩種抽取方法結合使用,主要思想就是產品特征通常由頻繁出現的名詞表示并被情感詞所修飾。因此常利用特征-情感關系對過濾掉非特征詞。Li[19]等人首先從關于手機評論的中文文本中抽取出頻繁出現的名詞短語作為候選特征詞,然后通過如下兩步處理掉候選項中的噪音詞,第一步使用形容詞限制模式,如:ADJNN,其中ADJ表示形容詞,NN表示名詞短語;第二步利用信息檢索(Information Retrieve)的詞頻(Term Frequency)計算,將那些在Web文本中出現頻率高的常用詞從候選項集中去掉,因為Li認為頻繁出現的常用詞表示產品特征的概率低。實驗結果證明該算法優于僅使用自然語言處理產品特征的抽取技術并且具有領域適應性。Yu[20]利用領域知識(如產品說明書)將產品的所有特征以樹狀結構組織。該思路首先是從評論中抽取高頻名詞短語,然后對單分類支持向量機(One-class SVM)進行訓練以識別候選特征項,接著利用特征項間的語義距離(Inter-aspect Semantic Distance)對候選特征項進行篩選。特征項間的語義距離一般由共現頻率、上下文相似性和句法模式相似性等因素決定。最后通過遞增式迭代將符合條件的特征項陸續加入到初始的樹狀結構中形成完整的層狀產品特征樹,對來自4個領域的11種產品的特征抽取實驗證明了該算法的有效性。
與前兩種方法相比,組合方式的優勢在于由于使用了更多的約束條件(如:頻率閾值和關系模式)使得非產品特征詞的數量大大減少,不足的地方是仍會抽取出低頻的非產品特征詞,同樣也需要對各種訓練參數進行手工調整。
3基于訓練模型的特征抽取
上述3種方法的局限性在于需要人工干涉抽取算法中的各種參數,并且定制好的抽取規則難以移植到其他數據集中去,而自動從數據中學習訓練參數的訓練模型則能克服該局限性。
31監督學習技術方式
特征抽取通??醋魇且话阈畔⒊槿〉奶乩敲葱畔⒊槿≈兴褂玫谋O督學習算法仍適用于意見挖掘中對產品特征、觀點詞和觀點極性的識別。已有基于監督學習技術的模型如隱馬爾科夫模型[21](Hidden Markov Model)和條件隨機域[22](Conditional Random Field),它們采用序列學習(Sequential Learning)方法,主要從標注的訓練數據中推斷出函數以應用到未標注的數據中去,是目前研究較多的兩種模型。其中隱馬爾科夫模型屬于生成概率模型,它使用聯合概率分布為觀察序列從狀態集合中選擇具有最大可能性的狀態序列過程。條件隨機域屬于判別式概率模型(Discriminative Probabilistic Model)它是在給定觀察序列的條件下,計算整個觀察序列狀態標記的概率無向圖學習模型。
Wong[23]結合隱馬爾科夫模型提出的概率圖模型對來自多個站點的數碼相機、MP3播放器和液晶電視的產品特征進行聯合抽取和分組。Jin[24]基于隱馬爾科夫模型實現的OpinionMiner機器學習系統主要將詞性標注信息與馬爾科夫假設相結合,產生的每個詞不僅由它前面的詞決定并且也依賴于自身的詞性標簽。實驗首先建立由產品特征項、正負觀點詞(包含顯式和隱式)和背景詞組成的標簽集,然后利用該標簽集手工標注訓練文檔,接著將該標注的文檔通過自學習的方式抽取高置信度的特征項,最后應用基于HMM的模型用來抽取出所有產品特征和觀點詞。Li[25]采用Skip-CRF和Tree-CRF兩種CRF變體結合方式完成產品特征項的抽取任務,該方式可利用文本評論中的句子結構并解決了傳統CRF在學習過程中只能使用詞序列的缺陷。其中Liu[10]和Choi[26]在實驗中也用到條件隨機域(CRF)模型,其中Choi通過標簽、依賴關系、詞距(Word Distance)和觀點句使用序列模式挖掘技術形成一套序列模式規則來發現產品特征項和觀點詞。對于中文評論文本中產品特征項的抽取工作,Song[27]首先人工定義文本模式構成種子集合,再采用Bootstrapping算法從評論語句中抽取評價對象,然后將評價對象聚類為產品名稱和產品特征兩類,該方法取得較高召回率和準確率,但忽視了產品名稱容易從產品評論網站的產品目錄結構中獲取的特點。Yao[28]利用本體知識建立汽車領域的產品特征集。Liu[29]提出意見實例抽?。╫pinion instance extraction)建立相關領域知識完成特征項和情感詞同步抽取。
監督學習方法可以自動從訓練數據中學習模型參數,解決了前兩種方法中需人工參與的問題,但是仍需要手工標注訓練數據,不同的產品意見挖掘模型需要標注不同的訓練集,耗時費力并難以適用所有產品的特征抽取任務,并且手機這類電子產品更新換代快,短時間內就會有新的功能和特征參數面世。
32基于主題模型的特征抽取
主題建模是對文檔中隱含主題進行無監督的學習方法,它假定每篇文檔由多個主題組成,每個主題就是詞匯表中詞語的條件概率分布,主要由若干出現頻率較高的詞語組成,只有這些詞語才與主題有很強的相關性。
主題模型主要有兩類:概率潛在語義分析[30](Probabilistic Latent Semantic Analysis)和隱含狄利克雷分布[31](Latent Dirichlet Allocation)。從技術上講,主題模型是基于貝葉斯網絡的圖模型,pLSA和LDA均能直接應用于意見挖掘中的產品主題和意見主題抽取,為了避免抽取主題的混亂,部分研究者用聯合模型(Joint Model)分別完成產品特征項和意見詞的抽取工作。
擴展的主題模型在產品特征項抽取中應用較多,Mei[32]在pLSA主題模型基礎上實現的主題情感混合(Topic-Sentiment Mixture)模型。該模型針對iPod等主題的即席(Ad hoc)查詢顯示各項特征(如:電池壽命、外觀、尺寸)詳細的情感極性及強度,并顯示各主題隨時間的情感變化曲線。主要實現思路是將單詞依照概率分布分為與主題無關的普通詞(如the,a,of)、正向主題相關詞、負向主題相關詞、中性主題相關詞4類,用最大期望(Expectation-Maximization)算法估計每個類中的詞項概率分布。實驗結果證明其模型比Opinmind[33]系統中情感分析的粒度更細。
Titov[34]提出的多粒度LDA模型(Multi-Grain LDA)避免了LDA模型中出現的主題含義無法顯式確定的問題,并將其應用于主題的情感摘要生成系統中。他認為評論文檔是由滑動窗口(Sliding Window)的集合構成,而滑動窗口又由文檔中連續的句子組成。每個滑動窗口中存在局部主題的概率分布,而整篇文檔對應一個全局主題的概率分布。特征詞項不僅可以從局部主題的概率分布中生成,還可從全局主題的概率分布中產生。在對網站獲取的關于hotel評論文本實驗中,將hotel領域實體(如:London hotels、seaside resorts)作為全局主題,將屬于實體的特征項(如:service、location、rooms)作為局部主題,并將每個特征的評分(1~5的整數值)作為觀測值加入到模型中,同時假定對特征評論的文本是對該特征評分的預測信息,這樣完成了主題與特征項的關聯。
Zhao[35]等人結合最大熵(Maximum Entropy)和主題模型提出的ME-LDA模型(MaxEnt-LDA)利用句法結構規則完成特征詞和與特征相關的意見詞抽取。該實驗中首先在標注的訓練集中用ME算法學習一系列變量參數,然后從這些參數的多項概率分布中產生指示變量(Indicator Variable),最后通過指示變量來確定句子中的詞項是產品特征項還是意見詞。Sauper[36]將隱馬爾科夫(HMM)和主題模型結合提出的聯合模型(HMM-LDA)僅適應于短文本片段的產品特征項抽取,如:“我最看中的是這款手機的外觀”中的“外觀”特征項抽取。該思路在Griffith[37]、Liu[38]、Lu[39]等人的文獻中也有所體現。Brody[40]提出的針對句子而非篇章級的局部隱含狄利克雷分布(Local LDA)模型完成餐館和上網本領域的產品特征抽取。Lin[41]等人對詞采集情感標簽和主題標簽實現的Joint Sentiment/Topic(JST)模型,而Jo[42]對句子采集情感標簽和主題標簽提出的Aspect Sentiment Unification Model(ASUM)模型均可看作是對LDA模型的擴展。Mukherjee[43]等人認為用戶對產品特征詞的歸類受個人主觀影響,因此采用半監督方式實現ME-SAS模型(Maximum Entropy Seeded Aspect Sentiment)完成特征詞的抽取和聚類工作,主要由用戶提供少量特征種子詞再利用ME-SAS模型指導生產滿足用戶需要的其他特征詞。
與監督學習技術相比,主題模型的優勢在于無需人工標注數據,并且在無人監督情況下同時完成產品特征項的抽取和歸類任務。但是為了達到較高的準確率,主題模型通常需要大量未標注的數據進行長時間訓練。
4隱式與顯式產品特征間的關聯
上述方法主要對名詞或名詞短語這類顯式產品特征進行抽取,對于那些沒有在語句中直接進行描述,需要對句子進行語義理解才能得到的隱式特征也不容忽視,它們通常由形容詞或動詞表示產品的某一屬性。如:“哇,iPhone 5s屏幕上的內容,我要瞇著眼才能看清楚。”中的動詞短語“瞇著眼看”表示手機的屏幕小。
近年來產品隱式特征抽取方面,各學者也介紹了自己的實現思路。Su[44]提出的聚類方法來建立那些假定為情感詞的隱式特征表達與對應顯式特征之間的映射。該方法利用顯式特征和情感詞之間相互強化的關系,同時對兩者的內容信息和情感鏈接信息不斷聚類形成產品特征簇和情感詞簇。Yan[45]等人基于PageRank算法提出的NodeRank來依據特征-情感對的重要程度對隱式特征進行抽取。Tuarob[46]等人利用產品設計上下文知識,采用共詞網絡(Co-word Network)的概率模型,對Twitter中有關智能手機評論內容完成隱式產品特征的抽取工作。Hai[16]提出的兩相共生(Two-phase Co-occurrence)關聯規則挖掘方法完成隱式特征(假定為情感詞)與顯式特征的匹配。該方法在第一階段對句中經常共同出現的情感詞和顯式特征來說,將情感詞作為條件,顯式特征代表結果,由此生成對應的關聯規則;第二階段將規則的結果(顯式特征)聚類以生成對情感詞更健壯的規則(Robust Rule)。如果情感詞沒有相應的顯式產品特征,則將最佳規則簇內的代表性詞作為識別出的產品特征。
5結語
本文結合國內外的研究現狀從4個方面對意見挖掘模型中的產品特征抽取工作進行了綜述,并指出了各自的優勢和不足。隨著電子商務的日漸普及,產品意見挖掘作為情感分析的一個重要應用方向,其產品特征抽取研究更具有舉足輕重的地位,未來需要深入研究的問題還有:
(1)由于受文化和表達習慣的影響,人們用不同的術語來表述同指特征(如:MMC卡,microSD卡、TF卡和擴展卡均指手機的外部存儲卡),通過WorldNet或HowNet詞典進行同義詞分組歸類的處理方式是遠遠不夠的,一方面詞典收錄的局限性導致縮略語、專門術語(Jargon)等無法識別;另一方面許多同義詞具有領域依賴性,因此對同指特征的抽取可通過查找網頁計算其與已知特征的互信息(Mutual Information)來決定。
(2)目前大部分研究集中在結構化或半結構化文檔集合的特征抽取上,但是近年來微博成為用戶進行產品評論的重要信息源,由于其言簡意賅的特點和表達用語的不規范性,因此針對微博中短文本的產品特征抽取研究更具有挑戰性。
(3)隱式產品特征的抽取雖有進展,但目前研究較少,筆者認為借鑒前人研究的由少量顯式特征種子詞結合詞間相似度計量方法來抽取產品特征詞思路,利用Mikolov[47]在2013年實現的深度學習(deep learning)工具word2vec會提高產品特征詞的召回率和準確率。
參考文獻
[1]Liu B.Web data mining:exploring hyperlinks,contents,and usage data[M].Springer Verlag,2007.
[2]Hu M,Liu B.Mining and summarizing customer reviews[C].Proceedings of the Proceedings of the tenth ACM SIGKDD international conference on Knowledge discovery and data mining,ACM,2004:168-177.
[3]Popescu A-M,Etzioni O.Extracting product features and opinions from reviews[M].Natural language processing and text mining.Springer.2007:9-28.
[4]Ku L-W,Liang Y-T,Chen H-H.Opinion Extraction,Summarization and Tracking in News and Blog Corpora[C].Proceedings of the AAAI Spring Symposium:Computational Approaches to Analyzing Weblogs,2006:100-107.
[5]Scaffidi C,Bierhoff K,Chang E,et al.Red Opal:product-feature scoring from reviews[C].Proceedings of the Proceedings of the 8th ACM conference on Electronic commerce,ACM,2007:182-191.
[6]Raju S,Pingali P,Varma V.An unsupervised approach to product attribute extraction[M].Advances in Information Retrieval.Springer,2009:796-800.
[7]Long C,Zhang J,Zhut X.A review selection approach for accurate feature rating estimation[C].Proceedings of the Proceedings of the 23rd International Conference on Computational Linguistics:Posters,Association for Computational Linguistics,2010:766-774.
[8]郝博一,夏云慶,鄭方.OPINAX:一個有效的產品屬性挖掘系統[C].Proceedings of the 第四屆全國信息檢索與內容安全學術會議論文集(上卷),2008.
[9]Liu B.Sentiment analysis and opinion mining[J].Synthesis Lectures on Human Language Technologies,2012,5(1):1-167.
[10]Liu B,Hu M,Cheng J.Opinion observer:analyzing and comparing opinions on the web[C].Proceedings of the Proceedings of the 14th international conference on World Wide Web,ACM,2005:342-351.
[11]Baccianella S,Esuli A,Sebastiani F.Multi-facet rating of product reviews[M].Advances in Information Retrieval.Springer,2009:461-472.
[12]Stone P J,Dunphy D C,Smith M S.The General Inquirer:A Computer Approach to Content Analysis[J].1966.
[13]Jiang P,Zhang C,Fu H,et al.An approach based on tree kernels for opinion mining of online product reviews[C].Proceedings of the Data Mining(ICDM),2010 IEEE 10th International Conference on,IEEE,2010:256-265.
[14]Zhuang L,Jing F,Zhu X-Y.Movie review mining and summarization[C].Proceedings of the Proceedings of the 15th ACM international conference on Information and knowledge management,ACM,2006:43-50.
[15]Du W,Tan S.An iterative reinforcement approach for fine-grained opinion mining[C].Proceedings of the Proceedings of Human Language Technologies:The 2009 Annual Conference of the North American Chapter of the Association for Computational Linguistics,Association for Computational Linguistics,2009:486-493.
[16]Hai Z,Chang K,Kim J-j.Implicit feature identification via co-occurrence association rule mining[M].Computational Linguistics and Intelligent Text Processing.Springer,2011:393-404.
[17]Qiu G,Liu B,Bu J,et al.Opinion word expansion and target extraction through double propagation[J].Computational Linguistics,2011,37(1):9-27.
[18]Shi B,Chang K.Mining chinese reviews[C].Proceedings of the Data Mining Workshops,2006 ICDM Workshops 2006 Sixth IEEE International Conference on,IEEE,2006:585-589.
[19]Li Z,Zhang M,Ma S,et al.Automatic extraction for product feature words from comments on the web[M].Information Retrieval Technology.Springer,2009:112-123.
[20]Yu J,Zha Z-J,Wang M,et al.Domain-assisted product aspect hierarchy generation:towards hierarchical organization of unstructured consumer reviews[C].Proceedings of the Proceedings of the Conference on Empirical Methods in Natural Language Processing,Association for Computational Linguistics,2011:140-150.
[21]Eddy S R.Hidden markov models[J].Current opinion in structural biology,1996,6(3):361-365.
[22]Lafferty J,McCallum A,Pereira F C.Conditional random fields:Probabilistic models for segmenting and labeling sequence data[J].2001.
[23]Wong T-L,Bing L,Lam W.Normalizing web product attributes and discovering domain ontology with minimal effort[C].Proceedings of the Proceedings of the fourth ACM international conference on Web search and data mining,ACM,2011:805-814.
[24]Jin W,Ho H H,Srihari R K.OpinionMiner:a novel machine learning system for web opinion mining and extraction[C].Proceedings of the Proceedings of the 15th ACM SIGKDD international conference on Knowledge discovery and data mining,ACM,2009:1195-1204.
[25]Li F,Han C,Huang M,et al.Structure-aware review mining and summarization[C].Proceedings of the Proceedings of the 23rd International Conference on Computational Linguistics,Association for Computational Linguistics,2010:653-661.
[26]Choi Y,Cardie C.Hierarchical sequential learning for extracting opinions and their attributes[C].Proceedings of the Proceedings of the ACL 2010 Conference Short Papers,Association for Computational Linguistics,2010:269-274.
[27]宋曉雷,王素格,李紅霞.面向特定領域的產品評價對象自動識別研究[J].中文信息學報,2010,24(1):89-93.
[28]姚天,聶青陽,李建超,等.一個用于漢語汽車評論的意見挖掘系統[C].Proceedings of the 中文信息處理前沿進展-中國中文信息學會二十五周年學術會議論文集,北京:清華大學出版社,2006:260-281.
[29]Liu J,Wu G,Yao J.Opinion searching in multi-product reviews[C].Proceedings of the Computer and Information Technology,2006 CIT06 The Sixth IEEE International Conference on,IEEE,2006:25-25.
[30]Hofmann T.Probabilistic latent semantic indexing[C].Proceedings of the Proceedings of the 22nd annual international ACM SIGIR conference on Research and development in information retrieval,ACM,1999:50-57.
[31]Blei D M,Ng A Y,Jordan M I.Latent dirichlet allocation[J].the Journal of machine Learning research,2003,(3):993-1022.
[32]Mei Q,Ling X,Wondra M,et al.Topic sentiment mixture:modeling facets and opinions in weblogs[C].Proceedings of the Proceedings of the 16th international conference on World Wide Web,ACM,2007:171-180.
[33]Mei I-H,Mi H,Quiaot J.Sentiment Mining and Indexing in Opinmind[C].Proceedings of the ICWSM,Citeseer,2007.
[34]Titov I,McDonald R.A joint model of text and aspect ratings for sentiment summarization[J].Urbana,2008,51(61801.
[35]Zhao W X,Jiang J,Yan H,et al.Jointly modeling aspects and opinions with a MaxEnt-LDA hybrid[C].Proceedings of the Proceedings of the 2010 Conference on Empirical Methods in Natural Language Processing,Association for Computational Linguistics,2010:56-65.
[36]Sauper C,Haghighi A,Barzilay R.Content models with attitude[C].Proceedings of the,Association for Computational Linguistics,2011.
[37]Griffiths T L,Steyvers M,Blei D M,et al.Integrating topics and syntax[C].Proceedings of the Advances in neural information processing systems,2004:537-544.
[38]Liu J,Cao Y,Lin C-Y,et al.Low-Quality Product Review Detection in Opinion Summarization[C].Proceedings of the EMNLP-CoNLL,2007:334-342.
[39]Lu Y,Zhai C.Opinion integration through semi-supervised topic modeling[C].Proceedings of the Proceedings of the 17th international conference on World Wide Web,ACM,2008:121-130.
[40]Brody S,Elhadad N.An unsupervised aspect-sentiment model for online reviews[C].Proceedings of the Human Language Technologies:The 2010 Annual Conference of the North American Chapter of the Association for Computational Linguistics,Association for Computational Linguistics,2010:804-812.
[41]Lin C,He Y.Joint sentiment/topic model for sentiment analysis[C].Proceedings of the Proceedings of the 18th ACM conference on Information and knowledge management,ACM,2009:375-384.
[42]Jo Y,Oh A H.Aspect and sentiment unification model for online review analysis[C].Proceedings of the Proceedings of the fourth ACM international conference on Web search and data mining,ACM,2011:815-824.
[43]Mukherjee A,Liu B.Aspect extraction through semi-supervised modeling[C].Proceedings of the Proceedings of the 50th Annual Meeting of the Association for Computational Linguistics:Long Papers-Volume 1,Association for Computational Linguistics,2012:339-348.
[44]Su Q,Xu X,Guo H,et al.Hidden sentiment association in chinese web opinion mining[C].Proceedings of the Proceedings of the 17th international conference on World Wide Web,ACM,2008:959-968.
[45]Yan Z,Xing M,Zhang D,et al.EXPRS:An extended pagerank method for product feature extraction from online consumer reviews[J].Information & Management,2015,52(7):850-858.