網絡驅動語料庫芻議--兼論“萬維網能否代替傳統語料庫?”

外語電化教學雜志

摘要：萬維網的大量數據以自然語言文本形式存在,如何挖掘和利用萬維網的自然語言文本已成為計算機科學和語言學的交叉研究熱點,這改變了傳統的語言學知識獲取方式,沖擊了語料庫語言學的現有范式,挑戰著傳統語料庫在語言研究中的地位--既然語言學知識可從萬維網獲得,那么萬維網能否代替傳統語料庫?這一問題的關鍵在于萬維網能否如傳統語料庫一般為語言研究提供可靠的語言學知識。文章探討了從萬維網獲取語言學知識的三種途徑及其可靠性:通用搜索引擎;語言學搜索引擎;網絡驅動語料庫。研究發現,通用搜索引擎和語言學搜索引擎的局限性較大,而網絡驅動語料庫是三者中最可靠的一種語言學知識獲取途徑;盡管網絡驅動語料庫憑借自動化建庫和超大規模的優勢,在詞典編纂、短語自動識別、自然語言處理等領域顯示出了一定潛力。但由于存在諸多缺陷,萬維網尚不能取代傳統語料庫,但它與語言研究的結合有望成為語料庫語言學在未來的重要研究方向。

關鍵詞：