語言資訊科學研究中心1995年於香港城市大學成立,2010年5月遷移至香港教育學院。
本中心是香港教育學院所屬五所院校級研究中心之一,主要從事語言學、自然語言處理和訊息科學間的跨學科研究。本中心為資深研究員和年青學者提供一個完善的科研環境,讓他們深入研究世界各中文社區的語言問題和資訊科技,爭取成為全球資訊科技的領導角色。本中心致力建立科技、人文科學和社會科學之間的學術橋樑,並定期把有關的研究成果向公眾發表。
語言資訊科學中心及其語料庫實驗室,自1995年開始,以「共時」方式處理了超常的大量漢語語料,通過精密的技術,累積眾多精確的統計數據,建立了LIVAC (Linguistic Variation in Chinese Speech Communities)共時語料庫。
本語料庫最大特點是採用「共時性」視窗模式,嚴謹地定時分別收集來自多地的定量同類語料,可供各種客觀的比較研究,方便有關的信息科技發展與應用。此外,語料庫又兼顧了「歷時性」,方便各方人士客觀地觀察與研究視窗內的有代表性的語言發展全面動態。
建立LIVAC語料庫的目標和意義,在於探討新語言形式的產生和發展、泛華語地區包括大陸及海外多個地區各自的語言變化及其之間的關係。尤其特別探討了自1995年以來湧現的漢語外來詞及新興詞,以及在語法等方面的發展新趨勢。
LIVAC語料自1995年開始,主要來自香港、澳門、台北、新加坡、上海、北京、廣州、深圳多個地區的當地有代表性中文媒體,涵蓋泛華語地區。搜集內容包括社評、重要新聞、當地新聞、綜合新聞、國際新聞、港澳台新聞、經濟新聞、體育新聞、娛樂新聞、廣告。每四天定量下載一次。有關語料經機器切詞標注、人工校對後,提取各地詞語,加入各地詞庫組合為LIVAC大語料庫。至2005年1月,語料庫共收集72萬個詞條,總字數超過1億5千萬字,並仍不斷擴充中。
在大語料庫基礎上,LIVAC還建立了人名庫、地名庫、專名庫、動詞詞庫、形容詞詞庫、各地每月新詞詞庫等多個專項語料庫。LIVAC每兩星期計算公佈雙周「名人榜」,年底公佈全年「名人榜」,並建立人物褒貶指數的計算。
LIVAC所建立的是一個包括字、詞條、文句、全文等不同層次的語料庫,可對個別字或詞的使用作查詢、頻率統計比較。本語料庫適合多方面研究人員使用,包括從事語言學研究或有意對語言現象與華人社會組織、文化與動態發展作探討者,以及從事發展資訊搜索引擎與機器翻譯等語言工程的學者等等。
由於LIVAC語料是以「共時」、「同步」方式搜集語料,來源涵蓋泛華語地區,故此有關的研究成果及所作分析,是目前任何漢語語料庫或同類型研究都無法做到的。這點,特別得到語文界尤其是計算語言學界專家、學者的認同和重視。