语言信息科学研究中心1995年于香港城市大学成立,2010年5月迁移至香港教育学院。
本中心是香港教育学院所属五所院校级研究中心之一,主要从事语言学、自然语言处理和讯息科学间的跨学科研究。本中心为资深研究员和年青学者提供一个完善的科研环境,让他们深入研究世界各中文小区的语言问题和信息科技,争取成为全球信息科技的领导角色。本中心致力建立科技、人文科学和社会科学之间的学术桥梁,并定期把有关的研究成果向公众发表。
语言资讯科学中心及其语料库实验室,自1995年开始,以「共时」方式处理了超常的大量汉语语料,通过精密的技术,累积众多精确的统计数据,建立了LIVAC (Linguistic Variation in Chinese Speech Communities)共时语料库。
本语料库最大特点是采用「共时性」视窗模式,严谨地定时分别收集来自多地的定量同类语料,可供各种客观的比较研究,方便有关的信息科技发展与应用。此外,语料库又兼顾了「历时性」,方便各方人士客观地观察与研究视窗内的有代表性的语言发展全面动态。
建立LIVAC语料库的目标和意义,在于探讨新语言形式的产生和发展、泛华语地区包括大陆及海外多个地区各自的语言变化及其之间的关系。尤其特别探讨了自1995年以来涌现的汉语外来词及新兴词,以及在语法等方面的发展新趋势。
LIVAC语料自1995年开始,主要来自香港、澳门、台北、新加坡、上海、北京、广州、深圳多个地区的当地有代表性中文媒体,涵盖泛华语地区。搜集内容包括社评、重要新闻、当地新闻、综合新闻、国际新闻、港澳台新闻、经济新闻、体育新闻、娱乐新闻、广告。每四天定量下载一次。有关语料经机器切词标注、人工校对后,提取各地词语,加入各地词库组合为LIVAC大语料库。至2005年1月,语料库共收集72万个词条,总字数超过1亿5千万字,并仍不断扩充中。
在大语料库基础上,LIVAC还建立了人名库、地名库、专名库、动词词库、形容词词库、各地每月新词词库等多个专项语料库。LIVAC每两星期计算公布双周「名人榜」,年底公布全年「名人榜」,并建立人物褒贬指数的计算。
LIVAC所建立的是一个包括字、词条、文句、全文等不同层次的语料库,可对个别字或词的使用作查询、频率统计比较。本语料库适合多方面研究人员使用,包括从事语言学研究或有意对语言现象与华人社会组织、文化与动态发展作探讨者,以及从事发展资讯搜索引擎与机器翻译等语言工程的学者等等。
由于LIVAC语料是以「共时」、「同步」方式搜集语料,来源涵盖泛华语地区,故此有关的研究成果及所作分析,是目前任何汉语语料库或同类型研究都无法做到的。这点,特别得到语文界尤其是计算语言学界专家、学者的认同和重视。