应用简介
AntConc 是一款专业强大的语料库检索软件。软件拥有索引,词表生成,主题词计算,搭配和词族提取等多种功能,能够非常有效的进行文本分析。适用于语料库语言学、翻译学、外语教学等领域的研究者。
【功能特点】
使用多个工具的批处理文本文档
这些可以像快速的单词计数器一样简单到详细的语言分析工具。ANTCONC在两者之间取得良好的平衡,并允许用户同时加载和处理多个文本文档。该程序与大多数标准文本文档格式兼容,包括TXTS、HTMLs和XMLS。
这个工具的一个有趣的特点是加载整个文件夹,除了单个文件的能力。这使得人们可以快速地完成档案和文档目录的工作。一旦加载了两个或多个文件,用户就可以处理各种各样的工具。
基于词频的简单图形显示
总之,可以使用七个实用程序来分析源文档,包括协调模块、文件查看器和集群工具。与他们一起,可以搜索常用词和短语的文档。使用条形码类型的绘图,甚至可以查看公共项目的位置,在主机文本文件内。
一个显著且更具扩散性的工具是“集群/N-gram”模块。有了它,可以搜索语料库的N长度集群。这是一种有用的方法,用于检测在所有源文件中使用的相似但不相同的单词。一旦满足他们的分析,用户可以将所有结果导出到文本、Excel和HTML格式。
【检索方式】
模糊检索:
(1)一个单词的多种变化形式的检索;
(2)多个单词的逐一检索;
(3)单词的前缀或后缀检索;
(4)某种长度或某个长度范围(长度就是字母数量)的单词的检索;
(5)某种单词组合模式或句型的检索。
【使用说明】
“竖线”,也就是“|”,在正则表达式(模糊检索)中的意思是“或者”,因此某个词或某两三个词的屈折形式的检索,可以用下面的表达法(首先勾上“regex”这个选项哟):
但是,如果你要检索的单词也往往成为其他单词的一部分的话,上面的做法就会出现严重偏差,例如你想要检索off,这个词就容易出现在其他单词的开始或中间位置:
因此,必须指定在“off”的前后必须有一个空格,而空格在正则表达式中就是“\s”,也就是“反斜线与字母s”,这里的字母s就是space(“空格”)这个英语单词。
英语单词的主要形式是多个字母所组成,虽然也有一些单词是字母与数字构成,或者是“纯数字”构成。所以,绝大多数情况下,纯粹字母构成的单词是我们关注的对象。
用正则表达式来表达一个字母,就是“[a-zA-Z]”,这里的方括号就是表示方括号里面的所有内容只是一个字符而已,a-z就是所有的小写字母中的某一个,A-Z就是所有的大写字母中的某一个,而[a-zA-Z]就表示“一个大写或小写字母”。那么,英语单词的开始和结束有什么特征呢?最主要的特征就是前后都有一个空格,而空格的正则表达式就是“\s”,也就是反斜线后面有一个字母s。所以,要检索“4个字母组成的单词”就是下面的表达,即“\s[a-zA-Z]{4}\s”:
要检索“4个或5个或6个字母组成的单词”就是下面的表达,即“\s[a-zA-Z]{4,6}\s”:
要检索“6个或更多字母组成的单词”就是下面的表达:
要检索ful结尾的单词,就是(表达式中的“+”表示至少1个的意思):
要检索ful或less结尾的单词,就是:
要检索“un”为前缀的单词,就是:
要检索“the * of”这种结构,这里的*表示某个单词,就用“\sthe\s[a-zA-Z]+\sof\s”:
要检索“the * * * of”这种结构,这里的3个*表示3个单词,就用“\sthe\s([a-zA-Z]+\s){3}of\s”,这里的圆括号就表示把圆括号里面的内容重复多次,重复的次数在后面的{}里面用数字进行指定:
要检索“ed结尾的动词与ly结尾的副词的搭配”,就用“\s[a-zA-Z]+ed\s[a-zA-Z]+ly\s”: