分类:
根据全文数据库中信息内容的呈现形式,全文数据库的类型主要包括电子书、电子杂志和电子报纸。
结构:
全文数据库有多种结构形式。
一种结构是全文数据库由几个库组成,每个库又分成几个文档,文档又由几个信息载体组成,信息载体又细分成几个片段。片段是指构成文本的自然段落,相当于字段。这是一个菜单驱动的系统。一级菜单显示图书馆目录,二级菜单显示文件目录。选择库和文档后,系统开始接收问题。
另一种结构是全文数据库由几个数据库组成,数据库下没有文档级结构,而是将信息载体直接划分为字段进行存储。全文数据库的结构类似于书目数据库,其中主文档是以顺排形式组织的文本文件,倒排文件是与信息载体记录的可检测字段相对应的索引文件。全文数据库记录的磁带格式一般分为子标签、目录、数据部等几个部分。在现有的全文数据库中,根据领域信息载体、数据库用户和设备的不同情况,采用不同的实现方法。
特点:
与其他数据库相比,全文数据库有许多特点,主要如下。
1,包含信息的原创性。图书馆里的资料基本都是未经加工的原始文献,所以是客观的。
2.信息检索的彻底性。任何一个字、一句话、一个词都可以搜索,可能会看到一些边缘信息。
3.检索语言的自然性。可以用自然语言检索,可以用布尔检索和位置检索,所以涉及到对自然语言的理解。
4.数据结构基本上是非结构化的。除了一些规范性数据,大量文本是非结构化的,不便于关系数据库处理。
5.专业全文数据库系统一般采用“自动分词”技术。
6.好的全文数据库也有知识库,可以有推理能力和联想检索。
7、基本封闭,数据不需要更新,具有更大的稳定性。
8.全文数据库一般占用巨大的存储空间,系统开销很大。如何提高检索速度是一个大问题。
功能:
全文数据库具有强大的检索功能,表现在可以提供丰富的检索点,允许用户从信息载体的名称、地名、年份、关键词等进行单项检索或多项检索,甚至可以搜索文本中的任何字段。除布尔逻辑检索功能外,还具有字符位置检索、单词截断检索等功能。检索结果可根据用户要求按句、段、节、章输出(显示或打印)。
全文数据库具有一定的信息分析功能,可以对检索结果进行再次处理,对人名、地名、关键词进行聚类和统计排序。
全文数据库还具有一定的信息度量功能,可以进行频率统计,对文中的人名、地名、关键词进行排序。