找回密码
 注册
查看: 631|回复: 0

R语言 tm.plugin.dc包 DistributedCorpus()函数中文帮助文档(中英文对照)

[复制链接]
发表于 2012-10-1 10:44:14 | 显示全部楼层 |阅读模式
DistributedCorpus(tm.plugin.dc)
DistributedCorpus()所属R语言包:tm.plugin.dc

                                        Distributed Corpus
                                         分布式语料库

                                         译者:生物统计家园网 机器人LoveR

描述----------Description----------

Data structures and operators for distributed corpora.
分布式语料库的数据结构和运营商。


用法----------Usage----------


DCorpus( x,
         readerControl = list(reader   = x$DefaultReader,
                              language = "eng"),
         storage = NULL, keep = TRUE, ... )
as.Corpus( x )
as.DCorpus( x, storage = NULL, ... )



参数----------Arguments----------

参数:x
for DCorpus, a Source object. At the moment only DirSource is supported. For as.Corpus() and  as.DCorpus(), an object to be coerced to a Corpus/DCorpus. Currently coercion from/to classic tm corpora (VCorpus) is implemented.  
DCorpus,一个Source对象。目前只有DirSource支持。对于as.Corpus()和as.DCorpus(),一个对象被裹挟到Corpus/DCorpus。目前胁迫从/到经典的tm语料库(VCorpus)来实现。


参数:readerControl
A list with the named components reader representing a reading function capable of handling the file format found in source, and language giving the text's language (preferably in <acronym>ISO</acronym> 639-2 format).
命名的组件的列表reader的阅读功能,可处理的文件格式在source,并language文本的语言(最好是在<acronym> ISO </首字母缩写639-2)。


参数:storage
The storage subsystem to use with the DCorpus. Currently two types of storages are supported: local disk storage using the Local File System (LFS) and the Hadoop Distributed File System (HDFS). Default: 'LFS'.
存储子系统使用的DCorpus。目前有两种类型的存储器支持:本地磁盘存储,使用本地文件系统(LFS)和Hadoop分布式文件系统(HDFS)。默认:“LFS”。


参数:keep
Should revisions be used when operating on the DCorpus? Default: TRUE
如果修改操作时使用的DCorpus?默认值:TRUE


参数:...
Optional arguments for the reader.
可选参数的reader。


Details

详细信息----------Details----------

When constructing a distributed corpus the input source is extracted via the supplied reader and stored on the given file system (argument storage). While the data set resides on the corresponding storage (e.g., HDFS), only a symbolic representation is held in R (a so-called DList) which allows to access the corpus via corresponding (DList) methods. Since the available memory for the  distributed  corpus is only restricted by available disk space in the given storage (and not main memory like in a standard tm corpus) by default we also store a set of so-called revisions, i.e., stages of the (processed) corpus. Revisions can be turned off later on using the keepRevisions() replacement function.\
当构建一个分布式的语料库中提取的输入信号源通过提供读者在给定的文件系统和存储(参数storage“)。虽然数据集驻留在相应的存储(例如,HDFS),只保持在R(所谓的DList)它允许访问经由相应的语料库(DList)方法的符号表示。分布语料库的可用内存的可用磁盘空间的限制,默认情况下,在给定的存储(而不是主内存,如在一个标准的tm语料库),我们也可以存储一组所谓的修改,即,阶段的(加工)语料库。修订可关闭后keepRevisions()使用更换功能。\

The constructed corpus object inherits from a tm Corpus and has several attributes containing meta information:
构建的语料库对象的继承tmCorpus和有几个属性包含元数据信息:




CMetaData Corpus Meta Data contains corpus specific meta data in form of tag-value pairs and information about children in form of a binary tree. This information is useful for reconstructing meta data after e.g. merging corpora. This is mainly available to be compatible with standard tm corpus
CMetaData语料库元数据包含语料库特定的元数据标记 - 值对的形式和有关儿童的二叉树的形式。这个信息是非常有用的元数据重建后,例如合并语料库。这主要是兼容标准tm语料库




DMetaData Document Meta Data of class data.frame contains document specific meta data for the corpus. This data frame typically encompasses clustering or classification results which basically are metadata for documents but form an own entity (e.g., with its name, the value range, etc.). This is mainly available to be compatible with standard tm corpus definitions but not yet actually used in the
DMetaData文件的元数据类data.frame包含文档元数据的语料库。这个数据框通常包括聚类或分类的结果基本上是元数据文件,但形成自己的实体(例如,用它的名字,值的范围等)。这主要是兼容标准的tm语料库的定义,但尚未实际使用的




keep A logical indicating whether revisions representing stages e.g., in a preprocessing chain should be kept or
keep的逻辑是否修改阶段,例如,在预处理链应保持或


值----------Value----------

An object of class DCorpus which extends the classes Corpus and DList containing a collection of text documents.
扩展的类的对象类DCorpusCorpus和DList包含文本文件的集合。


(作者)----------Author(s)----------



Ingo Feinerer and Stefan Theussl




参见----------See Also----------

Corpus
Corpus


实例----------Examples----------


## Similar to example in package 'tm'[#类似的例子在包以旧换新]
reut21578 <- system.file("texts", "crude", package = "tm")
dc <- DistributedCorpus(DirSource(reut21578),
readerControl = list(reader = readReut21578XMLasPlain) )
dc

## Coercion[#强制]
data("crude")
as.DistributedCorpus(crude)
as.Corpus(dc)

转载请注明:出自 生物统计家园网(http://www.biostatistic.net)。


注:
注1:为了方便大家学习,本文档为生物统计家园网机器人LoveR翻译而成,仅供个人R语言学习参考使用,生物统计家园保留版权。
注2:由于是机器人自动翻译,难免有不准确之处,使用时仔细对照中、英文内容进行反复理解,可以帮助R语言的学习。
注3:如遇到不准确之处,请在本贴的后面进行回帖,我们会逐渐进行修订。
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 注册

本版积分规则

手机版|小黑屋|生物统计家园 网站价格

GMT+8, 2025-6-19 00:53 , Processed in 0.019920 second(s), 15 queries .

Powered by Discuz! X3.5

© 2001-2024 Discuz! Team.

快速回复 返回顶部 返回列表