Preprocess the Reuters-21578 XML archive.
预处理路透-21578 XML存档。
译者:生物统计家园网 机器人LoveR
描述----------Description----------
Preprocess the Reuters-21578 <acronym>XML</acronym> archive by correcting invalid UTF-8 encodings and copying each text document into a separate file.
预处理路透“21578 <acronym>XML</首字母缩写纠正无效的UTF-8编码,每个文本文件复制到一个单独的文件归档。
参数:input
A character describing the input directory.
一个字符描述输入目录。
参数:output
A character describing the output directory.
一个字符描述输出目录。
参数:fixEnc
A logical value indicating whether an invalid UTF-8 encoding in the Reuters-21578 <acronym>XML</acronym> dataset should be corrected.
一个逻辑值,该值指示是否无效的UTF-8编码在路透社-21578 <acronym> XML </首字母缩写数据集应该被纠正。
值----------Value----------
No explicit return value. As a side product the directory output contains the corrected dataset.
没有明确的返回值。作为副产物的目录output包含校正后的数据集。
(作者)----------Author(s)----------
Ingo Feinerer
参考文献----------References----------
Collection Distribution 1.0. http://kdd.ics.uci.edu/databases/reuters21578/reuters21578.html
http://modnlp.berlios.de/reuters21578.html
转载请注明:出自 生物统计家园网(http://www.biostatistic.net)。