新浪博客

jiebaR包安装与使用  r语言分词

2014-12-17 15:12阅读:
开源介绍文档---最早出现Python


#安装经验:反正就是需要devtools包和rstool工具,其实根本原因是,jiebar包是二进制编码的包,需要这两个工具协助的。
第一步:### install.packages(“devtools”)
library(devtools)
第二步 install_github('qinwf/jiebaR')###这个过程会自动把rstool安装上并配好坏境,我个人很讨厌配坏境变量。所以自动安装比较好。
第三步 install.packages(“jiebaR”)




#使用方法,下面的使用时来自,帮组文档

Examples
### Note: Can not display Chinese character on Windows here.
######简单的分词
words = 'hello world'
test1 = worker()#设置分词模式
test1
test1 <= words
####文件分词
## Not run:
test <= './temp.txt'
#######保留标点符号分词symbol = T
engine2 = worker('mix',symbol = T)
engine2 <= './temp.txt'
engine2
engine2$symbol = T
engine2
engine2 <= words
###不知道目的是干嘛
engine3 = worker(type = 'mix', dict = 'dict_path',symbol = T)
engine3 <= './temp.txt'

## End(Not run)
##关键词的提取
keys = worker('keywords', topn = 1)
keys <= words
###词性 识别
tagger = worker('tag')
tagger <= words




#####下面讲下,自定词典吧
show_dictpath() ### 显示词典路径
edit_dict()##编辑词典,会打开用户自定义字典,然后可以加载自己的字典,
案例:
> tagger = worker('tag')
> tagger <= '于英富在江西上大学'
p x p ns f n
'于' '英富' '在' '江西' '上' '大学'
在用户字典中,加入“于英富 nj 20”

> tagger = worker('tag')
> tagger <= '于英富在江西上大学'
x p ns f n
'于英富' '在' '江西' '上' '大学'



多词语怎么办呢?

有个软件叫“深蓝词库转换”可以度娘
可以把搜狗词库转换成结巴词库,你再复制粘贴上去就行了。
下面是我自己的一套方法,就是先把搜狗词库导入r语言,把词性全部设置为名字,然后频率设置为5.再导出来。在文本中替换双引号,最后复制粘贴到jiebar词库中去。
jiebaciku<-function(x){
cnword<-read.csv(x,header=F,stringsAsFactors=F)
n=c()
m=c()
n=rep('n',length(cnword$V1))
m=rep(5,length(cnword$V1))

a=data.frame(cnword$V1,n,m)
write.table(a,'user.csv',row.names=F,col.names=F)
b=paste(getwd(),'/user.csv',sep = '');
return(b);

}
x='E:\\text mining\\stopword\\三国人名.txt'
jiebaciku(x)

我的更多文章

下载客户端阅读体验更佳

APP专享