客户端
全新溜云库4.0

Windows客户端

新人福利

7天渲染贵族

下载币300赠币券 (充值可用)

150渲染币

渲染币300赠币券 (充值可用)

下载领新人福利
溜云库·一站式素材下载管理软件

素材轻松找、渲染超级快、管理更简单
- 1000W+精品素材 (3D/SU/贴图/材质/CAD/灯光)
- 云端极速渲染，贵族渲染享7折
- 海量实用脚本工具、插件，助力提效
- 添加本地素材，AI智能识别整理，随时随地用
- 团队协作资源共享，云端存储备份不丢失
查看更多
创作中心

永久收益

在线云存储

版权登记

我要上传

上传活动
充值抽现金红包
下载币充值渲染币充值企业用户充值
VIP

您的溜溜全站超级VIP已过期

专区免费下、渲染7折等40项特权已离你而去

VIP尊享素材/渲染/自学/全景贵族超50+项特权

VIP模型免费下

VIP素材免费下

模型下载折扣

云渲染低至7折

专区课程免费看

每月会员礼包

快速领取
更多特权

VIP专享附加权益：模型重复下载永久免费

立即续费
一年最多省1598元
登录/注册
登录/注册登录后您将获得：
- 精准推荐
  
  精准优质的内容推荐
- 现金分成
  
  上传模型享5:5现金分成
- 多端同步
  
  收藏内容，多端同步查看
- 免费合成
  
  免费合成720全景作品
注册送好礼

溜溜问答 > 日常办公 > Word > java中文分词组件Word怎么使用？

赵玉乔

邀请你来回答

100人阅读 2021-01-25

java中文分词组件Word怎么使用？

我要回答关注问题

1个回答

WsJiNcAN

参考如下
1、快速体验
运行项目根目录下的脚本demo-Word.bat可以快速体验分词效果
用法: command [text] [input] [output]
命令command的可选值为：demo、text、file
demo
text 杨尚川是apdplat应用级产品开发平台的作者
file d:/text.txt d:/Word.txt
exit

2、对文本进行分词
移除停用词：list Words = Wordsegmenter.seg("杨尚川是apdplat应用级产品开发平台的作者");
保留停用词：list Words = Wordsegmenter.segwithstopWords("杨尚川是apdplat应用级产品开发平台的作者");
system.out.PRintln(Words);

输出：
移除停用词：[杨尚川, apdplat, 应用级, 产品, 开发平台, 作者]
保留停用词：[杨尚川, 是, apdplat, 应用级, 产品, 开发平台, 的, 作者]

3、对文件进行分词
string input = "d:/text.txt";
string output = "d:/Word.txt";
移除停用词：Wordsegmenter.seg(new file(input), new file(output));
保留停用词：Wordsegmenter.segwithstopWords(new file(input), new file(output));

4、自定义配置文件
默认配置文件为类路径下的Word.conf，打包在Word-x.x.jar中
自定义配置文件为类路径下的Word.local.conf，需要用户自己提供
如果自定义配置和默认配置相同，自定义配置会覆盖默认配置
配置文件编码为utf-8

5、自定义用户词库
自定义用户词库为一个或多个文件夹或文件，可以使用绝对路径或相对路径
用户词库由多个词典文件组成，文件编码为utf-8
词典文件的格式为文本文件，一行代表一个词
可以通过系统属性或配置文件的方式来指定路径，多个路径之间用逗号分隔开
类路径下的词典文件，需要在相对路径前加入前缀classpath:

指定方式有三种：
指定方式一，编程指定（高优先级）：
Wordconftools.set("dic.path", "classpath:dic.txt，d:/custom_dic");
dictionaryfactory.reload();//更改词典路径之后，重新加载词典
指定方式二，JAVA虚拟机启动参数（中优先级）：
JAVA -ddic.path=classpath:dic.txt，d:/custom_dic
指定方式三，配置文件指定（低优先级）：
使用类路径下的文件Word.local.conf来指定配置信息
dic.path=classpath:dic.txt，d:/custom_dic

如未指定，则默认使用类路径下的dic.txt词典文件

6、自定义停用词词库
使用方式和自定义用户词库类似，配置项为：
stopWords.path=classpath:stopWords.txt，d:/custom_stopWords_dic

7、自动检测词库变化
可以自动检测自定义用户词库和自定义停用词词库的变化
包含类路径下的文件和文件夹、非类路径下的绝对路径和相对路径
如：
classpath:dic.txt，classpath:custom_dic_dir,
d:/dic_more.txt，d:/dic_dir，d:/dic2_dir，my_dic_dir，my_dic_file.txt

classpath:stopWords.txt，classpath:custom_stopWords_dic_dir，
d:/stopWords_more.txt，d:/stopWords_dir，d:/stopWords2_dir，stopWords_dir，remove.txt

8、显式指定分词算法
对文本进行分词时，可显式指定特定的分词算法，如：
Wordsegmenter.seg("apdplat应用级产品开发平台", segmentationalgorithm.bIDirectionalMaximummatching);

segmentationalgorithm的可选类型为：
正向最大匹配算法：Maximummatching
逆向最大匹配算法：reverseMaximummatching
正向最小匹配算法：minimummatching
逆向最小匹配算法：reverseminimummatching
双向最大匹配算法：bIDirectionalMaximummatching
双向最小匹配算法：bIDirectionalminimummatching
双向最大最小匹配算法：bIDirectionalMaximumminimummatching
全切分算法：fullsegmentation
最少分词算法：minimalWordcount
最大ngram分值算法：Maxngramscore

9、分词效果评估
运行项目根目录下的脚本evaluation.bat可以对分词效果进行评估
评估采用的测试文本有253 3709行，共2837 4490个字符
评估结果位于target/evaluation目录下：
corpus-text.txt为分好词的人工标注文本，词之间以空格分隔
test-text.txt为测试文本，是把corpus-text.txt以标点符号分隔为多行的结果
standard-text.txt为测试文本对应的人工标注文本，作为分词是否正确的标准
reSUlt-text-***.txt，***为各种分词算法名称，这是Word分词结果
perfect-reSUlt-***.txt，***为各种分词算法名称，这是分词结果和人工标注标准完全一致的文本
wrong-reSUlt-***.txt，***为各种分词算法名称，这是分词结果和人工标注标准不一致的文本