Rank: 8 Rank: 8

帖子: 1726
积分: 4476
技术: 95
捐助: 0
注册时间: 2008-12-21

1楼 跳转到 » 正序看帖

字体大小: tT

发表于 2010-9-14 18:39 | 只看该作者

[文本处理] 批处理中文分词的实现

虽然没多少人关注这个话题，但还是发个帖，开个头，希望有后来人。
   ——以下两段代码只能说是“实现了功能”，但效率很差。假如是自制的小字典还可以，使用大词库就非常吃力了。经测试，使用大词库，一句话可能要一两分钟才能切分词语！~
   ——分词好像是好多学校计算机专业的作业题哦，搜索过几篇分词的学生毕业论文，有些IT大企业面试题……
   ——这个帖子重点讨论使用批处理进行中文分词的可能性，欢迎你参与……
   以下是相关帖：
   http://www.bathome.net/thread-9183-1-1.html
   词库下载：
http://cjiabing.qupan.com/6627766.html
   中文分词介绍：
http://baike.baidu.com/view/19109.htm
   文章介绍：
http://hi.baidu.com/cjiabing/blog/item/4c95b91bf3abaa178718bff4.html
中文分词规范：
http://wenku.baidu.com/view/1dbd3fc58bd63186bcebbc7d.html

分词介绍

分词，简单地说，就是将一句话拆解/切分成独立的词语。
通常，句子由字和词组成，分词就是将句子变回字和词。
如句子：
我喜欢音乐。
分词就是把句子中的词语用空格等方式分开，变成：
我 喜欢 音乐。
分词的目的是为了提取句子中的词语/关键词以便做搜索、摘要等等用途。
分词属于计算机自然语言处理的基础，是有难度的，如上例的切分结果可能有两种：
1、我 | 喜欢 | 音乐。
2、我 | 喜 | 欢音 | 乐。
要正确分词需要“消除歧义”。另外，还要“登陆新词”，也就是如新词、姓名等如何切分？ 
复制代码

测试题

以下是测试题，用以测试你分词的准确率：

我喜欢坐在面包车上一边吃面包一边看北京天安门门楼的门
我喜欢坐在面包车上一边吃面包一边看北京大学生活动中心门楼的门
我喜欢坐在面包车上一边吃面包一边看北京大学生活在音乐里
我喜欢坐在面包车上一边吃面包一边看北京大学生活很好
我喜欢坐在面包车上一边吃面包一边看北京大学的学生生活在音乐里
我喜欢坐在面包车上一边吃面包一边看北京大学的学生活在音乐里
广西大学生活很好
我喜欢吃鸭肉
我喜欢音乐
我喜欢吃面条
伟大学生生活
大学生活动
大学生活动中心
大学生活好
发展中国家庭养猪事业
你说的确实在理
中华人民共和国万岁
吃面包
复制代码

批处理中文分词之正向最大匹配法

 @ECHO OFF&SETLOCAL ENABLEDELAYEDEXPANSION
:FJJZ 
CLS
SET /P INF=    你对电脑说：
ECHO.
CD.>S.TXT
FOR /L %%I IN (0,1,100) DO (
SET STRDD=!INF:~%%I,4!&IF DEFINED STRDD SET STRDDO=!STRDD:~3,1!&IF DEFINED STRDDO   FOR /F "TOKENS=1,*"  %%A IN (DICTIONARY.TXT) DO IF "%%A"=="!STRDD!" ECHO 4 %%I %%A %%B      %%I,4
REM 截取四个字组成的词语，如“刻舟求剑”————意味着缺陷：四个字以上的词语如“中华人民共和国”不在截取范围。
SET STRCC=!INF:~%%I,3!&IF DEFINED STRCC SET STRCCO=!STRDD:~2,1!&IF DEFINED STRCCO   FOR /F "TOKENS=1,*"  %%E IN (DICTIONARY.TXT) DO IF "%%E"=="!STRCC!" ECHO 3 %%I %%E %%F      %%I,3
REM 截取三个字组成的词语，如“批处理”————前面判断字符是否赋值，后面用于与词库匹配。
SET STRBB=!INF:~%%I,2!&IF DEFINED STRBB SET STRBBM=!STRBB:~1,1!&IF DEFINED STRBBM   FOR /F "TOKENS=1,*"  %%X IN (DICTIONARY.TXT) DO IF "%%X"=="!STRBB!" ECHO 2 %%I %%X %%Y      %%I,2
REM 截取两个字组成的词语，如“胜利”————后面结果保留字符长度和偏移量。
SET STRAA=!INF:~%%I,1!&IF DEFINED STRAA FOR /F "TOKENS=1,*"  %%M IN (DICTIONARY.TXT) DO IF "%%M"=="!STRAA!" ECHO 1 %%I %%M %%N       %%I,1
REM 截取一个字组成的词语，如“锅”。
)>>S.TXT
REM 以上代码很好地解释了字符串的截取和匹配，思路很清晰，但效率很差，原因在于每截取一个字词就匹配一下词库，FOR使用得太频繁。
rem 一般我写代码都是，首先着重在于描述过程，达到目的后优化代码，提高效率。我是按人的思路写代码，不是按机器的思路写代码，所以效率差了。
REM 改良的思路应该是，先将截取结果写入一个临时文件，然后使用“FINDSTR /I /X /G:TMP.TXT   DICTIONARY.TXT>>S3.TXT”与词库匹配，试了一下，效果明显提高。有空再改。
SET VAR=-1
ECHO 切分结果：
ECHO.
:LP
SET /A VAR+=1
FOR /F "TOKENS=1,2,3,*"   %%I IN (S.TXT) DO (
IF !VAR!==%%J (
SET /P K= 【%%K】<NUL
REM ECHO %%K 1
SET /A VAR=%%J+%%I
)
)
IF %VAR% LSS 30 GOTO LP
REM 上面这个比较简单，就是将切分出来的词语按照字符长度和偏移量重新组装句子，并用空格和【】隔开以突出词语。
REM 前面有过一段时间为这几行字母折腾了好几天，后来想通了原来竟是这么简单。
ECHO.
ECHO.
PAUSE 
GOTO FJJZ
复制代码

批处理中文分词之交集型词语匹配

（包含正向最大匹配）

 
@echo off&setlocal enabledelayedexpansion
:fjjz 
cls
set /p inf=    输入句子：
cd.>S.TXT
for /l %%i in (0,1,100) do (
set strdd=!inf:~%%i,4!&if defined strdd set strddo=!strdd:~3,1!&if defined strddo   for /f "tokens=1,*" %%a in
(dictionary.txt) do if "%%a"=="!strdd!" echo 4 %%i %%a %%b      %%i,4
set strcc=!inf:~%%i,3!&if defined strcc set strcco=!strdd:~2,1!&if defined strcco   for /f "tokens=1,*" %%e in
(dictionary.txt) do if "%%e"=="!strcc!" echo 3 %%i %%e %%f      %%i,3
set strbb=!inf:~%%i,2!&if defined strbb set strbbm=!strbb:~1,1!&if defined strbbm   for /f "tokens=1,*" %%x in
(dictionary.txt) do if "%%x"=="!strbb!" echo 2 %%i %%x %%y      %%i,2
set straa=!inf:~%%i,1!&if defined straa for /f "tokens=1,*" %%m in (dictionary.txt) do if "%%m"=="!straa!" echo 1 %%i %%m %
%n       %%i,1
)>>S.TXT
cd.>zk1.txt
set var=-1
:lp
set /a var+=1
for /f "tokens=1,2,3,*"   %%i in (S.txt) do (
if !var!==%%j (
set /p k= %%k<nul
set /a var=%%j+%%i
)
)>>zk1.txt
if %var% lss 30 goto lp
echo.
cd.>zk2.txt
for /f "tokens=1,2,3,*"   %%a in (S.txt) do if %%a==2 set /p s= %%c<nul>>zk2.txt
set /p wj=<zk1.txt
set /p wj1=<zk2.txt
for    %%i in (!wj!) do (
for    %%a in (!wj!) do (
set dfa=%%i
set ahe=!dfa:~2,1!
for    %%e in (!wj1!) do (
for    %%x in (!wj1!) do (
if defined ahe if "%%i%%a"=="%%e%%x" set vdae=%%e&set vdaea=%%x&set vdbe=%%i&set vdbea=%%a
)
)
)
)
echo.
set /p lied=<zk1.txt
for   %%i in (!lied!) do (
if "%%i"=="!vdbe!" (echo !vdae! !vdaea!) else (if not "!vdaea:~1,1!"=="%%i" echo %%i)
)
echo.
pause
del zk1.txt,zk2.txt
goto fjjz
复制代码

cjiabing

荣誉版主

Rank: 8 Rank: 8

帖子: 1726
积分: 4476
技术: 95
捐助: 0
注册时间: 2008-12-21

26楼

发表于 2010-9-19 15:46 | 只看该作者

原帖由 batman 于 2010-9-19 09:26 发表
虽然个人不太支持这个研究课题，但为楼主这种求真的精神而感动。。。

   还是netbenton厉害，有空向他学习！~
   这不过是每个人儿童时候的一个梦想而已，有朝一日机器人能与真正的走进我们的生活。学习批处理，让我们有了实现梦想的能力，像你说的，用批处理做这件事情就像用小刀宰牛一样——勉为其难了。
   电子科技的飞速发展促进了机器人的研究，现在的机器人在模仿人类的动作和功能方面已经有十分大的进步了。人工智能中最大的挑战来自语言智能，因为语言和思维的密切关系，语言智能了机器人也就智能了。但目前看来，思维这种活动似乎是人类特有的，机器人实现起来非常困难。我们连自己做的梦都没搞清楚，机器人又如何能搞清楚人的思维呢？
   人类文明之所以发展，一个原因就是人类对自然规律的不停探索，在语言智能方面亦如此。计算机说的话是计算机语言，我们说的话是自然语言，两种语言并不相同，计算机语言和自然语言如何翻译和转换正是当前研究的重点课题。这个课题又分为两大主题，一是计算机自然语言理解——计算机如何懂得我们人类说的话，一是自然语言的处理——理解之后的运用，如何让计算机自己思考并说出人类能够理解的话来，这叫做自然语言的生成。
   本帖谈的中文分词属于计算机自然语言理解的基础，它的作用是将一个句子拆解成一个个独立的、可以理解的词语。计算机的理解就是将句子还原成词语，并弄清楚词语之间内在的关系。用我们前面谈到的聊天机器人来说，你给它输入一句话“你吃饭了吗？”，你叫机器人如何回答呢？学过批处理的你可能会想，先设定一个文本，把各种问题和答案预先保存好，然后用输入的话作为搜索词，搜索这个文本，把结果显示出来就OK。目前，许多客服系统，专家系统用的就是这种方式。
   假如你输入“你吃饭了没有？”句子和上句有个别词出入，意思还是一样，那你的搜索词是什么了呢？假如你还是以句子来搜索，那你就得预先设置句子到文本中，但这样的结果就是这个文本将是无限的庞大——因为人说话的句子有时候句子词语长短都不一样，或许意思一样。
   可能你会想到用关键词来搜索，这才是搜索的正道，但关键词哪里来呢？来自输入的句子，那输入的句子你如何让电脑知道句子中哪个是词语，哪个不是？这时，你就需要分词了——将句子拆解开来，逐个查字典，字典有的就是词语，没有的就不是，词语多吧但总比句子少，所以，这个是比较可行的。
   英文的句子一般不用分词，原因是英文句子一般都要把单词用空格分开，但中文句子中的字和词都是粘到一起的，特别是古文，以前基本上没有标点符号的，区分词语完全靠人的语文经验判断。计算机要查找关键词首先要分词——用空格把句子中的词语隔开。这是中文在计算机自然语言处理方面遇到的一道坎，因为分词的准确率并非很高，速度也受到影响。
   现在中文分词在许多领域都有使用，比如搜索引擎、文献检索、专家系统、智能研究等等。你使用百度搜索的时候，假如你输入一个不是词语的词语，或者一段长长的话，百度搜索不到结果，往往会提示你“你搜索的是不是*……*”这就是百度的中文分词在起作用了。
   你可以使用论坛的搜索功能做试验，你试着同时搜索这三个关键词“我  爱批处理”——之间用空格隔开，然后再搜索这句话“我爱批处理”。对比一下结果你就知道了，前面只能使用关键词来搜索，而后面使用了中文分词，自动把句子拆解成关键词。因为本论坛没有中文分词，所以搜索不到结果。
   专家系统和聊天机器人也是建立在这种中文分词的基础上的，它能自动识别你的句子，自动获得关键词，自动搜索答案，自动组句回答问题……
      由此可见，中文分词是未来人工智能发展的基础，它的重要性不言而喻。批处理中文分词的意义不过是做个尝试，如果不考虑效率问题也是可行的，只要你有足够的批处理知识和一定的语言学知识，假如再有好的词库和规则，用批处理实现你的梦想也是十分可能的事情……
      多了解、多尝试，说不定你会成为第一个智能机器人的发明家呢，而且还是中国制造的！~

TOP

TX_kakashi

少尉

Rank: 5 Rank: 5

帖子: 237
积分: 589
技术: 13
捐助: 0
注册时间: 2010-6-10

25楼

发表于 2010-9-19 11:55 | 只看该作者

回复 24楼的帖子

同意楼上的，lz钻研的精神值得敬佩，如果用高级语言的话也许能收获更多....毕竟这种工作不是批处理的强项....

TOP

batman

荣誉版主

Rank: 8 Rank: 8

帖子: 2702
积分: 14559
技术: 176
捐助: 630
注册时间: 2008-6-16

24楼

发表于 2010-9-19 09:26 | 只看该作者

虽然个人不太支持这个研究课题，但为楼主这种求真的精神而感动。。。

＊＊＊共同提高＊＊＊

TOP

cjiabing

荣誉版主

Rank: 8 Rank: 8

帖子: 1726
积分: 4476
技术: 95
捐助: 0
注册时间: 2008-12-21

23楼

发表于 2010-9-17 13:11 | 只看该作者

原帖由 netbenton 于 2010-9-17 12:56 发表
输入一个字符串:华为二十四口交不好

截取过程：[华为二十四口交不好]  二十四
截取过程：[华为口交不好]  不好
截取过程：[华为口交  ]  华为
截取过程：[    口交  ]  口交

所有字符均可在词库中找 ...

哈哈，你也发明一个替换法啊，我见过有个家伙说取消或者增加一个字来切分的。
Batcher的这道题N多年以前见过，不过那时候还不懂分词。
“华为二十四口交换机”与“我喜欢坐在面包车上一边吃面包一边看北京大学生活动中心门楼的门”可能存在一定的冲突……

TOP

netbenton

荣誉版主

Rank: 8 Rank: 8

帖子: 675
积分: 3226
技术: 75
捐助: 101
注册时间: 2009-4-10

22楼

发表于 2010-9-17 12:56 | 只看该作者

输入一个字符串:华为二十四口交不好

截取过程：[华为二十四口交不好]  二十四
截取过程：[华为口交不好]  不好
截取过程：[华为口交  ]  华为
截取过程：[    口交  ]  口交

所有字符均可在词库中找到

最终拆分： [华为] [二十四] [口交] [不好]
12:55:39.01
12:55:39.48

库里有那个词的，只是没有匹配到它

TOP

cjiabing

荣誉版主

Rank: 8 Rank: 8

帖子: 1726
积分: 4476
技术: 95
捐助: 0
注册时间: 2008-12-21

21楼

发表于 2010-9-17 12:50 | 只看该作者

原帖由 netbenton 于 2010-9-17 12:43 发表
可以吧~~~，结果如下：

输入一个字符串:华为二十四口交换机

截取过程：[华为二十四口交换机]  二十四
截取过程：[华为口交换机]  交换机
截取过程：[华为口 ]  华为
截取过程：[    口 ]  口

...

你查查你词库里有没有口交这个词？

TOP

cjiabing

荣誉版主

Rank: 8 Rank: 8

帖子: 1726
积分: 4476
技术: 95
捐助: 0
注册时间: 2008-12-21

20楼

发表于 2010-9-17 12:48 | 只看该作者

哈哈，我的变口交了

TOP

netbenton

荣誉版主

Rank: 8 Rank: 8

帖子: 675
积分: 3226
技术: 75
捐助: 101
注册时间: 2009-4-10

19楼

发表于 2010-9-17 12:43 | 只看该作者

可以吧~~~，结果如下：

输入一个字符串:华为二十四口交换机

截取过程：[华为二十四口交换机]  二十四
截取过程：[华为口交换机]  交换机
截取过程：[华为口 ]  华为
截取过程：[    口 ]  口

所有字符均可在词库中找到

最终拆分： [华为] [二十四] [口] [交换机]
12:36:47.53
12:36:47.98

输入一个字符串:华为24口交换机
截取过程：[华为24口交换机]  交换机
截取过程：[华为24口 ]  华为
截取过程：[  24口 ]  口
词库中没有的：
截取过程：[  24 ]  24
最终拆分： [华为] 24 [口] [交换机]
12:45:33.93
12:45:34.34

[ 本帖最后由 netbenton 于 2010-9-17 12:46 编辑 ]

TOP

cjiabing

荣誉版主

Rank: 8 Rank: 8

帖子: 1726
积分: 4476
技术: 95
捐助: 0
注册时间: 2008-12-21

18楼

发表于 2010-9-17 12:31 | 只看该作者

原帖由 Batcher 于 2010-9-17 11:53 发表

类似这种可以分吗？

你对电脑说：华为二十四口交换机
开始时间：12:30:31.07
输出截取时间：12:30:31.18
开始匹配时间：12:30:31.20
匹配结束时间：12:30:31.95
匹配与截取融合时间：12:30:32.03
开始组句时间：12:30:32.03
组句完成时间：12:30:33.57
获取二字词时间：12:30:33.59
交叉词开始时间：12:30:33.59
华为
二十四
口交
换机
最后完成时间：12:30:33.67
请按任意键继续. . .

TOP

Batcher

管理员

Rank: 12

帖子: 14801
积分: 45979
技术: 848
捐助: 745
注册时间: 2008-6-9

17楼

发表于 2010-9-17 11:53 | 只看该作者

华为二十四口交换机

类似这种可以分吗？

我帮忙写的代码不需要付钱。如果一定要给，请在微信群或QQ群发给大家吧。
【微信公众号、微信群、QQ群】http://bbs.bathome.net/thread-3473-1-1.html
【支持批处理之家，加入VIP会员！】http://bbs.bathome.net/thread-67716-1-1.html

TOP

cjiabing

荣誉版主

Rank: 8 Rank: 8

帖子: 1726
积分: 4476
技术: 95
捐助: 0
注册时间: 2008-12-21

16楼

发表于 2010-9-17 09:17 | 只看该作者

1、findstr 改为使用“findstr  /i  /x  /r /g:test2.TXT _dictionary.txt>>test3.TXT”。这里我也糊涂，首先它要用到取消大小写的“/I”，然后用到“ /R       将搜索字符串作为一般表达式使用。”不懂得是文本的原因还是Findstr本身的原因。
   2、你说的词库其实它是有分级的，按照我的理解，它至少有三级，第一级是字典，就是查单个字的，第二级是词典，查那些标准词语的，第三级是词频统计出来的出现频率比较多的词语，比如“你的”、“是吗”、“来得”等等。第四级是专业字典，比如人名地名字典。现在我们涉及的主要是第二级和第三级，因为没建立基础模式，我们还没用到字典来查单个词语。更关键的，制作词库非普通人能完成，所以，还得用现有的单一词库。
   3、据网上有帖子分析百度的分词方法提到，百度使用了正向最大匹配法和拼音匹配，速度都算快。百度还有最宝贵的一个字典就是人名、地名字典，用这个专业字典先匹配人名和地名，剩下的使用正向最大匹配法解决。
中科院软件所张俊林：Baidu分词算法分析_站长茶馆_站长在线_中国...
   4、分词的方法很多，现在我们尝试的都是最基本的方法，我发现你有意识的往“新词登录”方面想了，成绩也突出，很好！~工作虽然繁杂，但值得尝试批处理在这方面的能力，希望能为后面的自然处理打下基础。
   5、最后谢谢你，能和你一起交流是一件愉快的事情！~

[ 本帖最后由 cjiabing 于 2010-9-17 09:55 编辑 ]

TOP

netbenton

荣誉版主

Rank: 8 Rank: 8

帖子: 675
积分: 3226
技术: 75
捐助: 101
注册时间: 2009-4-10

15楼

发表于 2010-9-17 07:47 | 只看该作者

经过几次测试实验，我认为，只要对词库进行一定的“驯化”，即调整顺序、合理的增/减词汇，应该可以正确拆分所有的句子。

这种分文档存放词库方法较为灵活，可以随意调整词的优先顺序。
比如：
在最长分词库前增加一个人名库，这样就可以，以最优先权去匹配人的名字。
把dics.txt 的内容改为：
name.txt
[email]dict@10.txt[/email]
[email]dict@9.txt[/email]
[email]dict@8.txt[/email]
[email]dict@7.txt[/email]
[email]dict@6.txt[/email]
[email]dict@5.txt[/email]
[email]dict@4.txt[/email]
[email]dict@3.txt[/email]
[email]dict@2.txt[/email]
[email]dict@1.txt[/email]

然后在name.txt里面存放人名/地名等：
3刘德华
3张曼玉
4比尔盖茨
5东方不败
2香港
2桂林

这样，name.txt 中的词即得到最优先权的匹配

TOP

netbenton

荣誉版主

Rank: 8 Rank: 8

帖子: 675
积分: 3226
技术: 75
捐助: 101
注册时间: 2009-4-10

14楼

发表于 2010-9-16 21:39 | 只看该作者

8楼的代码，因为findstr 的一些特性，存在一些bug，修改如下：

一、词库搜索代码：
findstr /x /g:fen.tmp /f:dics.txt

二、把词库按字数分别存放,并且文件名上可见词的字数。如:
[email=dict@1.txt]dict@1.txt[/email]
1人
1们
...

[email=dict@2.txt]dict@2.txt[/email]
2人民
2后门
...

......

些种办法把词分出来后，可方便词库的维护。
以下代码可把楼主提供的词库转换成按字数分文档存放。

@echo off&setlocal enabledelayedexpansion

for /l %%a in (0,1,10) do del dict@%%a.txt /q

echo;%time%
for /f "tokens=*" %%a in (dic16.txt) do (
   set str=%%a
   if "!str:~9!" equ "" (
      set str=0123456789%%a
      set n=!str:~-10,1!
      echo;!n!%%a>>dict@!n!.txt
   ) else (
      echo;!n!%%a>>dict@10.txt
   )
)
(for /f %%a in (dictionar@1.txt) do (echo;1%%a))>dict@1.txt
dir /o-n /b dict@*>dics.txt
echo;%time%
pause
复制代码

三、dics.txt 存放各分词库的文件名，以字数长的分词库在前，短在后。
dics.txt内容：
[email=dict@10.txt]dict@10.txt[/email]
[email=dict@9.txt]dict@9.txt[/email]
[email=dict@8.txt]dict@8.txt[/email]
[email=dict@7.txt]dict@7.txt[/email]
[email=dict@6.txt]dict@6.txt[/email]
[email=dict@5.txt]dict@5.txt[/email]
[email=dict@4.txt]dict@4.txt[/email]
[email=dict@3.txt]dict@3.txt[/email]
[email=dict@2.txt]dict@2.txt[/email]
[email=dict@1.txt]dict@1.txt[/email]

四、分词代码修改后，不再有搜索漏网的bug。并且对速度影响不大，20个字数长度的句子，拆分用时在一秒内。

@echo off&setlocal enabledelayedexpansion

:lp
set str=
echo;
echo;直接回车退出测试
set /p str=输入一个字符串:
set ti=%time%
if "!str!" equ "" goto :eof
setlocal enabledelayedexpansion


set/a z=8180,x=0&for /l %%a in (1,1,14) do (set/a "y=(z-x)/2+x"
    for %%b in (!y!) do if "!str:~%%b,1!" equ "" (set/a z=y) else (set/a x=y)
)
::计算输入串的长度

::sap 存入同等长度的空格串
set lens=1 2 3 4 5 6 7 8 9 10 11
set/a z1=z-1
set sap=
(for /l %%i in (0,1,!z1!) do (
    set "spa= !spa!"
    set one=!str:~%%i,1! !one!
    set/a x=z-%%i
    for %%j in (!lens!) do (
        set/a y=%%i+%%j
        echo;%%j!str:~%%i,%%j!
        for %%a in ("!str:~%%i,%%j!") do (
            set ##%%~a=%%i-!y!-%%j !##%%~a!
        )
    )
))>fen.tmp

::(for /l %%a in (0,1,!z!) do for %%k in (!@%%a!) do (echo;%%k))>fen.tmp
::进行排列拆分到临时文件fen.tmp，同时取各分词的长度，及在原句中的起址位置，并按一定的规则保存
::似乎要从短到长，findstr才能完全正确查找


set var=!str!
echo;!vvv!

for /f "tokens=2* delims=:123456789" %%1 in ('findstr /x /g:fen.tmp /f:dics.txt') do (
  for %%k in (!##%%2!) do (
    if "!var:%%2=!" neq "!var!" (
      for /f "tokens=1,2,3 delims=-" %%b in ("%%k") do (
        if "!var:~%%b,%%d!" equ "!str:~%%b,%%d!" (
          echo;截取过程：[!var!]  %%2
          set var=!var:~0,%%b!!spa:~,%%d!!var:~%%c!
          set $$%%b= [%%2]
        )
      )
    )
  )
)
::搜索词库，并做已经截取过记号，同时为恢复分词在原句中的位置做准备


echo;
if "!var: =!" neq "" (
  echo;词库中没有的：
  for %%a in (!var!) do (
    for %%k in (!##%%a!) do (
      if "!var:%%a=!" neq "!var!" (
        for /f "tokens=1,2,3 delims=-" %%b in ("%%k") do (
          if "!var:~%%b,1!" neq " " (
            echo;截取过程：[!var!]  %%a
            set var=!var:~0,%%b!!spa:~,%%d!!var:~%%c!
            set $$%%b= %%a
          )
        )
      )
    )
  )
) else (echo;所有字符均可在词库中找到)
::对在词库中找不到的分词，也进行同样的处理

echo;
set dest=
for /l %%a in (0,1,!z!) do set dest=!dest!!$$%%a!
echo;最终拆分：!dest!
echo;%ti%
echo;%time%
endlocal&goto :lp
复制代码

五、词在库中的先后，决定了匹配的优先顺序，只要改变词在库中的顺序，即可改变折分的准确性。

我另外写了一个词库维护的代码，可以改变词在库中的顺序，增加词到词库中。

初版只支持一次修改两个词顺序。代码如下：

@echo off&setlocal enabledelayedexpansion

echo;  ** 调整词序/增加词组 **
set /p str1=输入第一字符串:
set /p str2=输入第二字符串:
if "!str1!" equ "!str2!" goto :eof

set str=0123456789!str1!
set n1=!str:~-10,1!

set str=0123456789!str2!
set n2=!str:~-10,1!

set str1=!n1!!str1!
set str2=!n2!!str2!

if "!n1!" equ "!n2!" (
  findstr /x "!str1!" dict@!n1!.txt>nul
  if !errorlevel! equ 1 (
        set str1=%str2%
        set str2=%str1%
        set xchg=y
     findstr /x "!str1!" dict@!n1!.txt>nul
     if !errorlevel! equ 1 set xchg=n
  )

  if "!xchg!" neq "n" (
    copy dict@!n1!.txt fen.tmp /y
    (for /f %%a in (fen.tmp) do (
        if "%%a" neq "!str2!" echo;%%a
        if "%%a" equ "!str1!" (
          echo;!str2!
          if defined xchg (echo;!str1!)
        )
    ))>dict@!n1!.txt
    echo;修改 [!str1!] 和 [!str2!] 在dict@!n1!.txt中的顺序
  ) else (
    echo;!str2!>>dict@!n1!.txt
    echo;!str1!>>dict@!n1!.txt
    echo;添加 [!str1!] 和 [!str2!] 到 dict@!n1!.txt
  )

) else (
  findstr /x "!str1!" dict@!n1!.txt>nul
  if !errorlevel! equ 1 (
    echo;!str1!>>dict@!n1!.txt
    echo;添加 [!str1!] 到 dict@!n1!.txt
  )
  findstr /x "!str2!" dict@!n2!.txt>nul
  if !errorlevel! equ 1 (
     echo;!str2!>>dict@!n2!.txt
     echo;添加 [!str2!] 到 dict@!n2!.txt
  )
)

pause
复制代码

拆分句子示例：

输入一个字符串:这也是造成肇事车辆屡屡逃逸的一个主要原因

截取过程：[这也是造成肇事车辆屡屡逃逸的一个主要原因]  主要原因
截取过程：[这也是造成肇事车辆屡屡逃逸的一个          ]  屡屡
截取过程：[这也是造成肇事车辆  逃逸的一个          ]  车辆
截取过程：[这也是造成肇事逃逸的一个          ]  逃逸
截取过程：[这也是造成肇事    的一个          ]  一个
截取过程：[这也是造成肇事    的          ]  也是
截取过程：[这  造成肇事    的          ]  造成
截取过程：[这肇事    的          ]  肇事
截取过程：[这          的          ]  这
截取过程：[          的          ]  的
所有字符均可在词库中找到
最终拆分： [这] [也是] [造成] [肇事] [车辆] [屡屡] [逃逸] [的] [一个] [主要原因]
开始： 6:44:02.45
结束： 6:44:03.20

楼主出的测试例子结果如下（词库的一些词经过顺序调整）：
最终拆分： [我] [喜欢] [坐在] [面包车] [上] [一边] [吃] [面包] [一边] [看] [北京] [天安门] [门楼] [的] [门]
最终拆分： [我] [喜欢] [坐在] [面包车] [上] [一边] [吃] [面包] [一边] [看] [北京] [大学生活动中心] [门楼] [的] [门]
最终拆分： [我] [喜欢] [坐在] [面包车] [上] [一边] [吃] [面包] [一边] [看] [北京大学] [生活] [在] [音乐] [里]
最终拆分： [我] [喜欢] [坐在] [面包车] [上] [一边] [吃] [面包] [一边] [看] [北京大学] [生活] [很好]
最终拆分： [我] [喜欢] [坐在] [面包车] [上] [一边] [吃] [面包] [一边] [看] [北京大学] [的] [学生] [生活] [在] [音乐] [里]
最终拆分： [我] [喜欢] [坐在] [面包车] [上] [一边] [吃] [面包] [一边] [看] [北京大学] [的] [学生] [活在] [音乐] [里]
最终拆分： [广西] [大学生活] [很好]
最终拆分： [我] [喜欢] [吃] [鸭肉]
最终拆分： [伟] [大学生] [生活]
最终拆分： [大学生活] [动]
最终拆分： [大学生活] [好]
最终拆分： [大学生活动中心]
最终拆分： [发展] [中国家庭养猪] [事业]
最终拆分： [你说] [的] [确实在] [理]

[ 本帖最后由 netbenton 于 2010-9-17 07:31 编辑 ]

TOP

随风

荣誉版主

Rank: 8 Rank: 8

帖子: 1759
积分: 5387
技术: 51
捐助: 210
注册时间: 2007-10-26

13楼

发表于 2010-9-15 12:42 | 只看该作者

代码缩进绝非仅仅是为了好看，更主要的作用是便于理解代码。通过缩进，别人可以很容易看清你的代码结构，哪些块是干什么用的，哪些语句组成一个语句块。。。。。。。。
把语句盲目的用 & 符号连接起来，会使人很难看明白哪些语句可以拆开来看，哪些语句是一个块中的。。。。

技术问题请到论坛发帖求助！

TOP

12 下一页

返回列表

[新手上路]批处理新手入门导读	[视频教程]批处理基础视频教程	[视频教程]VBS基础视频教程	[批处理精品]批处理版照片整理器
[批处理精品]纯批处理备份&还原驱动	[批处理精品]CMD命令50条不能说的秘密	[在线下载]第三方命令行工具	[在线帮助]VBScript / JScript 在线参考

[文本处理] 批处理中文分词的实现

回复 24楼的帖子

[收藏此主题] [关注此主题的新回复]

[通过 QQ、MSN 分享给朋友]

[文本处理] 批处理中文分词的实现

回复 24楼 的帖子

[收藏此主题] [关注此主题的新回复]

[通过 QQ、MSN 分享给朋友]

回复 24楼的帖子