Board logo

标题: [文本处理] 批处理怎样查找文本中的重复行或重复段落? [打印本页]

作者: comicguests    时间: 2011-9-12 10:52     标题: 批处理怎样查找文本中的重复行或重复段落?

刚才搜索了一下,没找到有用内容,只好又来请教了...

有一些txt格式的文档,但里面有一些重复行或重复段落,有故意重复的,但大多是录入时搞重复了,
我想将这些重复行或重复段落查找出来,并写入到a.txt中,之后自己根据a.txt里的信息手动删就可以了。
多谢!!!
作者: Seder    时间: 2011-9-12 10:55

方便把文本贴出来吗?
作者: Batcher    时间: 2011-9-12 11:36

什么是有用的内容?

批处理如何删除文本文件中重复的行
http://bbs.bathome.net/thread-5219-1-1.html

批处理如何删除txt文本中的重复行
http://bbs.bathome.net/thread-5509-1-1.html

批处理去除超大文本中的重复行
http://bbs.bathome.net/thread-4690-1-1.html

批处理删除文本重复行时如何使用变量延迟扩展
http://bbs.bathome.net/thread-5326-1-1.html

批处理中sort命令如何过滤重复行
http://bbs.bathome.net/thread-4896-1-1.html
作者: comicguests    时间: 2011-9-12 13:28

回复 3# Batcher

我没找到这么多,刚才看了一下,基本是批处理找到重复行后就给他删除了,我是想把找到的重复内容写入到新建文档中,自行处理(毕竟不能保证它不会误删)
基本上,重复字词超过十个就可以视为重复段了,然后在a.txt中显示重复段的前十个字就可以了.

还有,我不能给出文本内容,并不是保密什么的,因为我也不知道哪里重了....




欢迎光临 批处理之家 (http://www.bathome.net/) Powered by Discuz! 7.2