批处理之家's Archiver

hlzj88 发表于 2021-9-17 08:13

[已解决] sed处理文本后出现乱码

[i=s] 本帖最后由 hlzj88 于 2021-9-17 08:58 编辑 [/i]

已解决,版主可以删帖。

缘由,一段网页文本,标点符号全有,就是没有<br>换行,得到的文本也是一段文字。
所以用sed -i “s/。/。<br>\n/g” file来进行强制换行和减小每行长度,出现部分乱码

特点文本如下
那根棍子粗细合适不闲小,我情不自禁的舞了起来。
他的比我的还小,你的是我们中间最大的,今天我才知道是哥哥让着我的。
不过看在小云年龄还小,又不在妈妈身边。
就是啊!你还和我们计较什么。

出现 以 小, 啊!为特点的句子,都会出现乱码,导致后文不能阅读。

文本格式 ansi  win7  sed版本4.7。
求助各位大佬,如何处理,可以避免乱码情况。

在单位win xp 下依据乱码。

更换sed 为4.8 处理正常。 可惜不能删帖,

页: [1]

Powered by Discuz! Archiver 7.2  © 2001-2009 Comsenz Inc.