[问题求助] sed 当一行有多个关键词时如何提取第一组关键词中间的内容

Rank: 8 Rank: 8

帖子: 2702
积分: 14559
技术: 176
捐助: 630
注册时间: 2008-6-16

2楼

发表于 2011-6-2 12:32 | 只看该作者

这样就是取到最后一组数据（头痛。。。）：

sed "s/.*<span class=b>\(.*\)<\/span>.*/\1/"
复制代码

＊＊＊共同提高＊＊＊

Rank: 8 Rank: 8

帖子: 2702
积分: 14559
技术: 176
捐助: 630
注册时间: 2008-6-16

3楼

发表于 2011-6-2 12:42 | 只看该作者

只好用不保险的办法（字符串中不能有@字符）：

sed -e "s/<\/span>/@/" -e "s/.*<span class=b>\(.*\)@.*/\1/"
复制代码

＊＊＊共同提高＊＊＊

Batcher

管理员

Rank: 12

帖子: 14786
积分: 45962
技术: 847
捐助: 745
注册时间: 2008-6-9

4楼

发表于 2011-6-2 12:53 | 只看该作者

sed -r "s#[^/]*<span class=b>(.*</a>).*#\1#" 1.txt
复制代码

1 评分人数

batman: 牛了！技术 + 1

我帮忙写的代码不需要付钱。如果一定要给，请在微信群或QQ群发给大家吧。
【微信公众号、微信群、QQ群】http://bbs.bathome.net/thread-3473-1-1.html
【支持批处理之家，加入VIP会员！】http://bbs.bathome.net/thread-67716-1-1.html

Rank: 8 Rank: 8

帖子: 2702
积分: 14559
技术: 176
捐助: 630
注册时间: 2008-6-16

5楼

发表于 2011-6-2 12:56 | 只看该作者

试了下把关键字符串替换为引号（\x22）也可以：

sed -e "s/<\/span>/\x22/" -e "s/.*<span class=b>\(.*\)\x22.*/\1/"
复制代码

＊＊＊共同提高＊＊＊

Rank: 8 Rank: 8

帖子: 2702
积分: 14559
技术: 176
捐助: 630
注册时间: 2008-6-16

6楼

发表于 2011-6-2 12:58 | 只看该作者

4# Batcher
batcher讲一下这个-r吧。。。

＊＊＊共同提高＊＊＊

Batcher

管理员

Rank: 12

帖子: 14786
积分: 45962
技术: 847
捐助: 745
注册时间: 2008-6-9

7楼

发表于 2011-6-2 13:01 | 只看该作者

-r, --regexp-extended
use extended regular expressions in the script.

-r是启用扩展正则，使用s/xxx\(xxx\)xxx/\1/这样的后向引用时，圆括号前面的\就可以省去了。

Rank: 8 Rank: 8

帖子: 2702
积分: 14559
技术: 176
捐助: 630
注册时间: 2008-6-16

8楼

发表于 2011-6-2 13:15 | 只看该作者

4# Batcher
中间有</a>啊。。。还是不通用

因为</a>是要得取的元素中可能有也可能无的元素。。。

＊＊＊共同提高＊＊＊

随风

Rank: 8 Rank: 8

帖子: 1759
积分: 5387
技术: 51
捐助: 210
注册时间: 2007-10-26

9楼

发表于 2011-6-2 13:16 | 只看该作者

本想通过举例来举一反三，发现还是不行
4楼batcher的代码通过关键字前面没有的字符/，能解决顶楼问题，
但是若前面含有 / 则又不行了，并且</a>也是唯一性。

现在想知道的是 sed 能不能做到，只通过已知的关键字提取他们之间的内容.
还是一顶楼为例，即不能通过不确定的条件查找,
比如 前面没有 /
或需提取的内容结尾是</a>

技术问题请到论坛发帖求助！

随风

Rank: 8 Rank: 8

帖子: 1759
积分: 5387
技术: 51
捐助: 210
注册时间: 2007-10-26

10楼

发表于 2011-6-2 13:29 | 只看该作者

5楼 batman 的代码也类似，利用了需提取字符串后面没有引号的特点，若最后加个引号则又是提取到最后的了。

技术问题请到论坛发帖求助！

nooope

列兵

Rank: 1

帖子: 2
积分: 13
技术: 0
捐助: 0
注册时间: 2011-8-24

11楼

发表于 2011-8-24 23:54 | 只看该作者

我来试试看.我并不单纯地使用sed

cat aaa.dat
ABC<ahref="//link.com">link</a>5678gg<hth000<1>2<3>

grep -oP '<span class=b>.*' aaa.dat | sed  's/<\/span>.*//g'
复制代码