使用BeautifulSoup去除HTML中的JavaScript

2014-12-12

BeautifulSoup是一个处理html和xml的python库。这里有一份它的中文文档。说到处理html和xml的python库,pyquery也是个不错的选择。

使用下面的代码,可以去除html中的script标签以及标签之间的内容:

# -*- coding: utf-8 -*- 
from BeautifulSoup import BeautifulSoup

soup = BeautifulSoup('<script>a</script>你好啊<p>hi</p><script>b</script>')
for s in soup('script'):
    s.extract()
print soup.__str__()

运行结果:

你好啊<p>hi</p>

参考:

Can I remove script tags with BeautifulSoup?

how to remove text between <script> and </script>using python?

( 完 )