V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX 提问指南
loginv2
V2EX  ›  问与答

求助:网页JS脚本过滤问题

  •  
  •   loginv2 · 2013-05-11 20:27:48 +08:00 · 2762 次点击
    这是一个创建于 4233 天前的主题,其中的信息可能已经有所发展或是发生改变。
    <html>
    <head>
    <script></script>
    </head>
    <body>
    html内容html内容html内容html内容html内容
    <script></script>
    html内容html内容html内容
    <div>
    <script>1</script>html内容html内容html内容
    </div>
    <span>
    <script>2</script>
    </span>

    <xxx><script>3</script></xxx>


    </body>
    <script></script>
    </html>

    如何过滤上述代码的 script标签及内容
    条件1 保持html的结构
    条件2 不能

    方法不限 求思路
    6 条回复    1970-01-01 08:00:00 +08:00
    funagi
        1
    funagi  
       2013-05-11 20:42:41 +08:00
    条件2 不能 [什么?]

    一般都是用正则替换掉<script>.+?</script>

    好吧,其实我自己都觉得没有完全理解楼主的问题
    loginv2
        2
    loginv2  
    OP
       2013-05-11 20:52:31 +08:00
    条件2 不能误伤1 2 3 这三处标签
    crazybubble
        3
    crazybubble  
       2013-05-11 21:37:09 +08:00
    用BeautifulSoup的话,先选中head,再在head里选中script,然后extract掉
    loginv2
        4
    loginv2  
    OP
       2013-05-11 22:00:29 +08:00
    那body里面的怎么办

    我的大概意思就是 浏览器是怎么识别html中 脚本和 文本的区别的?

    脚本用于了执行
    而文本用来显示 不执行
    funagi
        5
    funagi  
       2013-05-11 22:40:02 +08:00
    @loginv2
    文本形式的<script>在HTML中的正确表示法应该是&lt;script&gt;
    http://www.ostools.net/commons?type=2
    loginv2
        6
    loginv2  
    OP
       2013-05-12 00:32:54 +08:00
    这只是一种表示法
    不转义的话 也可以显示的,当这种情况出现的时候就不知道怎么判断了
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   2210 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 21ms · UTC 16:03 · PVG 00:03 · LAX 08:03 · JFK 11:03
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.