因工作需要,需要采集html,并把html内容保存到数据库中。为了避免影响使用,宽高样式需要删除。例如图片和div中的width, height等。
不过采集到的html中,样式的写法各有不同,例如大小写,中间有空格等。
因此使用php正则编写了下面这个方法,对这些奇葩的样式进行过滤。
代码如下:
<?php function clear_wh($content){ $config=array('width', 'height'); foreach($config as $v){ $content=preg_replace('http://www.3lian.com/'.$v.'\s*=\s*\d+\s*/i', '', $content); $content=preg_replace('http://www.3lian.com/'.$v.'\s*=\s*.+?["\']/i', '', $content); $content=preg_replace('http://www.3lian.com/'.$v.'\s*:\s*\d+\s*px\s*;?/i', '', $content); } return $content; } ?>
演示:
<?php $html=<<<HTML <div style="text-align:center" width="500" height="300"> <div style="Width : 100px ; Height: 100 px;"> <img src="https://www.51drink.cn/skin/default/image/lazy.gif" class="lazy" original="http://www.3lian.com/edu/2017/06-14/"/images/test.jpg"" width=400 height=200> <div style="float:left; width: 100px; height : 200 px;"></div> </div> <div style="width : 100 px ;height: 100px"> <img src="https://www.51drink.cn/skin/default/image/lazy.gif" class="lazy" original="http://www.3lian.com/edu/2017/06-14/"/images/test.jpg"" width=400 height=200> </div> </div> HTML; echo '<xmp>'; echo '原内容:'.PHP_EOL; echo $html.PHP_EOL.PHP_EOL; echo '过滤后内容:'.PHP_EOL; echo clear_wh($html); echo '</xmp>'; ?>
输出:
原内容: <div style="text-align:center" width="500" height="300"> <div style="Width : 100px ; Height: 100 px;"> <img src="https://www.51drink.cn/skin/default/image/lazy.gif" class="lazy" original="http://www.3lian.com/edu/2017/06-14/"/images/test.jpg"" width=400 height=200> <div style="float:left; width: 100px; height : 200 px;"></div> </div> <div style="width : 100 px ;height: 100px"> <img src="https://www.51drink.cn/skin/default/image/lazy.gif" class="lazy" original="http://www.3lian.com/edu/2017/06-14/"/images/test.jpg"" width=400 height=200> </div> </div> 过滤后内容: <div style="text-align:center" > <div style=" "> <img src="https://www.51drink.cn/skin/default/image/lazy.gif" class="lazy" original="http://www.3lian.com/edu/2017/06-14/"/images/test.jpg"" > <div style="float:left; "></div> </div> <div style=""> <img src="https://www.51drink.cn/skin/default/image/lazy.gif" class="lazy" original="http://www.3lian.com/edu/2017/06-14/"/images/test.jpg"" > </div> </div>