主頁(yè) > 知識(shí)庫(kù) > php使用自帶dom擴(kuò)展進(jìn)行元素匹配的原理解析

php使用自帶dom擴(kuò)展進(jìn)行元素匹配的原理解析

熱門(mén)標(biāo)簽:如何在世界地圖標(biāo)注 菏澤語(yǔ)音外呼系統(tǒng)運(yùn)營(yíng)商 廈門(mén)400電話辦理選易號(hào)網(wǎng) 天客通地圖標(biāo)注 地圖標(biāo)注符號(hào)樣式有 臨沂crm外呼系統(tǒng)平臺(tái) 梧州市機(jī)器人外呼系統(tǒng)怎么樣 公司外呼系統(tǒng)中心 電子地圖標(biāo)注怎么修改

DOMDocument

php提供了非常好用的解析html和xml文檔的擴(kuò)展庫(kù)DOM,使用這個(gè)庫(kù)可以非常高效的進(jìn)行html和xml文檔的解析,它的原理就是通過(guò)尋找首尾匹配對(duì)來(lái)進(jìn)行文檔的解析。

從上面的分析可以看出,如果首位不匹配,可能就會(huì)導(dǎo)致一些錯(cuò)誤的出現(xiàn),因此,這個(gè)時(shí)候我們需要設(shè)置

libxml_use_internal_errors(true);

來(lái)進(jìn)行錯(cuò)誤的屏蔽,讓它可以解析整個(gè)文檔。

解析html基本用法

$dom = new \DOMDocument;
$content = htmlspecialchars_decode($content);
libxml_use_internal_errors(true);
$content = mb_convert_encoding($content, 'HTML-ENTITIES', 'UTF-8');
$dom->loadHTML($content);

$content是要解析的html字符串,其中我們對(duì)它進(jìn)行了轉(zhuǎn)義,因?yàn)榭赡芎袑?shí)體集,然后我們有進(jìn)行了編碼的轉(zhuǎn)換,因?yàn)榭赡芪臋n不是utf-8格式的,會(huì)導(dǎo)致日文,法文等文字亂碼。

獲取元素

$a = $dom->getElementsByTagName('a');
$p = $dom->getElementsByTagName('p');

遍歷元素

$elements = $dom->getElementsByTagName('a');
foreach ($elements as $element) {
  $element->textContent = '替換成其它的文字';
}

通過(guò)上面的循環(huán),可以將全部a標(biāo)簽的文字替換掉。

元素嵌套

有些時(shí)候,html會(huì)嵌套很多層,比如

div>
p>
a href="xxx" rel="external nofollow" >我是文字/a>
/p>
p>
內(nèi)容替換
/p>
/div>

如果我們想要對(duì)p標(biāo)簽文字進(jìn)行替換的化,并且不想要替換含有子元素的內(nèi)容,就是這里的a標(biāo)簽不想替換,下面的語(yǔ)句不能夠解決我們的問(wèn)題:

$elements = $dom->getElementsByTagName('p');
foreach ($elements as $element) {
  if($element->hasChildNodes()){
    $element->textContent = 'p標(biāo)簽內(nèi)容替換';
  }
}

上面的代會(huì)將a標(biāo)簽的內(nèi)容也替換掉,這不是我們想要的結(jié)果,因?yàn)閔asChildNodes()這個(gè)函數(shù)表示的含有內(nèi)容,無(wú)論它是標(biāo)簽還是文字,它都是返回true的,除非它是空標(biāo)簽,例如

它才會(huì)返回false.

所以我們需要自己封裝一個(gè)函數(shù)進(jìn)行檢查是否含有嵌套標(biāo)簽。

function hasChild($element, $tags)
{
  foreach($tags as $v){
  $elements = $element->getElementsByTagName($v);

  if($elements->length){
  return true;
  }

  }
  return false;
}
$tags = array('title','h1','h2','h3','h4','h5','a','p','dd','img');  

$elements = $dom->getElementsByTagName('p');
foreach ($elements as $element) {
  if(hasChild($element, $tags)){
    $element->textContent = 'p標(biāo)簽內(nèi)容替換';
  }
}

通過(guò)我們自己封裝的函數(shù),就可以判斷出$dom的node節(jié)點(diǎn)是否含有子標(biāo)簽。

總結(jié)

到此這篇關(guān)于php使用自帶dom擴(kuò)展進(jìn)行元素匹配的文章就介紹到這了,更多相關(guān)php元素匹配內(nèi)容請(qǐng)搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家!

您可能感興趣的文章:
  • PHP代碼加密和擴(kuò)展解密實(shí)戰(zhàn)
  • Thinkphp使用Zxing擴(kuò)展庫(kù)解析二維碼內(nèi)容圖文講解
  • PHP安裝擴(kuò)展mcrypt以及相關(guān)依賴(lài)項(xiàng)深入講解
  • win10下 php安裝seaslog擴(kuò)展的詳細(xì)步驟
  • PHP擴(kuò)展安裝方法步驟解析
  • php使用event擴(kuò)展的io復(fù)用測(cè)試的示例
  • 安裝PHP擴(kuò)展時(shí)解壓官方 tgz 文件后沒(méi)有configure文件無(wú)法進(jìn)行配置編譯的問(wèn)題
  • PHP 擴(kuò)展Memcached命令用法實(shí)例總結(jié)
  • Thinkphp 框架配置操作之動(dòng)態(tài)配置、擴(kuò)展配置及批量配置實(shí)例分析
  • docker 安裝 php-fpm 服務(wù) / 擴(kuò)展 / 配置的示例教程詳解
  • 如何動(dòng)態(tài)查看及加載PHP擴(kuò)展

標(biāo)簽:綿陽(yáng) 白城 雞西 瀘州 迪慶 黃石 貴陽(yáng) 郴州

巨人網(wǎng)絡(luò)通訊聲明:本文標(biāo)題《php使用自帶dom擴(kuò)展進(jìn)行元素匹配的原理解析》,本文關(guān)鍵詞  php,使用,自帶,dom,擴(kuò)展,進(jìn)行,;如發(fā)現(xiàn)本文內(nèi)容存在版權(quán)問(wèn)題,煩請(qǐng)?zhí)峁┫嚓P(guān)信息告之我們,我們將及時(shí)溝通與處理。本站內(nèi)容系統(tǒng)采集于網(wǎng)絡(luò),涉及言論、版權(quán)與本站無(wú)關(guān)。
  • 相關(guān)文章
  • 下面列出與本文章《php使用自帶dom擴(kuò)展進(jìn)行元素匹配的原理解析》相關(guān)的同類(lèi)信息!
  • 本頁(yè)收集關(guān)于php使用自帶dom擴(kuò)展進(jìn)行元素匹配的原理解析的相關(guān)信息資訊供網(wǎng)民參考!
  • 推薦文章