欧美MV日韩MV国产网站,欧美电影巜性爽爽,欧美操逼视频,欧美成人在线视频

優(yōu)惠活動 - 12周年慶本月新客福利
優(yōu)惠活動 - 12周年慶本月新客福利
優(yōu)惠活動 - 12周年慶本月新客福利

企業(yè)做網(wǎng)站W(wǎng)eb頁面文本提取

日期 : 2021-01-29 22:55:11
        Web頁面文本提取相對比較復雜, 這也正是本文研究的Web頁面自適應轉(zhuǎn)換系統(tǒng)的關(guān)鍵技術(shù)之一。對國內(nèi)外的文獻進行分析可以發(fā)現(xiàn), Web頁面的文本提取技術(shù)基本可以分為兩類:基于DOM的Web頁面文本提取技術(shù)和非基于DOM的Web頁面提取技術(shù)。通常很多研究者會采用基于DOM的Web頁面文本提取技術(shù), 其技術(shù)發(fā)展比較成熟。

        Web頁面的標簽和標簽之間、標簽和內(nèi)容之間都存在著層次關(guān)系, DOM樹是描述Web頁面結(jié)構(gòu)的常用方法, DOM樹的葉子節(jié)點通常就是要提取的文本信息。因此, 通過一定的算法對Web頁面的DOM樹進行遍歷, 進行相應的篩查降噪處理之后, 可以得到目標的文本內(nèi)容。

        在實際的應用過程中, 利用Web頁面解析工具進行頁面解析, 并修正其中不規(guī)范的地方, 構(gòu)建Web頁面的DOM樹并進行遞歸遍歷, 識別其中的非主要文本信息, 比如廣告、圖像等內(nèi)容, 將噪聲節(jié)點移除即得到文本信息。
相關(guān)文章
志丹县| 北辰区| 舞阳县| 米林县| 上饶市| 新疆| 辽宁省| 常宁市| 秭归县| 汕头市| 顺平县| 湘乡市| 临夏县| 涿鹿县| 汾西县| 图木舒克市| 巴东县| 华坪县| 措勤县| 石渠县| 赤水市| 荆门市| 安图县| 宁蒗| 宿松县| 丰镇市| 成安县| 郯城县| 甘孜| 上高县| 镇原县| 龙山县| 临城县| 荆州市| 鄂托克旗| 苍南县| 定结县| 科尔| 新疆| 广州市| 徐汇区|