欧美MV日韩MV国产网站,欧美电影巜性爽爽,欧美操逼视频,欧美成人在线视频

優(yōu)惠活動 - 12周年慶本月新客福利
優(yōu)惠活動 - 12周年慶本月新客福利
優(yōu)惠活動 - 12周年慶本月新客福利

企業(yè)網(wǎng)站設(shè)計基于機器學(xué)習(xí)的通用識別方式

日期 : 2020-12-22 12:11:14
        基于機器學(xué)習(xí)的通用識別方式。近年來隨著機器學(xué)習(xí)算法的興起,很多文獻提出將相關(guān)算法用到垃圾頁面識別并已經(jīng)取得了很好的效果。

        由于從本質(zhì)上來說垃圾頁面識別是一個二值分類問題,而機器學(xué)習(xí)中有很多相應(yīng)的算法可以被利用。這些算法的共同點通常都是先將網(wǎng)頁數(shù)據(jù)集分為訓(xùn)練集和測試集,然后對網(wǎng)頁數(shù)據(jù)進行預(yù)處理,去除數(shù)據(jù)中的無用信息包括HTML標(biāo)簽、Java Script腳本代碼、大量存在的圖片等等,然后對網(wǎng)頁內(nèi)容特征(網(wǎng)頁字數(shù)、標(biāo)題字數(shù)、熱門關(guān)鍵詞、網(wǎng)頁壓縮率等)和鏈接結(jié)構(gòu)特征(入鏈數(shù)、出鏈數(shù)、入鏈出鏈比例、Page Rank值等)進行提取作為訓(xùn)練集的輸入得出輸入輸出的映射關(guān)系,最后將這種映射關(guān)系用測試集進行驗證。


相關(guān)文章
高青县| 东安县| 咸阳市| 沙湾县| 湖南省| 南溪县| 长海县| 刚察县| 西青区| 林口县| 当涂县| 莱阳市| 虹口区| 北碚区| 黄骅市| 温州市| 太和县| 汝阳县| 黑水县| 刚察县| 广汉市| 罗江县| 马山县| 孟连| 河津市| 新绛县| 乌兰浩特市| 潮州市| 慈利县| 金溪县| 小金县| 云霄县| 安新县| 增城市| 新安县| 德令哈市| 宁晋县| 衡阳县| 会理县| 襄城县| 刚察县|