论文查重网页的,网页查重主要包括两部分,一是对原始网页的去重,主要是对网页噪音净化,二是对网页主题信息的提取。知网查重是依据连续出现13个字符类似就会判为重复,换句话说超出13个字类似就会被系统软件标红,计算到重复率当中。知网查重时,黄色的文字是“引用”,红色的文章是“涉嫌剽窃”。