数据挖掘中二值分类的问题用什么方法好?另外对于网页图像分割后提取直方图等特征值,有没有什么做过的朋友有什么建议或者提供点参考资料?
如题,我是现在要做毕业设计,论题是对钓鱼网页的识别,准备根据网页的DOM特征和网页图像特征做一个分类器,然后针对这个分类器,对一个未知网页进行识别。初学,一些问题不是很清楚,在此请教一下大家。
一,针对二值分类的问题,用哪种分类方法好呢?比如说SVM啊、决策树啊、还看到网上有什么Liblinear等,各方法的优劣如何?
二,要对网页图像进行分割再提取子图特征的话,具体应该怎么操作?有没有好的参考资料或书籍?
三,在这整个过程中,要用到哪些技术或者是软件?
毕业论文催得很紧,谢谢各位啦。
[解决办法]
论题是对钓鱼网页的识别,准备根据网页的DOM特征和网页图像特征做一个分类器
--------------
这个前提正确吗?
钓鱼网站最主要就是"页面视觉上要几乎完全一样",那你用图像特征做分类器等于没有分类器啊,因为他们看起来是一样的
[解决办法]
钓鱼网页和普通网页的区别是什么?不应该是图像上的区别吧