-
-
机器学习入门 — K-means、DBSCAN聚类算法(概念、图解、代码示例)
聚类概念
聚类是把相似的东西分到一组,它是一个无监督问题,没有标签使用
难点:
对于有标签的有监督学习问题,标签可以便于我们来评估模型,无监督学习问题在评估上比较难一点
对于不同的参数组合,得到的学习结果,因为比较难对模型做评估,所以不能通过一个精确度的好坏来选择参数组合
K-MEANS算法
K-MEANS算法是聚类问题中,最简单,也是最实用的一个算法
基本概念
一个数据放进来,需要指定K值,来声明要得到簇的个数
质心:一个簇的数据均值,即向量各维取平均即可(迭代时使用)
距离的度量:常用欧几里得距离和 ...
-
Python聚类算法之DBSACN实例分析
本文实例讲述了Python聚类算法之DBSACN。分享给大家供大家参考,具体如下:
DBSCAN:是一种简单的,基于密度的聚类算法。本次实现中,DBSCAN使用了基于中心的方法。在基于中心的方法中,每个数据点的密度通过对以该点为中心以边长为2*EPs的网格(邻域)内的其他数据 ...
-
“高频面经”之机器学习篇
... 区别
7.交叉熵公式原理
8.L1和L2正则化的区别
9.传统机器学习模型有哪些
10.k-means算法流程
11.DBSCAN和Kmeans对比
12.LDA原理
13.PCA与SVD的关系
14.推荐系统常用模型
15.协同过滤适用场景及冷启动
1
-
纸质心电图的数字化及特征提取
... 该文针对纸质心电图难以长期存储的问题,采用灰度阈值、边界扫描等方法将纸质心电图转化成数字的电压信号。另外,为了解决心电信号难以自动提取特征的问题,同时检验心电图数字化的效果,针对心电信号的不同波形采用窗口扫描、DBSCAN等不同方法提取出波形的幅值特征。通过与同一医师读取的幅值结果进行相关性分析,发现幅值的相关性约在0.98,时间相关参数相关性也在0.89以上。证明该方法得到的数字化信号可以很好地还原纸质ECG信息。
-
一种基于相对密度和决策图的聚类算法
... 地识别和有效聚类.在7类典型测试数据集上的实验结果表明,所提出的聚类算法具有较好的适用性,与经典的DBSCAN算法和CFSFDP等算法相比,在没有显著提高时间复杂度的基础上,聚类效果更好,对不同类型数据集的适应性也更广.
-
基于自编码器的未知协议分类方法
针对互联网中存在的大量未知协议导致网络管理和维护网络安全十分困难的问题,提出了一种未知协议的分类识别方法。结合自编码器技术和改进的K-means聚类技术针对网络流量实现了未知协议的分类识别。利用自编码器对网络流量进行降维和特征提取,使用聚类技术对降维后数据进行无监督的分类,最终实现对网络流量的无监督识别分类。实验结果表明,所提方法分类效果优于传统的 K-means、DBSCAN、GMM 算法,且具有更高的效率。
-
基于聚类匿名化的差分隐私保护数据发布方法
基于匿名化技术的理论基础,采用DBSCAN聚类算法对数据记录进行聚类,实现将个体记录匿名化隐藏于一组记录中。为提高隐私保护程度,对匿名化划分的数据添加拉普拉斯噪声,扰动个体数据真实值,以实现差分隐私保护模型的要求。通过聚类,分化查询函数敏感性,提高数据可用性。对算法隐私性进行证明,并实验说明发布数据的可用性。
-
基于方形邻域的离群点查找新方法
... 域的离群点查找算法(ODBSN),该算法把DBSCAN算法的邻域改造成方形邻域, 并 ... 密度的数据中有效地查找离群点,速度明显优于LOF 与DBSCAN算法.</p>
-
基于密度聚类的网络性能故障大数据分析方法
针对层出不穷的网络安全事件,如何快速在海量监测数据中发现异常数据,并开展网络故障分析成为研究难点。针对该问题,提出一种基于密度聚类的网络性能故障大数据分析方法,通过熵权分析、数据清洗与标准化处理实现关键性能特征提取与数据整形,基于参数调优的DBSCAN聚类算法提取性能故障异常数据。基于实时采集的全国多家运营商海量骨干网链路性能数据验证该算法,结果表明,与人工标注网络性能异常数据相比,其识别的准确性超过90%,可满足开展全国网络运行故障分析的需求。
-
基于MDT智能分析LTE无线干扰的研究与应用
针对传统的LTE(长期演进)无线干扰判断分析方法存在的用户维度数据不足、质差原因关联不足、过于依赖人工分析的问题,提出基于 MDT(最小化路测)技术智能分析 LTE 无线干扰的新方法。首先利用MDT与MR(测量报告)采集用户无线质量数据及经纬度信息,然后创新使用DBSCAN(具有噪声的基于密度的聚类方法)和自适应聚类算法,对采集的无线覆盖指标和经纬度等数据进行聚类分析,最后将聚类后的数据导入自建的无线干扰判断模型,分析得出干扰类型,从而实现LTE无线干扰的智能分析。与传统干扰分析方法相比,所提方法可以 ...
-