激情久久久_欧美视频区_成人av免费_不卡视频一二三区_欧美精品在欧美一区二区少妇_欧美一区二区三区的

腳本之家,腳本語言編程技術及教程分享平臺!
分類導航

Python|VBS|Ruby|Lua|perl|VBA|Golang|PowerShell|Erlang|autoit|Dos|bat|

服務器之家 - 腳本之家 - Python - python實現聚類算法原理

python實現聚類算法原理

2021-01-15 00:25FishBear_move_on Python

這篇文章主要為大家詳細介紹了python實現聚類算法原理,具有一定的參考價值,感興趣的小伙伴們可以參考一下

本文主要內容:

  • 聚類算法的特點
  • 聚類算法樣本間的屬性(包括,有序屬性、無序屬性)度量標準
  • 聚類的常見算法,原型聚類(主要論述K均值聚類),層次聚類、密度聚類
  • K均值聚類算法的python實現,以及聚類算法與EM最大算法的關系
  • 參考引用

先上一張gif的k均值聚類算法動態圖片,讓大家對算法有個感性認識:

python實現聚類算法原理

其中:N=200代表有200個樣本,不同的顏色代表不同的簇(其中 3種顏色為3個簇),星星代表每個簇的簇心。算法通過25次迭代找到收斂的簇心,以及對應的簇。 每次迭代的過程中,簇心和對應的簇都在變化。

聚類算法的特點

聚類算法是無監督學習算法和前面的有監督算法不同,訓練數據集可以不指定類別(也可以指定)。聚類算法對象歸到同一簇中,類似全自動分類。簇內的對象越相似,聚類的效果越好。K-均值聚類是每個類別簇都是采用簇中所含值的均值計算而成。

python實現聚類算法原理

聚類樣本間的屬性(包括,有序屬性、無序屬性)度量標準 1. 有序屬性

例如:西瓜的甜度:0.1, 0.5, 0.9(值越大,代表越甜)

我們可以使用明可夫斯基距離定義:

python實現聚類算法原理

2. 無序屬性

例如:色澤,青綠、淺綠、深綠(又例如: 性別: 男, 女, 中性,人yao…明顯也不能使用0.1, 0.2 等表示求距離)。這些不能使用連續的值表示,求距離的,一般使用VDM計算:

python實現聚類算法原理

python實現聚類算法原理

聚類的常見算法,原型聚類(主要論述K均值聚類),層次聚類、密度聚類

聚類算法分為如下三大類:

1. 原型聚類(包含3個子類算法):

K均值聚類算法

學習向量量化

高斯混合聚類

2. 密度聚類:

3. 層次聚類:

下面主要說明K均值聚類算法(示例來源于,周志華西瓜書)

算法基本思想:

K-Means 是發現給定數據集的 K 個簇的聚類算法, 之所以稱之為 K-均值 是因為它可以發現 K 個不同的簇,且每個簇的中心采用簇中所含值的均值計算而成.簇個數 K 是用戶指定的, 每一個簇通過其質心(centroid), 即簇中所有點的中心來描述.

算法流程如下:

python實現聚類算法原理

主要是三個步驟:

  • 初始化選擇K個簇心,假設樣本有 m個屬性,則相當于k個m為向量
  • 對于k個簇,求離其最近的樣本,并劃分新的簇
  • 對于每個新的簇,更新簇心的向量(一般可以求簇的樣本的屬性的均值)
  • 重復2~3直到算法收斂,或者運行了指定的次數

下面給出西瓜書的示例:

西瓜包含下面兩個屬性,密度以及含糖率,這兩個屬性構成的二維向量,作為輸入向量(具體數據如下表)

python實現聚類算法原理

算法大致過程如下:

python實現聚類算法原理

下圖是分類的,每一輪簇心的更新結果,圖中橫坐標為密度屬性,縱坐標為含糖率屬性:

python實現聚類算法原理

4. K均值聚類算法的python實現

下面給出K-means cluster算法的實現的大致框架:

?
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
class KMeans(object):
  def __init__(self, k, init_vec, max_iter=100):
    """
    :param k:
    :param init_vec: init mean vectors type: k * n array(n properties)
    """
    self._k = k
    self._cluster_vec = init_vec
    self._max_iter = max_iter
 
  def fit(self, x):
    # 迭代最大次數
    for i in xrange(self._max_iter):
      print 'iteration %s' % i
      # 求每個簇心的簇類
      d_cluster = self._cluster_point(x)
      # 對現有的簇類,更新簇心
      new_center_node = self._reevaluate_center_node(d_cluster)
 
      # 檢測簇心是否變化,判斷算法收斂
      if self._check_converge(new_center_node):
        print 'found converge node'
        break
      else:
        self._cluster_vec = new_center_node
 
  def _cal_distance(self, vec1, vec2):
    return np.linalg.norm(vec1 - vec2)
 
  def _cluster_point(self, x):
    # 求每個簇心的簇
    pass
    return d_cluster
 
  def _reevaluate_center_node(self, d_cluster):
    # 對新的簇,求最佳簇心
    return arr_center_node
 
  def _check_converge(self, vec):
    # 判斷簇心是否改變,算法收斂
    return np.array_equal(self._cluster_vec, vec)

具體的算法,以及見本人的github

下面給出程序的運行結果, 由圖可見經過三次迭代程序收斂,并且找到最佳節點:

python實現聚類算法原理

下面再給出,另一次運行結果,可見由于初始化點選擇不一樣,得到的結果也是不一樣的,初始點的選擇對聚類算法的影響還是很大。

python實現聚類算法原理

K-means實際上是EM算法的一個特例,根據中心點(簇心)決定數據點歸屬是expectation,而根據構造出來的cluster更新中心(簇心)則是maximization。理解了K-means,也就順帶了解了基本的EM算法思路。

5. 參考引用

參考引用地址

以上就是本文的全部內容,希望對大家的學習有所幫助,也希望大家多多支持服務器之家。

原文鏈接:http://blog.csdn.net/haluoluo211/article/details/78524599

延伸 · 閱讀

精彩推薦
主站蜘蛛池模板: 91久久久久 | 刘亦菲一区二区三区免费看 | 999久久久 | 欧美一区二区三区中文字幕 | 91av在线免费观看 | 我爱我色成人网 | 亚洲精品免费播放 | 污视频在线免费播放 | 中文字幕观看 | 国产精品爱久久久久久久 | 成人一级视频 | 羞羞视频免费网站含羞草 | 在线观看日韩电影 | 国产在线播放一区二区 | 狠狠操在线观看 | 久久久久一区二区三区 | 杏美月av| 欧美福利视频一区二区 | 国产免费观看av | 成人在线网站 | 香蕉国产精品 | 欧美日韩精品一区二区三区不卡 | 作爱在线观看 | 国产精品一品二区三区四区18 | 最新91在线视频 | 91网视频| 在线成人看片 | 成人在线观看免费视频 | 99爱福利视频在线观看 | 91美女视频在线观看 | 在线观看一二区 | 久久久久久久一区 | 国产合集91合集久久日 | 999久久国精品免费观看网站 | 日本中文一级片 | 成人欧美日韩一区二区三区 | 国产 视频 一区二区 | 亚洲第一页综合 | 精品成人av一区二区三区 | 成人做爰s片免费看网站 | 一本一本久久a久久精品综合小说 |