Go语言视频零基础入门到精通

admin · 发表于 2018-6-3 15:32:24

分类：索引（1）

简介python代码实现存在问题参考文章：

http://www.lxway.com/619051121.htm

其实这个算法也可以作为聚类算法来用，计算出两两样本之间的相似度，作为这个算法里边的权重，可以去掉值很低的，然后进行聚类。我们假设一个图有m个节点n条边，label propagation的复杂度是O(kn) （不确定）k是迭代次数。在一般情况下，n远远小于m2因此是个和图规模线性关系的算法。如果聚类最后一步采用这种方法，那么计算两两相似度得到图结构，需要O(m2)应该是主要开销。
之前也介绍过这个算法：

http://blog.csdn.net/lgnlgn/archive/2011/01/29/6168756.aspx

算法叫label propagation，基本思想很简单，就是一个节点的所在类别由与其相连的节点共同决定，实际就是类标的马尔科夫随机游走过程。计算的时候需要迭代多次，每个节点选择它邻接节点类标数最多的那一个。
原版算法在选择类标时候过于严格，只选一个；其实很容易想到，可以有各种扩展的办法，比如选若干个，分别赋予隶属度，这样每个节点可以属于多个类别，类别差距大的，可以确定成一个。
具体地就是
首先：每个节点把自己的类标传播到邻居；然后：每个节点根据邻居传过来的消息作出选择
很容易看到，这两步都可以同步地进行，因此非常适合用MapReduce的框架完成，很多图算法基于随机游走模型的，其实都适用，如pagerank。
我简单实现了一个Python的版本，虽然是mapreduce的思路，但是纯粹的顺序执行。代码不多直接贴了，随便建立一个文本文件每行记录一个节点id，它的邻居节点和权重 tuple，如下
1,((2,1),(3,1),(4,1))
2,((1,1),)
3,((1,1),(4,1))
4,((1,1),(3,1))
代码里面解析直接用了eval方法所以格式得注意保证。这个算法是无向图的，因此边要多写一次，例如(1,4) 在(4,1)也要写一份。

[code]from itertools import imap
global gdata_file
global label_vector
global group_map
path = "d:/data/graph.txt"
def getMaxId():
return max(imap(lambda x:eval(x)[0],file(path,"r").xreadlines()))+1
def mapFunc(line): ##voting
node,edges = eval(line.strip())
## edges = ((node,1),) + edges
labels = label_vector[node]
if labels:
return [(edge+(labels,)) for edge in edges]
else:
return [(edge+({node:1},)) for edge in edges]
def mergeMap(a,b,weight):##merge b to a
for k,v in b.iteritems():
g = a.get(k)
if g:
a[k] = g + v * weight
else:
a[k] = v * weight
return a
def reduceFunc(map_phrase): ##merge
tmp = {}
for map_results in map_phrase:
for map_result in map_results:
l = tmp.get(map_result[0])
if l:
mergeMap(l,map_result[2],map_result[1])
else:
tmp[map_result[0]] = mergeMap(dict(),map_result[2],map_result[1])
return tmp
def select(m): ##select top k labels
u = sorted(m.items(),key = lambda x:x[1],reverse=True)
if len(u) >=3 and ((u[0][1] - u[1][1]) > (u[1][1] - u[2][1])):
uu = u[:2]
else:
uu = u[:3]
s = sum([x[1] for x in uu])
return dict( [(x[0],(x[1]+0.0)/s) for x in uu])
def close():
print label_vector
label_vector = [None] * getMaxId()
group_map = {}
if __name__ == "__main__":
for loop in xrange(7):
gdata_file = file(path,"r")
map_phrase = map(mapFunc, gdata_file.xreadlines())
group_map = reduceFunc(map_phrase)
gdata_file.close()
for k,v in group_map.iteritems():
label_vector[k] = select(v)
close()

复制代码

123456789101112131415161718192021222324252627282930313233343536373839404142434445464748495051525354555657585960616263646566676869707172737475767778798081828384858687888990919293949596979899100101102103104105106107108109110111112113114115116117123456789101112131415161718192021222324252627282930313233343536373839404142434445464748495051525354555657585960616263646566676869707172737475767778798081828384858687888990919293949596979899100101102103104105106107108109110111112113114115116117[/code]每次map是一个解析图结构的过程，将节点类标投得到每个邻居，reduce过程就是简单地把所有结果合并。从main开始，迭代多次，每次节点保留隶属度最大的2~3个节点，作为下一次计算的依据，最后close方法用来整理输出。我还有个疑问，就是向邻居投票的时候，需要包含自己的类标吗？这个我在map阶段注释掉了熟悉python的话看起来不难，代码写得非常业余和不规范。另外只测试能跑和简单的正确性检查

		自动登录	找回密码
密码			立即注册

JAVA高级面试进阶视频教程	Java架构师系统进阶VIP课程	分布式高可用全栈开发微服务教程	Go语言视频零基础入门到精通	Java架构师3期(课件+源码)
Java开发全终端实战租房项目视频教程	SpringBoot2.X入门到高级使用教程	大数据培训第六期全套视频教程	深度学习（CNN RNN GAN）算法原理	Java亿级流量电商系统视频教程
互联网架构师视频教程	年薪50万Spark2.0从入门到精通	年薪50万！人工智能学习路线教程	年薪50万！大数据从入门到精通学习路线	年薪50万！机器学习入门到精通视频教程
仿小米商城类app和小程序视频教程	深度学习数据分析基础到实战	最新黑马javaEE2.1就业课程	从 0到JVM实战高手教程	MySQL入门到精通教程

分布式高可用全栈开发微服务教程

Go语言视频零基础入门到精通

Java开发全终端实战租房项目视频教程

SpringBoot2.X入门到高级使用教程

大数据培训第六期全套视频教程

Java亿级流量电商系统视频教程

年薪50万Spark2.0从入门到精通

年薪50万！人工智能学习路线教程

[默认分类] 基于随机游走的社团划分算法label progation 的python实现

相关帖子