Java学习者论坛

 找回密码
 立即注册

QQ登录

只需一步,快速开始

手机号码,快捷登录

恭喜Java学习者论坛(https://www.javaxxz.com)已经为数万Java学习者服务超过8年了!积累会员资料超过10000G+
成为本站VIP会员,下载本站10000G+会员资源,购买链接:点击进入购买VIP会员
JAVA高级面试进阶视频教程Java架构师系统进阶VIP课程

分布式高可用全栈开发微服务教程

Go语言视频零基础入门到精通

Java架构师3期(课件+源码)

Java开发全终端实战租房项目视频教程

SpringBoot2.X入门到高级使用教程

大数据培训第六期全套视频教程

深度学习(CNN RNN GAN)算法原理

Java亿级流量电商系统视频教程

互联网架构师视频教程

年薪50万Spark2.0从入门到精通

年薪50万!人工智能学习路线教程

年薪50万!大数据从入门到精通学习路线年薪50万!机器学习入门到精通视频教程
仿小米商城类app和小程序视频教程深度学习数据分析基础到实战最新黑马javaEE2.1就业课程从 0到JVM实战高手教程 MySQL入门到精通教程
查看: 792|回复: 0

[默认分类] 基于随机游走的社团划分算法label progation 的python实现

[复制链接]
  • TA的每日心情
    开心
    2021-12-13 21:45
  • 签到天数: 15 天

    [LV.4]偶尔看看III

    发表于 2018-6-3 15:32:24 | 显示全部楼层 |阅读模式
    分类:索引(1) 简介python代码实现存在问题参考文章:其实这个算法也可以作为聚类算法来用,计算出两两样本之间的相似度,作为这个算法里边的权重,可以去掉值很低的,然后进行聚类。我们假设一个图有m个节点n条边,label propagation的复杂度是O(kn) (不确定)k是迭代次数。在一般情况下,n远远小于m2因此是个和图规模线性关系的算法。如果聚类最后一步采用这种方法,那么计算两两相似度得到图结构,需要O(m2)应该是主要开销。
    之前也介绍过这个算法:算法叫label propagation,基本思想很简单,就是一个节点的所在类别由与其相连的节点共同决定,实际就是类标的马尔科夫随机游走过程。计算的时候需要迭代多次,每个节点选择它邻接节点类标数最多的那一个。
    原版算法在选择类标时候过于严格,只选一个;其实很容易想到,可以有各种扩展的办法,比如选若干个,分别赋予隶属度,这样每个节点可以属于多个类别,类别差距大的,可以确定成一个。
    具体地就是
    首先:每个节点把自己的类标传播到邻居;然后:每个节点根据邻居传过来的消息作出选择
    很容易看到,这两步都可以同步地进行,因此非常适合用MapReduce的框架完成,很多图算法基于随机游走模型的,其实都适用,如pagerank。
    我简单实现了一个Python的版本,虽然是mapreduce的思路,但是纯粹的顺序执行。代码不多 直接贴了,随便建立一个文本文件 每行记录一个节点id,它的邻居节点和权重 tuple,如下
    1,((2,1),(3,1),(4,1))
    2,((1,1),)
    3,((1,1),(4,1))
    4,((1,1),(3,1))
    代码里面解析直接用了eval方法 所以格式得注意保证。这个算法是无向图的,因此边要多写一次,例如(1,4) 在(4,1)也要写一份。
    1. [code]from itertools import imap
    2. global gdata_file
    3. global label_vector
    4. global group_map
    5. path = "d:/data/graph.txt"
    6. def getMaxId():
    7.     return max(imap(lambda x:eval(x)[0],file(path,"r").xreadlines()))+1
    8. def mapFunc(line):    ##voting
    9.     node,edges = eval(line.strip())
    10. ##    edges = ((node,1),) + edges
    11.     labels = label_vector[node]
    12.     if labels:
    13.         return [(edge+(labels,)) for edge in edges]
    14.     else:
    15.         return [(edge+({node:1},)) for edge in edges]
    16. def mergeMap(a,b,weight):##merge b to a
    17.     for k,v in b.iteritems():
    18.         g = a.get(k)
    19.         if g:
    20.             a[k] = g + v * weight
    21.         else:
    22.             a[k] = v * weight
    23.     return a
    24. def reduceFunc(map_phrase): ##merge
    25.     tmp = {}
    26.     for map_results in map_phrase:
    27.         for map_result in map_results:
    28.             l = tmp.get(map_result[0])
    29.             if l:
    30.                 mergeMap(l,map_result[2],map_result[1])
    31.             else:
    32.                 tmp[map_result[0]] = mergeMap(dict(),map_result[2],map_result[1])
    33.     return tmp
    34. def select(m): ##select top k labels
    35.     u = sorted(m.items(),key = lambda x:x[1],reverse=True)
    36.     if len(u) >=3 and ((u[0][1] - u[1][1]) > (u[1][1] - u[2][1])):
    37.         uu = u[:2]
    38.     else:
    39.         uu = u[:3]
    40.     s = sum([x[1] for x in uu])
    41.     return dict( [(x[0],(x[1]+0.0)/s) for x in uu])
    42. def close():
    43.     print label_vector
    44. label_vector = [None] * getMaxId()
    45. group_map = {}
    46. if __name__ == "__main__":
    47.     for loop in xrange(7):
    48.         gdata_file = file(path,"r")
    49.         map_phrase = map(mapFunc, gdata_file.xreadlines())
    50.         group_map = reduceFunc(map_phrase)
    51.         gdata_file.close()
    52.         for k,v in group_map.iteritems():
    53.             label_vector[k] = select(v)
    54.     close()
    复制代码
    123456789101112131415161718192021222324252627282930313233343536373839404142434445464748495051525354555657585960616263646566676869707172737475767778798081828384858687888990919293949596979899100101102103104105106107108109110111112113114115116117123456789101112131415161718192021222324252627282930313233343536373839404142434445464748495051525354555657585960616263646566676869707172737475767778798081828384858687888990919293949596979899100101102103104105106107108109110111112113114115116117[/code]每次map是一个解析图结构的过程,将节点类标投得到每个邻居,reduce过程就是简单地把所有结果合并。从main开始,迭代多次,每次节点保留隶属度最大的2~3个节点,作为下一次计算的依据,最后close方法用来整理输出。我还有个疑问,就是向邻居投票的时候,需要包含自己的类标吗?这个我在map阶段注释掉了熟悉python的话看起来不难,代码写得非常业余和不规范。另外只测试能跑和简单的正确性检查   
    回复

    使用道具 举报

    您需要登录后才可以回帖 登录 | 立即注册

    本版积分规则

    QQ|手机版|Java学习者论坛 ( 声明:本站资料整理自互联网,用于Java学习者交流学习使用,对资料版权不负任何法律责任,若有侵权请及时联系客服屏蔽删除 )

    GMT+8, 2024-4-26 15:04 , Processed in 0.434197 second(s), 48 queries .

    Powered by Discuz! X3.4

    © 2001-2017 Comsenz Inc.

    快速回复 返回顶部 返回列表