当前位置:首页 > 短网址资讯 > 正文内容

通过全文相似度来寻找相同或相似的代码

www.ft12.com8年前 (2017-07-15)短网址资讯4517

最近笔者在职的公司在不断的做App的包瘦身工作, 身边的同事们也研究出了各种各样实用的工具来辅助加快包瘦身的进程。在这么一个大环境下, 笔者突然又冒出一个很无聊的工具想法

通过文本匹配来寻找相似的方法函数

笔者给这个小工具取了一个非常传神且牛逼的名字 - SameCodeFinder

和上一个查找Block的无聊的小工具RiskBlockScanner类似, 这个工具笔者觉得也是一个应用面相对比较小的一个工具, 所以笔者自嘲无聊的小工具哈~

笔者自认为这个是一个无聊的小工具, 但是还是坚持把它开发出来了, 因为笔者坚信:

任何一个无聊小众的作品, 在合适的时机总是能够帮助到合适的人的!

笔者开发这个小工具除了因为笔者相信这个工具肯定能够帮助到部分人群以外, 还有另外一个目的是督促自己不要停止学习的步伐哈~

起源-辅助研发自查

查找相似代码想法的起源是因为笔者在在职的公司项目处于包瘦身的大环境下。在这个大环境下, 笔者身边的一名同事发明了基于otoollinkmap分析查找无用方法的工具, 该工具在Github上有个类似的开源脚本项目objc_cover。与此同时, 笔者的另外一名同事发表了一种基于Clang来查找无用方法的博文

受这两位同事的影响, 笔者就在想自己能搞什么和他们不一样点的工具么。因为笔者之前用文本扫描的方式搞了一个简易的快速Block检查脚本, 笔者就在想能不能通过类似的手段写一个类似的程序。笔者想借鉴《基于Clang来查找无用方法》的思路进行扩展, 因为该文章里提出了一种将文本内容Hash后进行内容比较, 判断方法是否完全重合的思路

笔者基于该思路进行扩展, 设想能不能不止比较“完全相同”的方法, 还能比较相似的方法。顺着这个思路发现了Google的全文搜索相似度比较的一种算法simhash[7, 8]。

Simhash

关于simhash的介绍引用博文《simhash算法原理及实现》 里的介绍

simhash是google用来处理海量文本去重的算法。 google出品,你懂的。 simhash最牛逼的一点就是将一个文档,最后转换成一个64位的字节,暂且称之为特征字,然后判断重复只需要判断他们的特征字的距离是不是<n(根据经验这个n一般取值为3),就可以判断两个文档是否相似。

上述引用其实有点不完全正确, simhash貌似并不是Google出品的, 第一作者的邮箱后缀明明是普林斯顿大学好不好~ 不过Google将其应用到了网络爬虫并发表了一篇文章哈~

PS: 想了解详情? 阅读Paper去… =。=

《simhash算法原理及实现》 针对simhash梳理了简易的原理介绍以及使用判断距离的汉明距离, 可以便于读者快速了解, 但是如果大家想要了解更深层次的实现, 可以去阅读原版paper《Detecting Near-Duplicates For Web Crawling》《Similarity estimation techniques from
rounding algorithms》

原理简析

simhash的生产步骤可以分为如下:

  1. 提取目标文本的关键字feature和权重weight, 并成对存储

    • 如果不知道怎么提取的同学, 可能需要稍微了解全文搜索相关的知识

  2. 将提取出来的关键字进行传统Hash, 输出二进制的值

  3. 将每一个关键字提取的Hash按位进行运算, 如果当前位是1, 则增加对应的权重; 如果当前位是0, 增减少当前对应的权重;

  4. 将最后得出来的hash值, 如果大于等于1, 则当做1处理; 负数和0当做0处理, 得出最终的二进制值

上述步骤可以简化为下图, 此图引用了我的数学之美系列二 —— simhash与重复信息识别中的图

汉明距离

simhash是一种局部敏感Hash。因此可以利用汉明距离去衡量simhash的相似度。

引入Wikipedia的汉明距离介绍:

In information theory, the Hamming distance between two strings of equal length is the number of positions at which the corresponding symbols are different.

字面上意思好像就是两个字符串在不一样字符个数的数量, 在我们现在的应用场景就是统计1或者0的个数, 然后他们的个数差就是距离了。。。一般搜索引擎的历史经验默认是3

PS: 别问我怎么知道的3的, 我也是从博客里看来的, 没有数据依据

寻找相似的代码

寻找完全相似的文件

针对上述理论, 只要是一个文档都可以计算出两者的汉明距离, 利用汉明距离来就可以衡量两个文档的相似度了。笔者在这里目前没有做太多的工作, 只不过过滤了文档的后缀, 让相当类型的文档进行相互的比较。

寻找相似的文件和寻找相似的代码文件, 其实本质上差距不大。代码文件有一些特性, 例如前面的声明和引用都有一列类似的地方, 如果在进行simhash计算处理前能够提前对代码文件进行预处理的话, 能够大幅度的提高整个代码文件相似度计算的精度。

PS: 鉴于思路的完善性和时间成本, 笔者还没有针对代码进行预处理

寻找雷同方法函数

既然利用simhash以及汉明距离可以计算两个文档的相似度, 然自然可以缩小范围计算两个函数方法的相似度。那么问题的关键就在于怎么样才能提取到合适正确的方法函数内容

笔者目前使用的是文本扫描匹配的方式, 但是笔者的同事有提出一种是基于clang插件来提取编译器预处理之后的内容进行hash比较的可行思路。无奈鉴于实现成本和插件无法独立运行的方面考虑, 暂时采用的直接扫描匹配文本的方式进行比较。

目前笔者采取的提取方法体方法是:

  1. 用正则匹配获取方法起始行

  2. 从起始行开始记录左右括号的格式, 并且将起始行开始的所有字符串记录

  3. 当左右括号的个数相互抵消的时候默认当做匹配整个方法, 保存整个字符串

鉴于方法匹配需要根据语法实现, 所以目前只能根据每个语言的语法特性进行截获, 目前SameCodeFinder)仅支持Object-C和Java。

语法特性局限了脚本的可扩展性, 步骤一的正则需要和后缀匹配, 步骤二的左右括号在某些语言下不适用, 只能利用发现下一个方法起始行作为步骤三的结束步骤。

Java目前采用正则:

1
ur"(public|private)(.*)\)\s?{"

Object-C目前采用正则:

1
ur"(\-|\+)\s?\(.*\).*(\:\s?\(.*\).*)?{?"

排序

无论是寻找雷同的文件还是寻找雷同的方法, 最后计算出的Hash结果都是N * N个的, 那么怎么展示计算的结果呢? 如果把所有的结果都展示出来, 那明显可阅读性太低。

目前采用的逻辑是:

  1. N * N 中第一个N只找出距离最小的第一个返回, 这样过滤结果只保留N个

  2. 将第一步过滤返回的N个结果按照从小到大的方式进行排序

此外,在执行排序的步骤1和步骤2之间, 都可以添加一个最大距离过滤, 默认不超过20, 可以大幅度减少步骤1和步骤2的计算排序过滤时间。

开源实现

笔者基于上述思路以及现成的工具, 利用python脚本花了2天时间去高速实现了一个简易的python脚本, 并开源到了Github上。

访问地址: SameCodeFinder

目前开源的版本可能因为笔者使用不当或者开源python版本的simhash的计算太过耗时, 因此在性能上存在一定的性能问题, 计算整个较大的工程需要花费不少的时间(计算一个大型工程是分钟级别的)。

笔者会在之后寻找突破方法来提高这方面的计算性能~

总结

SameCodeFinder可以帮助大家寻找相似或者完全重叠的方法以及类, 极大程度上可以辅助大家寻找可以复用的代码。SameCodeFinder的实现思路都是借用Google的全文相似度比较的现成实现, 并没有什么创新, 但是脚本化和针对语种设计的方法识别, 能够帮助大家节省不少直接利用simhash去实现的成本。

PS: 个人水平有限, 有错误之处请大家及时指出, 随时交流哈~

参考文献

  1. CLANG技术分享系列四:IOS APP无用代码/重复代码分析

  2. A Python Implementation of Simhash Algorithm

  3. otool

  4. Mac的反编译工具一:otool (objdump工具的OSX对应工具)

  5. iOS APP可执行文件的组成

  6. simhash算法原理及实现

  7. GS Manku, A Jain, A Das Sarma. Detecting Near-Duplicates For Web Crawling. International Conference on World Wide Web. International Conference on World Wide Web. 141-149. 2007.

  8. M. Charikar. Similarity estimation techniques from
    rounding algorithms. In Proc. 34th Annual Symposium
    on Theory of Computing (STOC 2002), pages
    380–388, 2002.

  9. 我的数学之美系列二 —— simhash与重复信息识别

  10. Locality-sensitive hashing

  11. Hamming_distance

  12. Mach-O Executables

扫描二维码推送至手机访问。

版权声明:本文由短链接发布,如需转载请注明出处。

本文链接:https://www.ft12.com/article_288.html

分享给朋友:

相关文章

当蜜桃臀遇上紧身衣,这样的小姐姐简直无法抗拒!

当蜜桃臀遇上紧身衣,这样的小姐姐简直无法抗拒!

炎炎夏日当蜜桃臀搭配紧身胸衣是怎样一种体验?这大概是一种让人血脉喷张的···超强体验!所以在这个季节,我们特意为你准备了超实用超清凉的,蜜桃臀小姐姐健身教学小视频!点开看吧INS超级火的SOMMER RAY健身妹子KATYA HENRY绝美...

原来国内外互联网企业开的实体店都长这样

原来国内外互联网企业开的实体店都长这样

【FT12短网址】曾经,咱们都在说要从线下走到线上,现在却反过来了,不断添加互联网公司开端着手规划实体店。除了有国际电商巨子亚马逊、阿里、京东们的尝试之外,国内外还有一大波开线下店的“传统互联网公司”。能够想象一下,这将会给线下零售市场带来...

Flink原理与实现:架构和拓扑概览

Flink原理与实现:架构和拓扑概览

架构要了解一个系统,一般都是从架构开始。我们关心的问题是:系统部署成功后各个节点都启动了哪些服务,各个服务之间又是怎么交互和协调的。下方是 Flink 集群启动后架构图。当 Flink 集群启动后,首先会启动一个 JobManger 和一个...

给人工智能降点温:深度学习不是万能良药

给人工智能降点温:深度学习不是万能良药

策划|FT12短网址 译者|短链接 近几年,深度学习已经进入一定程度的狂热状态,人们正试图用这个技术解决每一个问题。然而,深度学习真是万能的吗?阅读此文后,你便能够从深层理解为什么深度学习并不是想象的那般“...

短网址系统如何面对高并发进行优化?

短网址系统如何面对高并发进行优化?

短网址 望文生义,即是将长网址缩短到一个很短的网址,用户拜访这个短网址能够重定向到原本的长网址(复原)。这么能够到达易于回忆、变换的目的,常用于有字数约束的微博、二维码等场景。开篇先抛出几个疑问,假如咱们自个去完成会怎样完成这个看...

娃娃机和迷你KTV“躺着挣钱” 解密孤独消费的逻辑

周末,三里屯某商场,正是午饭之后的时间,一楼产品区购物者三三两两、若有寂静,但摆在商场入口的 4 个迷你KTV“包间”,却座无虚席。透过玻璃可以看到, 4 个包间里分别坐着情侣、一对女生、带着孩子的年轻爸爸妈妈,还有一位背影看起来有些寂寥的...

发表评论

访客

◎欢迎参与讨论,请在这里发表您的看法和观点。