java比较文档重复率

java比较文档重复率

问:java比较2个文件是否是相同的文件,是一个一个字节比较还是计算MD5比较好啊?
  1. 答:这个要看你要比较的范围了
    如果你是要比较两个文件是否完全相同,当然是MD5比较好
    如果你是要比较两个文件的内容是否完全相同,就需要一个字节一个字节的比较。
    比中两个word文档,即使里面的内容是完全一样,但可能由于修改时间,日期,作者等不同,MD5也可能不同
  2. 答:我感觉是按字节比较好一些,我用的方法就是按字节比较的。
    1:先判断2个文件的长度是否一样
    2:如果文件一样长则将文件读取出来一个字节一个字节的比较他们的内容是否相同
    看你的这个问法应该也是不需要我把细节的地方都写出来了
问:java如何快速比较两个文件是否相同
  1. 答:最好使用shell脚本,一行搞定,comm命令
  2. 答:看文件名 然后文件格式 还有文件大小 最后一个可选 就看严谨程度了
  3. 答:计算MD5或SHA-1,一样的就是同一个文件
  4. 答:使用mon codec 库 计算一下 md5或sha1,相同的文件md5/sha1 也相同
  5. 答:每个文件都可以转化为md5 的标识。两个内容完全相同的文件,他转化为md5的 内容相同。通过这个就,网盘就可以确定是否上传了。
问:java 如何高效判断数据是否重复
  1. 答:我觉得用程序处理,再怎么快也不会有高效率,最好在使用这些数据时,先将数据导入数据库,用查询语句来处理,如distinct
  2. 答:在普通方法里,map算是快的了。
    你可以把这些数据扔到一个小数据库中,用sql找就很快了,数据库对这种要求支持很好的。
    你不想用数据库,那你就用B-树吧
  3. 答:只判断是否重复还是需要判断哪些是重复的
  4. 答:一、这么大的数据量如果一次性放到一个Map中是否内存会使用过多,这是要考虑的,是否可以考虑批量处理呢?读取也可以用批量。
    二、假如一次性放到一个MAP中,是否可以保存到数据库中,保存的时候肯定是用批量处理。
  5. 答:可以用Set 去除重复
  6. 答:为什么不从数据库语句下手呢……
问:JAVA实现如何比较两个文档之间的异同点
  1. 答:楼上回答驴唇不对马嘴。
    这个文件比较功能,我做过比较txt简单文本文件的。office文件没比过,说下想法,希望能对你有帮助
    打开要读取的两份文件,依次读取A所有行数,将每一行的数据以字符串的形式存储在一个字符串数组里,假如是 StringA[] ,同时也一样处理 B文件
    分别从开始遍历两个 字符串数组,比较 相似(相同) 字符百分比。当然有时候可能A文件第10行是一个空行,但是其下面的所有数据都和B文件一样,所以这个遍历对比不是门当户对的 行行相比,而是 一次遍历多对多的比较(但是仍要考虑顺序,比如A第10行和B第15行相同,但是A第12行又和B第10行相同,那么这一个范围段都是不匹配片断),找出相似度最高的。
    希望能对你有帮助吧
问:用java语言实现两个office文档之间的比较,应该怎样做?如word对比,excel对比,ppt对比,project对比等?
  1. 答:一定要用java语言的话,代码只能自己写了。不用java的话,好像有现成的(xdocdiffPlugin_1_0_6c)。
    你的需求我都曾经做过。你可以试试POI,不过它不能解决所有的问题,有很多地方需要自己写。
    而且,还要看你所说的“对比”要细化到什么程度,比方说:你想比较2个word文档中对应的“行”,这可能就比较难了。
  2. 答:你先了解两个文档的存储类型和本身定义时的字段区别,就知道应该从哪些方面比较了,至于代码那就是编程的问题了!
  3. 答:好像word有自动比较的功能
java比较文档重复率
下载Doc文档

猜你喜欢