去重神器SemHash每秒22万条快如闪电已开源
8300万条数据,83秒完成去重!
这不是科幻,而是HuggingFace最新开源的语义去重神器SemHash的真实表现。

当我们谈论大语言模型训练时,数据质量往往被忽视。
重复的数据就像是给模型喂了一堆复印件 ,不仅浪费训练资源,还可能导致模型产生偏见。
但现在,这个问题有了解决方案!
HuggingFace的技术主管Philipp Schmid发布了一个「 神器级 」的开源库: SemHash 。
它不仅能找出完全重复的数据,还能识别那些 意思相近但表达不同的文本 。
最让人兴奋的是它的速度: 仅用83秒就完成了180万条WikiText数据的去重 !
这是什么概念?
——相当于每秒处理2.2万条数据!

为什么SemHash这么快?
秘密在于它的「 双核引擎 」:
Model2Vec :负责生成文本嵌入向量
Vicinity :通过ANN(近似最近邻)技术进行相似度搜索
这种组合让SemHash不仅能跑得快,还跑得准。在17个数据集的基准测试中,它展现出了惊人的表现。
医学研究者Piotr Jarecki表示:「这对医学文献的训练数据去重非常有用!」
让数据去重变得简单
SemHash的使用方法出人意料的简单。 三行代码 就能完成基本的去重操作:
from semhash import SemHashsemhash = SemHash.from_records(records=texts)deduplicated_texts = semhash.self_deduplicate()
它还支持:
跨数据集去重 :防止训练集和测试集数据泄露
多列数据去重 :比如问答数据集中的问题和上下文
自定义编码器 :可以使用sentence-transformers等模型
实战表现惊人
在基准测试中,SemHash展示了令人瞠目的性能:
student数据集 :117519条数据中有45.66%是重复的
wikitext数据集 :180万条数据中有50.89%是重复的
imdb数据集 :25000条数据中仅0.68%重复
SemHash甚至发现了一些数据集中存在严重的训练集和测试集重叠问题。比如在enron_spam数据集中,测试集有47%的数据与训练集重复!
Ethan_SynthMind评论道:
去重速度快得能赶上猎豹!
在机器学习中, 数据质量比我们想象的更重要 。
版权声明:
作者:shadowrocket
链接:https://www.shadowrocket8.top/22.html
来源:Shadowrocket官网
文章版权归作者所有,未经允许请勿转载。


共有 0 条评论