去重神器SemHash每秒22万条快如闪电已开源

shadowrocket • 2026年2月20日 am8:05 • Shadowrocket官网

8300万条数据，83秒完成去重！

这不是科幻，而是HuggingFace最新开源的语义去重神器SemHash的真实表现。

当我们谈论大语言模型训练时，数据质量往往被忽视。

重复的数据就像是给模型喂了一堆复印件，不仅浪费训练资源，还可能导致模型产生偏见。

但现在，这个问题有了解决方案！

HuggingFace的技术主管Philipp Schmid发布了一个「神器级」的开源库： SemHash 。

它不仅能找出完全重复的数据，还能识别那些意思相近但表达不同的文本。

最让人兴奋的是它的速度：仅用83秒就完成了180万条WikiText数据的去重！

这是什么概念？

——相当于每秒处理2.2万条数据！

为什么SemHash这么快？

秘密在于它的「双核引擎」：

Model2Vec ：负责生成文本嵌入向量

Vicinity ：通过ANN（近似最近邻）技术进行相似度搜索

这种组合让SemHash不仅能跑得快，还跑得准。在17个数据集的基准测试中，它展现出了惊人的表现。

医学研究者Piotr Jarecki表示：「这对医学文献的训练数据去重非常有用！」

让数据去重变得简单

SemHash的使用方法出人意料的简单。三行代码就能完成基本的去重操作：

from semhash import SemHashsemhash = SemHash.from_records(records=texts)deduplicated_texts = semhash.self_deduplicate()

它还支持：

跨数据集去重：防止训练集和测试集数据泄露

多列数据去重：比如问答数据集中的问题和上下文

自定义编码器：可以使用sentence-transformers等模型

实战表现惊人

在基准测试中，SemHash展示了令人瞠目的性能：

student数据集：117519条数据中有45.66%是重复的

wikitext数据集：180万条数据中有50.89%是重复的

imdb数据集：25000条数据中仅0.68%重复

SemHash甚至发现了一些数据集中存在严重的训练集和测试集重叠问题。比如在enron_spam数据集中，测试集有47%的数据与训练集重复！

Ethan_SynthMind评论道：

去重速度快得能赶上猎豹！

在机器学习中，数据质量比我们想象的更重要。

版权声明：
作者：shadowrocket
链接：https://www.shadowrocket8.top/22.html
来源：Shadowrocket官网
文章版权归作者所有，未经允许请勿转载。

THE END

二维码

AI快讯Ilya公司融资10亿美元千问手写OCR准确率100AlphaFold3开源实现

< <上一篇

亚马逊再砸40亿美元Anthropic要用AWS芯片训练下一代AI

下一篇>>

搜索内容

去重神器SemHash每秒22万条快如闪电已开源

取消回复

共有 0 条评论

Shadowrocket高速节点推荐

热门文章

好用的小火箭节点推荐 Shadowrocket 高速节点

去重神器SemHash每秒22万条快如闪电已开源

取消回复

共有 0 条评论

Shadowrocket高速节点推荐

热门文章

好用的小火箭节点推荐 Shadowrocket 高速节点