去重神器SemHash每秒22万条快如闪电已开源

8300万条数据,83秒完成去重!

这不是科幻,而是HuggingFace最新开源的语义去重神器SemHash的真实表现。

去重神器SemHash每秒22万条快如闪电已开源-2

当我们谈论大语言模型训练时,数据质量往往被忽视。

重复的数据就像是给模型喂了一堆复印件 ,不仅浪费训练资源,还可能导致模型产生偏见。

但现在,这个问题有了解决方案!

HuggingFace的技术主管Philipp Schmid发布了一个「 神器级 」的开源库: SemHash 。

它不仅能找出完全重复的数据,还能识别那些 意思相近但表达不同的文本 。

最让人兴奋的是它的速度: 仅用83秒就完成了180万条WikiText数据的去重 !

这是什么概念?

——相当于每秒处理2.2万条数据!

去重神器SemHash每秒22万条快如闪电已开源-3

为什么SemHash这么快?

秘密在于它的「 双核引擎 」:

Model2Vec :负责生成文本嵌入向量

Vicinity :通过ANN(近似最近邻)技术进行相似度搜索

这种组合让SemHash不仅能跑得快,还跑得准。在17个数据集的基准测试中,它展现出了惊人的表现。

医学研究者Piotr Jarecki表示:「这对医学文献的训练数据去重非常有用!」

让数据去重变得简单

SemHash的使用方法出人意料的简单。 三行代码 就能完成基本的去重操作:

from semhash import SemHashsemhash = SemHash.from_records(records=texts)deduplicated_texts = semhash.self_deduplicate()

它还支持:

跨数据集去重 :防止训练集和测试集数据泄露

多列数据去重 :比如问答数据集中的问题和上下文

自定义编码器 :可以使用sentence-transformers等模型

实战表现惊人

在基准测试中,SemHash展示了令人瞠目的性能:

student数据集 :117519条数据中有45.66%是重复的

wikitext数据集 :180万条数据中有50.89%是重复的

imdb数据集 :25000条数据中仅0.68%重复

SemHash甚至发现了一些数据集中存在严重的训练集和测试集重叠问题。比如在enron_spam数据集中,测试集有47%的数据与训练集重复!

Ethan_SynthMind评论道:

去重速度快得能赶上猎豹!

在机器学习中, 数据质量比我们想象的更重要 。

版权声明:
作者:shadowrocket
链接:https://www.shadowrocket8.top/22.html
来源:Shadowrocket官网
文章版权归作者所有,未经允许请勿转载。

THE END
分享
二维码
< <上一篇
下一篇>>