您当前的位置:首页 > IT编程 > 数据集
| C语言 | Java | VB | VC | python | Android | TensorFlow | C++ | oracle | 学术与代码 | cnn卷积神经网络 | gnn | 图像修复 | Keras | 数据集 | Neo4j | 自然语言处理 | 深度学习 | 医学CAD | 医学影像 | 超参数 | pointnet | pytorch |

自学教程:超大规模中文语料集

51自学网 2023-02-11 17:20:53
  数据集
这篇教程超大规模中文语料集写得很实用,希望能帮到您。

MNBVC(Massive Never-ending BT Vast Chinese corpus)超大规模中文语料集

https://github.com/esbatmop/MNBVC

响应符尧博士的号召,危机存亡之秋,为避免技术断代,为将几千年历史的中文之美传承给AI。

中文互联网上最古老最神秘(没有之一)的里屋社区于2023.1.1庄重宣布:

在英明神武的里屋管子带领下,决心发挥社区所长(哪都长),帮助开源社区长期更新一份最大的中文互联网语料集

MNBVC数据集不但包括主流文化,也包括各个小众文化甚至火星文的数据。MNBVC数据集包括新闻、作文、小说、书籍、杂志、论文、台词、帖子、wiki、古诗、歌词、商品介绍、笑话、糗事、聊天记录等一切形式的纯文本中文数据。数据均来源于互联网收集。

进度

目前总数据量1870GB,目标是达到chatGPT的40T数据,目前进度4.7%。

数据说明

压缩包密码为253874

压缩包内中文语料均清洗为txt和json(包括jsonl)格式

压缩包根目录的links.txt里有每个子文件夹数据来源的url

每个子文件夹内有一张png格式的图片,是数据来源的网页截图

收录的数据将去掉大于等于8位的数字串进行脱敏

压缩包内数据只做了粗加工,例如html&xml转txt、csv&tsv转json等

我们有一个小组负责将数据精加工成huggingface上开箱即用的语料集,但目前整个项目的算力和人力更优先用于堆量。

索引和分类

我们没有能力对数据来源进行版权审核。虽然本数据集包括了数据来源信息,但为了长而持久的提供数据集的更新和下载,为了尽量避免版权争议,本数据集不提供压缩包内数据的索引和分类。并恳请大家克制住自己的分享欲,不要讨论压缩包的索引及所包含具体内容的信息。请大家更多的关注大数据量语料本身的应用,拜托大家低调的使用数据。

下载信息:

http下载:http://dl.mnbvc.253874.net:9191/mnbvc/
p2p的下载正在继续测试中,待测试完毕会继续放出。

20221224.zip 压缩包4.57GB,原始13.45GB
百度网盘 提取码: dh2n

20221225.zip 压缩包7.53GB,原始17.68GB
百度网盘 提取码: gr63

20230101.zip 压缩包7.34GB,原始17.11GB
百度网盘 提取码: 78uq

20230102.zip 压缩包22.14GB,原始29.58GB
百度网盘 提取码: kvuz

20230103.zip 压缩包12.35GB,原始27.97GB
百度网盘 提取码: 71rj

20230104.zip 压缩包12.36GB,原始28.54GB
百度网盘 提取码: pkwy

20230105.zip 压缩包15.32GB,原始35.18GB
百度网盘 提取码: fk62

20230106.zip 压缩包8.87GB,原始19.45GB
百度网盘 提取码: upyg

20230107.zip 压缩包6.2GB,原始13.14GB
百度网盘 提取码: eape

20230108.zip 压缩包9.56GB,原始25.84GB 此包小文件众多,解压很慢
百度网盘 提取码: kywq

20230109.zip 压缩包7.63GB,原始20.84GB
百度网盘 提取码: 441t

20230110.zip 压缩包5.79GB,原始15.6GB
百度网盘 提取码: 8vf9

20230112.zip 压缩包11.26GB,原始23.92GB
百度网盘 提取码: b9sr

20230113.zip 压缩包8.21GB,原始17.54GB
百度网盘 提取码: fa49

20230114.zip 压缩包5.65GB,原始14.79GB
百度网盘 提取码: i6sd

20230115.zip 压缩包7.53GB,原始23.1GB
百度网盘 提取码: 2qnj

20230116.zip 压缩包3.29GB,原始10.81GB
百度网盘 提取码: ysqy

20230117.zip 压缩包11.71GB,原始29.54GB
百度网盘 提取码: biew

20230118.zip 压缩包11.71GB,原始31.47GB
百度网盘 提取码: x9yu

20230119.zip 压缩包11.21GB,原始31.33GB
百度网盘 提取码: xsa9

20230120.zip 压缩包12.32GB,原始31.45GB
百度网盘 提取码: kr3f

20230121.zip 压缩包13.44GB,原始32.08GB
百度网盘 提取码: 82cs

20230122.zip 压缩包12.49GB,原始29.5GB
百度网盘 提取码: bjnj

20230123.zip 压缩包11.84GB,原始28.08GB
百度网盘 提取码: issx

20230124.zip 压缩包10.57GB,原始27.16GB
百度网盘 提取码: fuyi

20230125.zip 压缩包4.41GB,原始15.42GB
百度网盘 提取码: vy5x

20230126.zip 压缩包9.12GB,原始26.44GB
百度网盘 提取码: mzte

20230127.zip 压缩包10.73GB,原始27.12GB
百度网盘 提取码: 47kr

20230128.zip 压缩包10.78GB,原始26.12GB
百度网盘 提取码: je3u

20230129.zip 压缩包13.72GB,原始31.09GB
百度网盘 提取码: isqm

20230130.zip 压缩包7.61GB,原始19.97GB
百度网盘 提取码: k8ue

20230131.zip 压缩包8.13GB,原始20.53GB
百度网盘 提取码: 79ti

20230132.zip 压缩包7.28GB,原始18.52GB
百度网盘 提取码: aabc

20230133.zip 压缩包6.95GB,原始17.54GB
百度网盘 提取码: 97dd

20230134.zip 压缩包5.20GB,原始21.87GB
百度网盘 提取码: u3fi

20230135.zip 压缩包4.57GB,原始18.55GB
百度网盘 提取码: xn2a

20230136.zip 压缩包5.16GB,原始20.94GB
百度网盘 提取码: xiwd

20230137.zip 压缩包4.99GB,原始20.39GB
百度网盘 提取码: vitu

20230138.zip 压缩包4.06GB,原始16.35GB
百度网盘 提取码: v6v6

20230139.zip 压缩包4.60GB,原始18.58GB
百度网盘 提取码: djef

20230140.zip 压缩包4.45GB,原始17.95GB
百度网盘 提取码: f3we

20230141.zip 压缩包4.59GB,原始20.41GB
百度网盘 提取码: 6j6b

20230142.zip 压缩包9.48GB,原始23.9GB
百度网盘 提取码: cicv

20230143.zip 压缩包12.16GB,原始27.23GB
百度网盘 提取码: b2es

20230144.zip 压缩包6.42GB,原始32.05GB
百度网盘 提取码: ea8r

20230145.zip 压缩包6.41GB,原始32.03GB
百度网盘 提取码: k31g

20230146.zip 压缩包6.39GB,原始31.91GB
百度网盘 提取码: 5gkm

20230147.zip 压缩包6.40GB,原始32GB
百度网盘 提取码: ezci

20230148.zip 压缩包6.42GB,原始32.1GB
百度网盘 提取码: wwbp

20230149.zip 压缩包6.40GB,原始31.91GB
百度网盘 提取码: ar95

20230150.zip 压缩包6.43GB,原始32.1GB
百度网盘 提取码: xtsu

20230151.zip 压缩包6.42GB,原始32.09GB
百度网盘 提取码: 9fas

20230152.zip 压缩包6.45GB,原始32.2GB
百度网盘 提取码: huqa

20230153.zip 压缩包6.42GB,原始32.04GB
百度网盘 提取码: kmqj

20230154.zip 压缩包6.43GB,原始32.1GB
百度网盘 提取码: mniw

20230155.zip 压缩包6.41GB,原始32.04GB
百度网盘 提取码: 5k3c

20230156.zip 压缩包6.42GB,原始32.06GB
百度网盘 提取码: 3w3h

20230157.zip 压缩包6.42GB,原始31.99GB
百度网盘 提取码: b6u7

20230158.zip 压缩包6.42GB,原始32.09GB
百度网盘 提取码: d8xp

20230159.zip 压缩包6.38GB,原始31.94GB
百度网盘 提取码: 6f5v

20230160.zip 压缩包6.41GB,原始32.05GB
百度网盘 提取码: w4hm

20230161.zip 压缩包6.4GB,原始31.89GB
百度网盘 提取码: ge4u

20230162.zip 压缩包6.42GB,原始32.06GB
百度网盘 提取码: 5pwq

20230163.zip 压缩包6.42GB,原始32.11GB
百度网盘 提取码: 5pwq

20230164.zip 压缩包6.42GB,原始32.1GB
百度网盘 提取码: 28fg

20230165.zip 压缩包6.4GB,原始32.02GB
百度网盘 提取码: uxeq

20230166.zip 压缩包6.45GB,原始32.19GB
百度网盘 提取码: n28t

20230167.zip 压缩包6.4GB,原始32.05GB
百度网盘 提取码: k279

20230168.zip 压缩包6.42GB,原始32.02GB
百度网盘 提取码: i9t4

20230169.zip 压缩包6.42GB,原始32.04GB
百度网盘 提取码: gdyk

20230170.zip 压缩包6.42GB,原始32.03GB
百度网盘 提取码: 441v


python 把多个txt文件合并为一个txt文件
修改fashion_mnist.load_data()源码加载本地fashion_mnist数据集
51自学网,即我要自学网,自学EXCEL、自学PS、自学CAD、自学C语言、自学css3实例,是一个通过网络自主学习工作技能的自学平台,网友喜欢的软件自学网站。
京ICP备13026421号-1