Browse Source

docs: update README.md

master
Dnomd343 2 years ago
parent
commit
7c6f712800
  1. 19
      README.md

19
README.md

@ -89,34 +89,31 @@
## 样本分析 ## 样本分析
爬虫七个网站的数据,获得五份三组不同的 `raw` 样本: 1. 爬虫七个网站的数据,获得五份三组不同的 `raw` 样本:
+ `sample_1-a` + `sample_1-a`
+ `sample_1-b` + `sample_1-b`
+ `sample_2-a` + `sample_2-a`
+ `sample_2-b` + `sample_2-b`
+ `sample_3` + `sample_3`
经过简单合并后可得到三份初始 `combine` 样本: 2. 经过简单合并后可得到三份初始 `combine` 样本:
+ `sample_1` + `sample_1`
+ `sample_2` + `sample_2`
+ `sample_3` + `sample_3`
进行对照合并,修复各类语法词汇错误、违禁屏蔽词等,得到三组 `fixed` 样本,再次合并,获得两份 `release` 样本: 3. 进行对照合并,修复各类语法词汇错误、违禁屏蔽词等,得到三组 `fixed` 样本
+ `sample_a` 4. 再次合并,获得两份 `release` 样本:
+ `sample_a`
+ `sample_b` + `sample_b`
两组样本只有微小的分隔区别,经过修复合并后得到 `RC` 样本。 5. 修复合并,得到 `RC` 样本。
## 数据发布 ## 数据发布
+ `RC-1` :初始合并版本 + `RC-1` :初始合并版本
+ `RC-2` :修复部分屏蔽词与语法错误

Loading…
Cancel
Save