From 7c6f712800181c6770cddce9d4a0030ed4a0013e Mon Sep 17 00:00:00 2001 From: Dnomd343 Date: Sun, 11 Dec 2022 17:12:31 +0800 Subject: [PATCH] docs: update README.md --- README.md | 19 ++++++++----------- 1 file changed, 8 insertions(+), 11 deletions(-) diff --git a/README.md b/README.md index b0428c4..c1c7660 100644 --- a/README.md +++ b/README.md @@ -89,34 +89,31 @@ ## 样本分析 -爬虫七个网站的数据,获得五份三组不同的 `raw` 样本: +1. 爬虫七个网站的数据,获得五份三组不同的 `raw` 样本: + `sample_1-a` - + `sample_1-b` - + `sample_2-a` - + `sample_2-b` - + `sample_3` -经过简单合并后可得到三份初始 `combine` 样本: +2. 经过简单合并后可得到三份初始 `combine` 样本: + `sample_1` - + `sample_2` - + `sample_3` -进行对照合并,修复各类语法词汇错误、违禁屏蔽词等,得到三组 `fixed` 样本,再次合并,获得两份 `release` 样本: +3. 进行对照合并,修复各类语法词汇错误、违禁屏蔽词等,得到三组 `fixed` 样本。 -+ `sample_a` +4. 再次合并,获得两份 `release` 样本: ++ `sample_a` + `sample_b` -两组样本只有微小的分隔区别,经过修复合并后得到 `RC` 样本。 +5. 修复合并,得到 `RC` 样本。 ## 数据发布 + `RC-1` :初始合并版本 + ++ `RC-2` :修复部分屏蔽词与语法错误