|
@ -89,34 +89,31 @@ |
|
|
|
|
|
|
|
|
## 样本分析 |
|
|
## 样本分析 |
|
|
|
|
|
|
|
|
爬虫七个网站的数据,获得五份三组不同的 `raw` 样本: |
|
|
1. 爬虫七个网站的数据,获得五份三组不同的 `raw` 样本: |
|
|
|
|
|
|
|
|
+ `sample_1-a` |
|
|
+ `sample_1-a` |
|
|
|
|
|
|
|
|
+ `sample_1-b` |
|
|
+ `sample_1-b` |
|
|
|
|
|
|
|
|
+ `sample_2-a` |
|
|
+ `sample_2-a` |
|
|
|
|
|
|
|
|
+ `sample_2-b` |
|
|
+ `sample_2-b` |
|
|
|
|
|
|
|
|
+ `sample_3` |
|
|
+ `sample_3` |
|
|
|
|
|
|
|
|
经过简单合并后可得到三份初始 `combine` 样本: |
|
|
2. 经过简单合并后可得到三份初始 `combine` 样本: |
|
|
|
|
|
|
|
|
+ `sample_1` |
|
|
+ `sample_1` |
|
|
|
|
|
|
|
|
+ `sample_2` |
|
|
+ `sample_2` |
|
|
|
|
|
|
|
|
+ `sample_3` |
|
|
+ `sample_3` |
|
|
|
|
|
|
|
|
进行对照合并,修复各类语法词汇错误、违禁屏蔽词等,得到三组 `fixed` 样本,再次合并,获得两份 `release` 样本: |
|
|
3. 进行对照合并,修复各类语法词汇错误、违禁屏蔽词等,得到三组 `fixed` 样本。 |
|
|
|
|
|
|
|
|
+ `sample_a` |
|
|
4. 再次合并,获得两份 `release` 样本: |
|
|
|
|
|
|
|
|
|
|
|
+ `sample_a` |
|
|
+ `sample_b` |
|
|
+ `sample_b` |
|
|
|
|
|
|
|
|
两组样本只有微小的分隔区别,经过修复合并后得到 `RC` 样本。 |
|
|
5. 修复合并,得到 `RC` 样本。 |
|
|
|
|
|
|
|
|
## 数据发布 |
|
|
## 数据发布 |
|
|
|
|
|
|
|
|
+ `RC-1` :初始合并版本 |
|
|
+ `RC-1` :初始合并版本 |
|
|
|
|
|
|
|
|
|
|
|
+ `RC-2` :修复部分屏蔽词与语法错误 |
|
|