| 
						
						
							
								
							
						
						
					 | 
					@ -89,34 +89,31 @@ | 
				
			
			
		
	
		
		
			
				
					 | 
					 | 
					
 | 
					 | 
					 | 
					
 | 
				
			
			
		
	
		
		
			
				
					 | 
					 | 
					## 样本分析 | 
					 | 
					 | 
					## 样本分析 | 
				
			
			
		
	
		
		
			
				
					 | 
					 | 
					
 | 
					 | 
					 | 
					
 | 
				
			
			
		
	
		
		
			
				
					
					 | 
					 | 
					爬虫七个网站的数据,获得五份三组不同的 `raw` 样本: | 
					 | 
					 | 
					1. 爬虫七个网站的数据,获得五份三组不同的 `raw` 样本: | 
				
			
			
				
				
			
		
	
		
		
	
		
		
			
				
					 | 
					 | 
					
 | 
					 | 
					 | 
					
 | 
				
			
			
		
	
		
		
			
				
					 | 
					 | 
					+ `sample_1-a` | 
					 | 
					 | 
					+ `sample_1-a` | 
				
			
			
		
	
		
		
			
				
					 | 
					 | 
					
 | 
					 | 
					 | 
					 | 
				
			
			
		
	
		
		
			
				
					 | 
					 | 
					+ `sample_1-b` | 
					 | 
					 | 
					+ `sample_1-b` | 
				
			
			
		
	
		
		
			
				
					 | 
					 | 
					
 | 
					 | 
					 | 
					 | 
				
			
			
		
	
		
		
			
				
					 | 
					 | 
					+ `sample_2-a` | 
					 | 
					 | 
					+ `sample_2-a` | 
				
			
			
		
	
		
		
			
				
					 | 
					 | 
					
 | 
					 | 
					 | 
					 | 
				
			
			
		
	
		
		
			
				
					 | 
					 | 
					+ `sample_2-b` | 
					 | 
					 | 
					+ `sample_2-b` | 
				
			
			
		
	
		
		
			
				
					 | 
					 | 
					
 | 
					 | 
					 | 
					 | 
				
			
			
		
	
		
		
			
				
					 | 
					 | 
					+ `sample_3` | 
					 | 
					 | 
					+ `sample_3` | 
				
			
			
		
	
		
		
			
				
					 | 
					 | 
					
 | 
					 | 
					 | 
					
 | 
				
			
			
		
	
		
		
			
				
					
					 | 
					 | 
					经过简单合并后可得到三份初始 `combine` 样本: | 
					 | 
					 | 
					2. 经过简单合并后可得到三份初始 `combine` 样本: | 
				
			
			
				
				
			
		
	
		
		
	
		
		
			
				
					 | 
					 | 
					
 | 
					 | 
					 | 
					
 | 
				
			
			
		
	
		
		
			
				
					 | 
					 | 
					+ `sample_1` | 
					 | 
					 | 
					+ `sample_1` | 
				
			
			
		
	
		
		
			
				
					 | 
					 | 
					
 | 
					 | 
					 | 
					 | 
				
			
			
		
	
		
		
			
				
					 | 
					 | 
					+ `sample_2` | 
					 | 
					 | 
					+ `sample_2` | 
				
			
			
		
	
		
		
			
				
					 | 
					 | 
					
 | 
					 | 
					 | 
					 | 
				
			
			
		
	
		
		
			
				
					 | 
					 | 
					+ `sample_3` | 
					 | 
					 | 
					+ `sample_3` | 
				
			
			
		
	
		
		
			
				
					 | 
					 | 
					
 | 
					 | 
					 | 
					
 | 
				
			
			
		
	
		
		
			
				
					
					 | 
					 | 
					进行对照合并,修复各类语法词汇错误、违禁屏蔽词等,得到三组 `fixed` 样本,再次合并,获得两份 `release` 样本: | 
					 | 
					 | 
					3. 进行对照合并,修复各类语法词汇错误、违禁屏蔽词等,得到三组 `fixed` 样本。 | 
				
			
			
				
				
			
		
	
		
		
	
		
		
			
				
					 | 
					 | 
					
 | 
					 | 
					 | 
					
 | 
				
			
			
		
	
		
		
			
				
					
					 | 
					 | 
					+ `sample_a` | 
					 | 
					 | 
					4. 再次合并,获得两份 `release` 样本: | 
				
			
			
				
				
			
		
	
		
		
	
		
		
			
				
					 | 
					 | 
					
 | 
					 | 
					 | 
					
 | 
				
			
			
		
	
		
		
			
				
					 | 
					 | 
					 | 
					 | 
					 | 
					+ `sample_a` | 
				
			
			
		
	
		
		
			
				
					 | 
					 | 
					+ `sample_b` | 
					 | 
					 | 
					+ `sample_b` | 
				
			
			
		
	
		
		
			
				
					 | 
					 | 
					
 | 
					 | 
					 | 
					
 | 
				
			
			
		
	
		
		
			
				
					
					 | 
					 | 
					两组样本只有微小的分隔区别,经过修复合并后得到 `RC` 样本。 | 
					 | 
					 | 
					5. 修复合并,得到 `RC` 样本。 | 
				
			
			
				
				
			
		
	
		
		
	
		
		
			
				
					 | 
					 | 
					
 | 
					 | 
					 | 
					
 | 
				
			
			
		
	
		
		
			
				
					 | 
					 | 
					## 数据发布 | 
					 | 
					 | 
					## 数据发布 | 
				
			
			
		
	
		
		
			
				
					 | 
					 | 
					
 | 
					 | 
					 | 
					
 | 
				
			
			
		
	
		
		
			
				
					 | 
					 | 
					+ `RC-1` :初始合并版本 | 
					 | 
					 | 
					+ `RC-1` :初始合并版本 | 
				
			
			
		
	
		
		
			
				
					 | 
					 | 
					 | 
					 | 
					 | 
					
 | 
				
			
			
		
	
		
		
			
				
					 | 
					 | 
					 | 
					 | 
					 | 
					+ `RC-2` :修复部分屏蔽词与语法错误 | 
				
			
			
		
	
	
		
		
			
				
					| 
						
						
						
					 | 
					
  |