|
@ -1,31 +1,25 @@ |
|
|
# 《栩栩若生》电子书 |
|
|
# 《栩栩若生》电子书 |
|
|
|
|
|
|
|
|
### [>>> 在线阅读 <<<](https://xxrs.343.re/) |
|
|
### [>>> 在线阅读 <<<](https://cdn.dnomd343.top/xxrs/online/)([备用地址](https://xxrs.343.re/)) |
|
|
|
|
|
|
|
|
### [>>> TXT下载 <<<](https://res.343.re/Share/XXRS/%E6%A0%A9%E6%A0%A9%E8%8B%A5%E7%94%9F.txt)([备用地址](https://github.com/dnomd343/xxrs-crawler/releases/latest/download/XXRS.txt)) |
|
|
### [>>> TXT下载 <<<](https://res.343.re/Share/XXRS/%E6%A0%A9%E6%A0%A9%E8%8B%A5%E7%94%9F.txt)([备用地址](https://cdn.dnomd343.top/xxrs/%E6%A0%A9%E6%A0%A9%E8%8B%A5%E7%94%9F.txt)) |
|
|
|
|
|
|
|
|
### [>>> MOBI下载 <<<](https://res.343.re/Share/XXRS/%E6%A0%A9%E6%A0%A9%E8%8B%A5%E7%94%9F.mobi)([备用地址](https://github.com/dnomd343/xxrs-crawler/releases/latest/download/XXRS.mobi)) |
|
|
### [>>> MOBI下载 <<<](https://res.343.re/Share/XXRS/%E6%A0%A9%E6%A0%A9%E8%8B%A5%E7%94%9F.mobi)([备用地址](https://cdn.dnomd343.top/xxrs/%E6%A0%A9%E6%A0%A9%E8%8B%A5%E7%94%9F.mobi)) |
|
|
|
|
|
|
|
|
## 编者序 |
|
|
## 编者序 |
|
|
|
|
|
|
|
|
初读《栩栩若生》时,我曾许诺过,若是结局皆大欢喜,就将这本小说整理发布出来,于是有了这个项目。 |
|
|
初读《栩栩若生》时,我曾给自己许诺过,若是结局皆大欢喜,就将这本小说整理发布出来,于是就有了这个项目。 |
|
|
|
|
|
|
|
|
小说在各个网文平台上参差不齐,章节内容均有缺失错误。项目从七个不同网站上爬取数据,相互对照,修复合并,得到了初始样本;修复逻辑可以参照自述文件的流程图,具体细节可以查阅 Commit 树记录。 |
|
|
小说在各个网文平台上参差不齐,章节内容均有缺失错误。项目从七个不同网站上爬取数据,相互对照,修复合并,得到了初始样本;修复逻辑可以参照自述文件的流程图,具体细节可以查阅 Commit 树记录。 |
|
|
|
|
|
|
|
|
再而,借助于代码进行自然语言检查,对原文中大量的违禁词,例如警察、政审、刀枪之类的词语,还有错误的标点符号、错别字、繁体字等进行修正,前前后后共有千余处。 |
|
|
再而,借助于代码进行自然语言检查,对原文中大量的防屏蔽词,例如警察、政审、刀枪之类的词语,还有错误的标点符号、繁体字、词法语法以及错别字等进行修正,前前后后共有千余处。 |
|
|
|
|
|
|
|
|
整合后的内容也由代码格式化发布,基于 GitBook 实现在线阅读,同时提供了 TXT 与 MOBI 格式的电子书,后者带有目录信息,在电子阅读器上体验更佳。此外,资源文件中也提供了原始的 JSON 数据,可供下游项目二次发布。 |
|
|
整合后的内容也由代码格式化发布,基于 GitBook 实现在线阅读,同时提供了多种格式的电子书,以适配各类电子阅读器。此外,资源文件中也提供了原始的 JSON 数据,可供下游项目二次发布。 |
|
|
|
|
|
|
|
|
最后,Just enjoy it! |
|
|
最后,Just enjoy it! |
|
|
|
|
|
|
|
|
## 整合流程 |
|
|
## 整合流程 |
|
|
|
|
|
|
|
|
<details> |
|
|
|
|
|
|
|
|
|
|
|
<summary>展开</summary> |
|
|
|
|
|
|
|
|
|
|
|
</br> |
|
|
|
|
|
|
|
|
|
|
|
```mermaid |
|
|
```mermaid |
|
|
graph LR |
|
|
graph LR |
|
|
|
|
|
|
|
@ -97,6 +91,12 @@ |
|
|
|
|
|
|
|
|
``` |
|
|
``` |
|
|
|
|
|
|
|
|
|
|
|
<details> |
|
|
|
|
|
|
|
|
|
|
|
<summary>展开</summary> |
|
|
|
|
|
|
|
|
|
|
|
<br/> |
|
|
|
|
|
|
|
|
### 数据来源 |
|
|
### 数据来源 |
|
|
|
|
|
|
|
|
+ [`108shu.com`](./src/crawler/108shu.com) :[http://www.108shu.com/book/54247/](http://www.108shu.com/book/54247/) |
|
|
+ [`108shu.com`](./src/crawler/108shu.com) :[http://www.108shu.com/book/54247/](http://www.108shu.com/book/54247/) |
|
@ -113,31 +113,30 @@ |
|
|
|
|
|
|
|
|
+ [`zhihu.com`](./src/crawler/zhihu.com) :[https://www.zhihu.com/column/c_1553471910075449344](https://www.zhihu.com/column/c_1553471910075449344) |
|
|
+ [`zhihu.com`](./src/crawler/zhihu.com) :[https://www.zhihu.com/column/c_1553471910075449344](https://www.zhihu.com/column/c_1553471910075449344) |
|
|
|
|
|
|
|
|
|
|
|
### 样本处理 |
|
|
|
|
|
|
|
|
### 样本分析 |
|
|
+ 爬虫获得五份 [`raw`](./sample/raw/) 样本: |
|
|
|
|
|
|
|
|
1. 爬虫七个网站的数据,获得五份三组不同的 `raw` 样本: |
|
|
|
|
|
|
|
|
|
|
|
+ `sample_1-a` |
|
|
+ `sample_1-a` |
|
|
+ `sample_1-b` |
|
|
+ `sample_1-b` |
|
|
+ `sample_2-a` |
|
|
+ `sample_2-a` |
|
|
+ `sample_2-b` |
|
|
+ `sample_2-b` |
|
|
+ `sample_3` |
|
|
+ `sample_3` |
|
|
|
|
|
|
|
|
2. 经过简单合并后可得到三份初始 `combine` 样本: |
|
|
+ 简单合并后获得三份 [`combine`](./sample/combine/) 样本: |
|
|
|
|
|
|
|
|
+ `sample_1` |
|
|
+ `sample_1` |
|
|
+ `sample_2` |
|
|
+ `sample_2` |
|
|
+ `sample_3` |
|
|
+ `sample_3` |
|
|
|
|
|
|
|
|
3. 进行对照合并,修复各类语法词汇错误、违禁屏蔽词等,得到三组 `fixed` 样本。 |
|
|
+ 对照修复错误,获得三组 [`fixed`](./sample/fixed/) 样本。 |
|
|
|
|
|
|
|
|
4. 再次合并,获得两份 `release` 样本: |
|
|
+ 合并样本,获得两组 [`replenish`](./sample/replenish/) 样本: |
|
|
|
|
|
|
|
|
+ `sample_a` |
|
|
+ `sample_a` |
|
|
+ `sample_b` |
|
|
+ `sample_b` |
|
|
|
|
|
|
|
|
5. 修复合并,得到 `RC` 样本。 |
|
|
+ 修复合并,得到 [`RC`](./release/) 样本。 |
|
|
|
|
|
|
|
|
### 内容发布 |
|
|
### 内容发布 |
|
|
|
|
|
|
|
@ -149,6 +148,8 @@ |
|
|
|
|
|
|
|
|
+ `RC-4` :修复标点符号错误 |
|
|
+ `RC-4` :修复标点符号错误 |
|
|
|
|
|
|
|
|
|
|
|
+ `RC-5` :错误修复及发布样式增强 |
|
|
|
|
|
|
|
|
</details> |
|
|
</details> |
|
|
|
|
|
|
|
|
## 许可证 |
|
|
## 许可证 |
|
|