From 43625528ee7d059f8831ce5fffce8f8f69916b17 Mon Sep 17 00:00:00 2001 From: Dnomd343 Date: Sun, 19 Mar 2023 19:17:49 +0800 Subject: [PATCH] docs: update README.md --- README.md | 59 ++++++++++++++++++++++++++++--------------------------- 1 file changed, 30 insertions(+), 29 deletions(-) diff --git a/README.md b/README.md index 6c0eb9c..aee4d71 100644 --- a/README.md +++ b/README.md @@ -1,31 +1,25 @@ # 《栩栩若生》电子书 -### [>>> 在线阅读 <<<](https://xxrs.343.re/) +### [>>> 在线阅读 <<<](https://cdn.dnomd343.top/xxrs/online/)([备用地址](https://xxrs.343.re/)) -### [>>> TXT下载 <<<](https://res.343.re/Share/XXRS/%E6%A0%A9%E6%A0%A9%E8%8B%A5%E7%94%9F.txt)([备用地址](https://github.com/dnomd343/xxrs-crawler/releases/latest/download/XXRS.txt)) +### [>>> TXT下载 <<<](https://res.343.re/Share/XXRS/%E6%A0%A9%E6%A0%A9%E8%8B%A5%E7%94%9F.txt)([备用地址](https://cdn.dnomd343.top/xxrs/%E6%A0%A9%E6%A0%A9%E8%8B%A5%E7%94%9F.txt)) -### [>>> MOBI下载 <<<](https://res.343.re/Share/XXRS/%E6%A0%A9%E6%A0%A9%E8%8B%A5%E7%94%9F.mobi)([备用地址](https://github.com/dnomd343/xxrs-crawler/releases/latest/download/XXRS.mobi)) +### [>>> MOBI下载 <<<](https://res.343.re/Share/XXRS/%E6%A0%A9%E6%A0%A9%E8%8B%A5%E7%94%9F.mobi)([备用地址](https://cdn.dnomd343.top/xxrs/%E6%A0%A9%E6%A0%A9%E8%8B%A5%E7%94%9F.mobi)) ## 编者序 -初读《栩栩若生》时,我曾许诺过,若是结局皆大欢喜,就将这本小说整理发布出来,于是有了这个项目。 +初读《栩栩若生》时,我曾给自己许诺过,若是结局皆大欢喜,就将这本小说整理发布出来,于是就有了这个项目。 小说在各个网文平台上参差不齐,章节内容均有缺失错误。项目从七个不同网站上爬取数据,相互对照,修复合并,得到了初始样本;修复逻辑可以参照自述文件的流程图,具体细节可以查阅 Commit 树记录。 -再而,借助于代码进行自然语言检查,对原文中大量的违禁词,例如警察、政审、刀枪之类的词语,还有错误的标点符号、错别字、繁体字等进行修正,前前后后共有千余处。 +再而,借助于代码进行自然语言检查,对原文中大量的防屏蔽词,例如警察、政审、刀枪之类的词语,还有错误的标点符号、繁体字、词法语法以及错别字等进行修正,前前后后共有千余处。 -整合后的内容也由代码格式化发布,基于 GitBook 实现在线阅读,同时提供了 TXT 与 MOBI 格式的电子书,后者带有目录信息,在电子阅读器上体验更佳。此外,资源文件中也提供了原始的 JSON 数据,可供下游项目二次发布。 +整合后的内容也由代码格式化发布,基于 GitBook 实现在线阅读,同时提供了多种格式的电子书,以适配各类电子阅读器。此外,资源文件中也提供了原始的 JSON 数据,可供下游项目二次发布。 最后,Just enjoy it! ## 整合流程 -
- -展开 - -
- ```mermaid graph LR @@ -97,6 +91,12 @@ ``` +
+ +展开 + +
+ ### 数据来源 + [`108shu.com`](./src/crawler/108shu.com) :[http://www.108shu.com/book/54247/](http://www.108shu.com/book/54247/) @@ -113,31 +113,30 @@ + [`zhihu.com`](./src/crawler/zhihu.com) :[https://www.zhihu.com/column/c_1553471910075449344](https://www.zhihu.com/column/c_1553471910075449344) +### 样本处理 -### 样本分析 - -1. 爬虫七个网站的数据,获得五份三组不同的 `raw` 样本: ++ 爬虫获得五份 [`raw`](./sample/raw/) 样本: -+ `sample_1-a` -+ `sample_1-b` -+ `sample_2-a` -+ `sample_2-b` -+ `sample_3` + + `sample_1-a` + + `sample_1-b` + + `sample_2-a` + + `sample_2-b` + + `sample_3` -2. 经过简单合并后可得到三份初始 `combine` 样本: ++ 简单合并后获得三份 [`combine`](./sample/combine/) 样本: -+ `sample_1` -+ `sample_2` -+ `sample_3` + + `sample_1` + + `sample_2` + + `sample_3` -3. 进行对照合并,修复各类语法词汇错误、违禁屏蔽词等,得到三组 `fixed` 样本。 ++ 对照修复错误,获得三组 [`fixed`](./sample/fixed/) 样本。 -4. 再次合并,获得两份 `release` 样本: ++ 合并样本,获得两组 [`replenish`](./sample/replenish/) 样本: -+ `sample_a` -+ `sample_b` + + `sample_a` + + `sample_b` -5. 修复合并,得到 `RC` 样本。 ++ 修复合并,得到 [`RC`](./release/) 样本。 ### 内容发布 @@ -149,6 +148,8 @@ + `RC-4` :修复标点符号错误 ++ `RC-5` :错误修复及发布样式增强 +
## 许可证