Dnomd343
2ff35455b3
|
2 years ago | |
---|---|---|
assets | 2 years ago | |
crawler_release | 2 years ago | |
release | 2 years ago | |
sample | 2 years ago | |
src | 2 years ago | |
.gitignore | 2 years ago | |
README.md | 2 years ago |
README.md
《栩栩若生》电子书
>>> 在线阅读 <<<(备用地址)
>>> TXT下载 <<<(备用地址)
>>> EPUB下载 <<<(备用地址)
>>> MOBI下载 <<<(备用地址)
>>> AZW3下载 <<<(备用地址)
MP3/MP4 等设备请选择 TXT 格式,使用 USB 导入的 Kindle 用户请选择 AZW3 格式,其他电子阅读器及使用 Kindle 邮箱推送的用户请选择 EPUB 格式。
编者序
初读《栩栩若生》时,我曾给自己许诺过,若是结局皆大欢喜,就将这本小说整理发布出来,于是就有了这个项目。
小说在各个网文平台上参差不齐,章节内容均有缺失错误。项目从七个不同网站上爬取数据,相互对照,修复合并,得到了初始样本;修复逻辑可以参照自述文件的流程图,具体细节可以查阅 Commit 树记录。
再者,借助代码进行自然语言检查,对原文中大量的防屏蔽词,例如警察、政审、刀枪之类的词语,还有错误的标点符号、词法语法、繁体字以及错别字等进行修正,前前后后共有千余处。
整合后的内容也由代码格式化发布,基于 GitBook 实现在线阅读,同时提供了多种格式的电子书,适配各类电子阅读器。此外,资源文件中也提供了原始的 JSON 数据,可供下游项目二次发布。
最后,Just enjoy it!
整合流程
graph LR
subgraph crawler
source_1([108shu.com])
source_2([aidusk.com])
source_3([ixsw.la])
source_4([m.wxsy.net])
source_5([wxsy.net])
source_6([xswang.com])
source_7([zhihu.com])
end
subgraph sample
subgraph raw
s1a_raw{{sample_1-a}}
s1b_raw{{sample_1-b}}
s2a_raw{{sample_2-a}}
s2b_raw{{sample_2-b}}
s3_raw{{sample_3}}
end
subgraph combine
s1_combine[sample_1]
s2_combine[sample_2]
s3_combine[sample_3]
end
subgraph fixed
s1_fixed(sample_1)
s2_fixed(sample_2)
s3_fixed(sample_3)
end
subgraph replenish
sa{{sample_a}}
sb{{sample_b}}
end
source_1 ==> s1a_raw
source_2 ==> s1b_raw
source_3 ==> s1b_raw
source_4 ==> s2a_raw
source_5 ==> s2a_raw
source_6 ==> s2b_raw
source_7 ==> s3_raw
s1a_raw -- replenish --> s1_combine
s1b_raw --> s1_combine
s2a_raw -- replenish --> s2_combine
s2b_raw -- replenish --> s2_combine
s3_raw -- clean up --> s3_combine
s1_combine -- fix --> s1_fixed
s2_combine -- fix --> s2_fixed
s3_combine -- fix --> s3_fixed
s1_fixed --> sa
s2_fixed -- replenish --> sa
s2_fixed -. restore .-> sb
s3_fixed -- replenish --> sb
end
subgraph release
rc([RC version])
sa --> rc
sb -- fix --> rc
end
展开
数据来源
样本处理
-
爬虫获得五份
raw
样本:sample_1-a
sample_1-b
sample_2-a
sample_2-b
sample_3
-
简单合并后获得三份
combine
样本:sample_1
sample_2
sample_3
-
对照修复错误,获得三组
fixed
样本。 -
合并样本,获得两组
replenish
样本:sample_a
sample_b
-
修复合并,得到
RC
样本。
内容发布
-
RC-1
:初始合并版本 -
RC-2
:修复部分屏蔽词与语法错误 -
RC-3
:修复繁体中文错误 -
RC-4
:修复标点符号错误 -
RC-5
:错误修复及发布样式增强
资源说明
在线阅读
项目提供了在线阅读支持,有主地址和备地址两个入口,前者部署在个人服务器上,使用 CDN 加速访问,后者托管在 Gitbook 服务器上。由于 Gitbook 在国内没有网络服务支持,访问流量将绕行多个地区,因此国内直接访问时加载缓慢;同时,为了更精美的 UI 风格,官方加入了相当多的加载项,在部分设备上阅读可能出现卡顿。相比之下,主地址不仅高度轻量化,还有完善的 CDN 加速支持,国内用户初次访问加载速度在 400ms 级别,后续保持的 HTTP/2 连接更是能把加载时间压到 100ms 以下。
发布的资源文件中,XXRS.tar.xz
为静态网页数据,您可以将其部署在自己服务器上,可以达成与主地址相同的访问效果。
本地阅读
项目导出了四种电子书格式,分别为 TXT
、EPUB
、MOBI
和 AZW3
。前者适用于 MP3/MP4 等简易设备,后三者为常见的电子书格式。EPUB 是通用电子书格式,适用于绝大多数设备,非 Kindle 用户选择它即可。MOBI 和 AZW3 是 Kindle 设备使用的格式:MOBI 分为 KF7 和 KF8 两种编码,前者兼容性好,后者支持更多新功能;AZW3 本质上为添加了 DRM 支持的 KF8 编码 MOBI,是目前 Kindle 的主流格式。
为了保证兼容性,本项目发布的 MOBI 文件同时包含了 KF7 和 KF8 编码,兼容旧版本的 Kindle 设备(未升级固件的 KPW3 以前版本)。新版本 Kindle 建议使用 AZW3 格式,其文件体积更小,支持自定义字体,且发布时已经将 CDE 元数据标记为 PDOC,可以保证封面正常显示。此外,亚马逊的邮箱推送服务在 2022 年 8 月以后停止了对 MOBI 的支持,转向了 EPUB 格式,因此 Kindle 用户使用邮箱推送时请选择后者。
其他资源
为了方便代码处理,项目将原始数据序列化导出为 JSON 格式,即 XXRS.json
文件,包含了书籍元数据和内容,您可以自行编程导出其他电子书格式。
您可以在文首链接或 Release 页面下载资源,链接中主地址通过 CDN 网络访问,备用地址直连 FTP 服务器下载。在线阅读和资源下载主地址均配置在 cdn.dnomd343.top
域名下,其在 DNS 解析上分流为国内和境外两套服务,国内使用阿里云 CDN 加速,境外使用 Cloudflare 加速。经过优化,亚太地区能实现 200ms 级别的握手速度,美洲、欧洲、非洲地区由于距离问题可能需要 600ms 以上。
许可证
MIT ©2022 @dnomd343