You can not select more than 25 topics Topics must start with a letter or number, can include dashes ('-') and can be up to 35 characters long.
 
 
Dnomd343 a4a66ee011 update: add gitbook indentation 2 years ago
assets update: cover image asset link 2 years ago
crawler_release chore: file structure 2 years ago
release fix: punctuation marks 2 years ago
sample update: rename `release` to `replenish` 2 years ago
src update: add gitbook indentation 2 years ago
.gitignore chore: ignore release output folder 2 years ago
README.md docs: add preamble 2 years ago

README.md

《栩栩若生》电子书

>>> 在线阅读 <<<

>>> TXT下载 <<<备用地址

>>> MOBI下载 <<<备用地址

编者序

初读《栩栩若生》时,我曾许诺过,若是结局皆大欢喜,就将这本小说整理发布出来,于是有了这个项目。

小说在各个网文平台上参差不齐,章节内容均有缺失错误。项目从七个不同网站上爬取数据,相互对照,修复合并,得到了初始样本;修复逻辑可以参照自述文件的流程图,具体细节可以查阅 Commit 树记录。

再而,借助于代码进行自然语言检查,对原文中大量的违禁词,例如警察、政审、刀枪之类的词语,还有错误的标点符号、错别字、繁体字等进行修正,前前后后共有千余处。

整合后的内容也由代码格式化发布,基于 GitBook 实现在线阅读,同时提供了 TXT 与 MOBI 格式的电子书,后者带有目录信息,在电子阅读器上体验更佳。此外,资源文件中也提供了原始的 JSON 数据,可供下游项目二次发布。

最后,Just enjoy it!

整合流程

展开
  graph LR

  subgraph crawler
    source_1([108shu.com])
    source_2([aidusk.com])
    source_3([ixsw.la])
    source_4([m.wxsy.net])
    source_5([wxsy.net])
    source_6([xswang.com])
    source_7([zhihu.com])
  end

  subgraph sample
    subgraph raw
      s1a_raw{{sample_1-a}}
      s1b_raw{{sample_1-b}}
      s2a_raw{{sample_2-a}}
      s2b_raw{{sample_2-b}}
      s3_raw{{sample_3}}
    end

    subgraph combine
      s1_combine[sample_1]
      s2_combine[sample_2]
      s3_combine[sample_3]
    end

    subgraph fixed
      s1_fixed(sample_1)
      s2_fixed(sample_2)
      s3_fixed(sample_3)
    end

    subgraph replenish
      sa{{sample_a}}
      sb{{sample_b}}
    end

    source_1 ==> s1a_raw
    source_2 ==> s1b_raw
    source_3 ==> s1b_raw
    source_4 ==> s2a_raw
    source_5 ==> s2a_raw
    source_6 ==> s2b_raw
    source_7 ==> s3_raw

    s1a_raw -- replenish --> s1_combine
    s1b_raw --> s1_combine
    s2a_raw -- replenish --> s2_combine
    s2b_raw -- replenish --> s2_combine
    s3_raw -- clean up --> s3_combine

    s1_combine -- fix --> s1_fixed
    s2_combine -- fix --> s2_fixed
    s3_combine -- fix --> s3_fixed

    s1_fixed --> sa
    s2_fixed -- replenish --> sa
    s2_fixed -. restore .-> sb
    s3_fixed -- replenish --> sb
  end

  subgraph release
    rc([RC version])
    sa --> rc
    sb -- fix --> rc
  end

数据来源

样本分析

  1. 爬虫七个网站的数据,获得五份三组不同的 raw 样本:
  • sample_1-a
  • sample_1-b
  • sample_2-a
  • sample_2-b
  • sample_3
  1. 经过简单合并后可得到三份初始 combine 样本:
  • sample_1
  • sample_2
  • sample_3
  1. 进行对照合并,修复各类语法词汇错误、违禁屏蔽词等,得到三组 fixed 样本。

  2. 再次合并,获得两份 release 样本:

  • sample_a
  • sample_b
  1. 修复合并,得到 RC 样本。

内容发布

  • RC-1 :初始合并版本

  • RC-2 :修复部分屏蔽词与语法错误

  • RC-3 :修复繁体中文错误

  • RC-4 :修复标点符号错误

许可证

MIT ©2022 @dnomd343