xxrs-crawler/src/crawler/m.wxsy.net/catalog.py


								#!/usr/bin/env python3

								# -*- coding: utf-8 -*-


								"""

								Fetch catalog and output as JSON format.


								    USAGE: python3 catalog.py [PROXY]

								"""


								import re

								import sys

								import json

								sys.path.append('..')

								from utils import logger

								from utils import httpRequest

								from bs4 import BeautifulSoup


								def analysePage(rawHtml: bytes) -> list:  # extract catalog from html content

								    analyseRet = []

								    html = BeautifulSoup(str(rawHtml, encoding = 'utf-8'), 'lxml')

								    div = html.select('div[class="border-b"]')[0]

								    for row in div.select('a[class="w100 flex-wrp flex-align-center flex-between pt10 pb10"]'):

								        analyseRet.append({

								            'name': row.attrs['title'],

								            'url': row.attrs['href'],

								        })

								    return analyseRet


								def fetchCatalog(pageNum: int) -> list:  # fetch raw catalog

								    catalog = []

								    for pageIndex in range(1, pageNum + 1):  # traverse all pages (1 ~ pageNum)

								        logger.info('Catalog page -> %d' % pageIndex)

								        catalog.append(analysePage(

								            httpRequest(

								                'https://m.wxsy.net/novel/57104/all.html?sort=1&page=%d' % pageIndex,

								                proxy = sys.argv[1]

								            )

								        ))

								    return catalog


								def formatCatalog(rawCatalog: list) -> dict:

								    catalog = {}

								    for catalogPage in rawCatalog:  # traverse pages

								        for catalogItem in catalogPage:  # traverse catalog items

								            pageId = re.search(r'^/novel/57104/read_(\d+)\.html$', catalogItem['url'])[1]

								            catalog[catalogItem['name']] = pageId  # save page id

								    catalog = sorted(catalog.items(), key = lambda d: int(

								        re.search(r'^第(\d+)章', d[0])[1]  # sort by chapter

								    ))

								    return {x[0]: x[1] for x in catalog}  # formatted output


								logger.warning('Fetch catalog of `m.wxsy.net`')

								release = formatCatalog(fetchCatalog(18))  # 18 pages in total

								print(json.dumps(release))  # output as JSON format