Browse Source

fix: punctuation marks

master
Dnomd343 2 years ago
parent
commit
ae7565f145
  1. 14
      release/rc-5.json
  2. 48
      src/punctuation/sentence.py

14
release/rc-5.json

@ -23878,7 +23878,7 @@
"周子恒把手机递给我,“有挺多网友私下保存过,他这长相特招小姑娘喜欢。”",
"我看过去,的确是偷拍的,距离略远,但五官能看清,短发,大眼睛,细挺的鼻梁,薄厚适中的唇,真是一张男女通杀的脸,作为男人,阴柔秀气,若是说成女人,又英气飒爽,看着看着,我逐渐睁大眼,诧异自己怎么会有将他作为看待女人的想法,他明明穿着的也是男装啊。",
"照片不自觉的放大,青龙青龙……",
"神话中有说龙并没有雌雄之分,龙只有雄性,称为阳龙,但青龙的早期形象与应龙相似,生有羽翼,应龙记录的性别却是女,《云笈七签》称其为“天之后妃”、“女王星”,子孙包括盘古、凤凰、建马、麒麟,鸾鸟,一切飞禽走兽。",
"神话中有说龙并没有雌雄之分,龙只有雄性,称为阳龙,但青龙的早期形象与应龙相似,生有羽翼,应龙记录的性别却是女,《云笈七签》称其为‘天之后妃’、‘女王星’,子孙包括盘古、凤凰、建马、麒麟,鸾鸟,一切飞禽走兽。",
"所以应龙是传统神话中的龙族祖先,青龙是道教神话中的龙族祖先。",
"我嘶了口气,入道者起点最高的青龙,必然阴阳平衡,天生阴阳,天生阴阳……",
"‘啪!’",
@ -40147,7 +40147,7 @@
"可是成琛呢?",
"他就这么死了吗?",
"“三姑,能做夫妻的人,是不是都要有很深的缘分……”",
"“一日夫妻,百世姻缘”",
"“一日夫妻,百世姻缘”",
"三姑温和的安慰着我,“万物缘生,皆是缘分。”",
"那我和成琛的姻缘呢?",
"因为不甘心没有等到他,我才要再次和他相恋一场,终归是……",
@ -57518,7 +57518,7 @@
"袁穷那境界根本就属于无敌了,并非我成长太慢,而是摊上了袁穷这货,人家明摆着告诉你,甭管你怎么打怪升级,我都是你不可逾越的高山。",
"那对我来说,横竖都是死,留给我的时间又所剩无几,就往前冲呗!",
"天色渐渐地暗沉,我陆续发出短信,告诉三姑找个理由将家人带去庙堂住两个月。",
"头疼的是不知家人会不会配合,不过三姑很干脆,给我回了一个“好”字。",
"头疼的是不知家人会不会配合,不过三姑很干脆,给我回了一个‘好’字。",
"意思是她心中有数,会全部搞定,很给我托底。",
"剩下的就是雪乔哥,以及曾经受到我波及的岚岚姐。",
"我给岚岚姐去了通电话,她正好在外地出差,要忙一个月,见状我就闲聊了几句,没多打扰。",
@ -61160,7 +61160,7 @@
"我奉陪!",
"拿过手机我给三姑去了一条信息。",
"最近一段时间家人无论如何都不要离开庙宇,电视新闻也不要去看,以免徒增烦恼。",
"三姑简单回了我一个“好”字。",
"三姑简单回了我一个‘好’字。",
"我拨出了季楚芸的号码,从她手中要来了廖时薇的私人联络方式。",
"尝试着给她发了条信息,廖时薇竟然很快就回我,‘沈小姐,你找我什么事?’",
"看来廖时薇对我印象还很深刻。",
@ -61366,7 +61366,7 @@
"下面的空白处还打印记录着徐絮儿的成长经历。",
"奇怪的是下面还有一行钢笔字——",
"“以接触,百分之六十,没有再度关注。”",
"字体我很熟悉,是成琛的,写的“以接触”是什么意思?",
"字体我很熟悉,是成琛的,写的‘以接触’是什么意思?",
"翻开下一页,是个陌生女孩儿的名字简历,出生年月日一类的东西,成长经历。",
"最下面成琛留的钢笔字是,“宴会上没有关注,不在意,排除。”",
"什么宴会?",
@ -63922,7 +63922,7 @@
"三姑细致的帮我戴好手套,拍了拍我的手背,擦了擦泪,推门便下了车。",
"我坐在车里看了她一会儿,启动车子离开了庙宇。",
"三姑在原地站了很久很久,倒车镜里的她最后成为了一个小点儿,我恍然间才发现,三姑真的很老了,她穿着居士服,瘦瘦小小,头发全白,记忆中那个喜欢怼天怼地教育一切的三姑真的不见了,如今的她,纵使流着泪,有着千言万语,神情亦然悲悯怆然。",
"似乎印证了她和强子的那句话,诸事“不可说”,也“不必说”。",
"似乎印证了她和强子的那句话,诸事“不可说”,也“不必说”。",
"人立于世,问心不问路。",
"心已经做出了选择,多说又有何益呢。",
"惆怅东栏一株雪,人生看得几清明。",
@ -64716,7 +64716,7 @@
"我泱泱的靠着沙发,“她好歹是袁穷的亲生女儿,当爹的自然要拼尽全力先给她弄出来了。”",
"只是他袁穷千算万算,算不到我会玩的这么绝。",
"汽车撞自己!",
"原身“当场死亡”",
"原身“当场死亡”",
"齐菲拍摄的照片当晚就发了出去,连钟思彤和警察叫嚣的小视频都一同发出。",
"此等独家大料一爆,第一时间就被推上了绝对热搜。",
"张溪儿屁股还没在警察局坐热乎,已经引起了全民公愤,掀起轩然大波。",

48
src/punctuation/sentence.py

@ -92,58 +92,10 @@ def symbolConvert(sentence: str) -> str: # similar symbol replacement
def sentenceType(content: list) -> tuple[list, list]: # analyze the type of all sentences
target = [
'“➕”➕“➕”➕,“➕”➕“➕”➕。',
'“➕”➕。',
'“➕”➕,➕“➕”➕。',
'“➕,➕”',
'➕“➕”➕“➕”➕。',
'➕“➕”➕。',
'➕“➕”➕,“➕。”',
'➕“➕”➕,➕“➕”➕。',
'➕“➕”➕,➕……',
'➕“➕”、“➕”,➕……',
'➕“➕”。',
'➕“➕”!',
'➕“➕”,➕“➕”➕。',
'➕“➕”,➕。',
'➕“➕”?',
'➕“➕”?!',
'➕“➕。”',
'➕,“➕”➕“➕”➕。',
'➕,“➕”➕。',
'➕,“➕”,➕,“➕”。',
'➕,➕“➕”……',
'➕,➕“➕”➕“➕”➕。',
'➕,➕“➕”➕。',
'➕,➕“➕”➕,“➕”➕。',
'➕,➕“➕”➕,“➕……”',
'➕,➕“➕”➕,“➕。”',
'➕,➕“➕”➕,➕——',
'➕,➕“➕”➕,➕“➕”➕。',
'➕,➕“➕”。',
'➕,➕“➕”!',
'➕,➕“➕”,➕“➕”。',
'➕,➕“➕”,➕……',
'➕,➕“➕”,➕……➕。',
'➕,➕“➕”,➕。',
'➕,《➕》➕“➕”、“➕”,➕。',
]
resultSingle = set()
resultSequence = set()
for row in content:
sType = symbolConvert(removeDuplicate(abstract(row)))
if sType in target:
print(row)
if delimiter in sType:
resultSequence.add(sType)
else:

Loading…
Cancel
Save