From ae7565f145bc4b11b077933d2b453e20fee5059d Mon Sep 17 00:00:00 2001 From: Dnomd343 Date: Wed, 15 Mar 2023 18:11:34 +0800 Subject: [PATCH] fix: punctuation marks --- release/rc-5.json | 14 +++++------ src/punctuation/sentence.py | 48 ------------------------------------- 2 files changed, 7 insertions(+), 55 deletions(-) diff --git a/release/rc-5.json b/release/rc-5.json index c8a6549..2a3658d 100644 --- a/release/rc-5.json +++ b/release/rc-5.json @@ -23878,7 +23878,7 @@ "周子恒把手机递给我,“有挺多网友私下保存过,他这长相特招小姑娘喜欢。”", "我看过去,的确是偷拍的,距离略远,但五官能看清,短发,大眼睛,细挺的鼻梁,薄厚适中的唇,真是一张男女通杀的脸,作为男人,阴柔秀气,若是说成女人,又英气飒爽,看着看着,我逐渐睁大眼,诧异自己怎么会有将他作为看待女人的想法,他明明穿着的也是男装啊。", "照片不自觉的放大,青龙青龙……", - "神话中有说龙并没有雌雄之分,龙只有雄性,称为阳龙,但青龙的早期形象与应龙相似,生有羽翼,应龙记录的性别却是女,《云笈七签》称其为“天之后妃”、“女王星”,子孙包括盘古、凤凰、建马、麒麟,鸾鸟,一切飞禽走兽。", + "神话中有说龙并没有雌雄之分,龙只有雄性,称为阳龙,但青龙的早期形象与应龙相似,生有羽翼,应龙记录的性别却是女,《云笈七签》称其为‘天之后妃’、‘女王星’,子孙包括盘古、凤凰、建马、麒麟,鸾鸟,一切飞禽走兽。", "所以应龙是传统神话中的龙族祖先,青龙是道教神话中的龙族祖先。", "我嘶了口气,入道者起点最高的青龙,必然阴阳平衡,天生阴阳,天生阴阳……", "‘啪!’", @@ -40147,7 +40147,7 @@ "可是成琛呢?", "他就这么死了吗?", "“三姑,能做夫妻的人,是不是都要有很深的缘分……”", - "“一日夫妻,百世姻缘”", + "“一日夫妻,百世姻缘。”", "三姑温和的安慰着我,“万物缘生,皆是缘分。”", "那我和成琛的姻缘呢?", "因为不甘心没有等到他,我才要再次和他相恋一场,终归是……", @@ -57518,7 +57518,7 @@ "袁穷那境界根本就属于无敌了,并非我成长太慢,而是摊上了袁穷这货,人家明摆着告诉你,甭管你怎么打怪升级,我都是你不可逾越的高山。", "那对我来说,横竖都是死,留给我的时间又所剩无几,就往前冲呗!", "天色渐渐地暗沉,我陆续发出短信,告诉三姑找个理由将家人带去庙堂住两个月。", - "头疼的是不知家人会不会配合,不过三姑很干脆,给我回了一个“好”字。", + "头疼的是不知家人会不会配合,不过三姑很干脆,给我回了一个‘好’字。", "意思是她心中有数,会全部搞定,很给我托底。", "剩下的就是雪乔哥,以及曾经受到我波及的岚岚姐。", "我给岚岚姐去了通电话,她正好在外地出差,要忙一个月,见状我就闲聊了几句,没多打扰。", @@ -61160,7 +61160,7 @@ "我奉陪!", "拿过手机我给三姑去了一条信息。", "最近一段时间家人无论如何都不要离开庙宇,电视新闻也不要去看,以免徒增烦恼。", - "三姑简单回了我一个“好”字。", + "三姑简单回了我一个‘好’字。", "我拨出了季楚芸的号码,从她手中要来了廖时薇的私人联络方式。", "尝试着给她发了条信息,廖时薇竟然很快就回我,‘沈小姐,你找我什么事?’", "看来廖时薇对我印象还很深刻。", @@ -61366,7 +61366,7 @@ "下面的空白处还打印记录着徐絮儿的成长经历。", "奇怪的是下面还有一行钢笔字——", "“以接触,百分之六十,没有再度关注。”", - "字体我很熟悉,是成琛的,写的“以接触”是什么意思?", + "字体我很熟悉,是成琛的,写的‘以接触’是什么意思?", "翻开下一页,是个陌生女孩儿的名字简历,出生年月日一类的东西,成长经历。", "最下面成琛留的钢笔字是,“宴会上没有关注,不在意,排除。”", "什么宴会?", @@ -63922,7 +63922,7 @@ "三姑细致的帮我戴好手套,拍了拍我的手背,擦了擦泪,推门便下了车。", "我坐在车里看了她一会儿,启动车子离开了庙宇。", "三姑在原地站了很久很久,倒车镜里的她最后成为了一个小点儿,我恍然间才发现,三姑真的很老了,她穿着居士服,瘦瘦小小,头发全白,记忆中那个喜欢怼天怼地教育一切的三姑真的不见了,如今的她,纵使流着泪,有着千言万语,神情亦然悲悯怆然。", - "似乎印证了她和强子的那句话,诸事,“不可说”,也,“不必说”。", + "似乎印证了她和强子的那句话,诸事“不可说”,也“不必说”。", "人立于世,问心不问路。", "心已经做出了选择,多说又有何益呢。", "惆怅东栏一株雪,人生看得几清明。", @@ -64716,7 +64716,7 @@ "我泱泱的靠着沙发,“她好歹是袁穷的亲生女儿,当爹的自然要拼尽全力先给她弄出来了。”", "只是他袁穷千算万算,算不到我会玩的这么绝。", "汽车撞自己!", - "原身“当场死亡。”", + "原身“当场死亡”。", "齐菲拍摄的照片当晚就发了出去,连钟思彤和警察叫嚣的小视频都一同发出。", "此等独家大料一爆,第一时间就被推上了绝对热搜。", "张溪儿屁股还没在警察局坐热乎,已经引起了全民公愤,掀起轩然大波。", diff --git a/src/punctuation/sentence.py b/src/punctuation/sentence.py index 14eb80d..bd22aef 100755 --- a/src/punctuation/sentence.py +++ b/src/punctuation/sentence.py @@ -92,58 +92,10 @@ def symbolConvert(sentence: str) -> str: # similar symbol replacement def sentenceType(content: list) -> tuple[list, list]: # analyze the type of all sentences - - target = [ - '“➕”➕“➕”➕,“➕”➕“➕”➕。', - '“➕”➕。', - '“➕”➕,➕“➕”➕。', - - '“➕,➕”', - - '➕“➕”➕“➕”➕。', - '➕“➕”➕。', - '➕“➕”➕,“➕。”', - '➕“➕”➕,➕“➕”➕。', - '➕“➕”➕,➕……', - '➕“➕”、“➕”,➕……', - '➕“➕”。', - '➕“➕”!', - '➕“➕”,➕“➕”➕。', - '➕“➕”,➕。', - '➕“➕”?', - '➕“➕”?!', - '➕“➕。”', - - '➕,“➕”➕“➕”➕。', - '➕,“➕”➕。', - '➕,“➕”,➕,“➕”。', - - '➕,➕“➕”……', - '➕,➕“➕”➕“➕”➕。', - '➕,➕“➕”➕。', - '➕,➕“➕”➕,“➕”➕。', - '➕,➕“➕”➕,“➕……”', - '➕,➕“➕”➕,“➕。”', - '➕,➕“➕”➕,➕——', - '➕,➕“➕”➕,➕“➕”➕。', - '➕,➕“➕”。', - '➕,➕“➕”!', - '➕,➕“➕”,➕“➕”。', - '➕,➕“➕”,➕……', - '➕,➕“➕”,➕……➕。', - '➕,➕“➕”,➕。', - - '➕,《➕》➕“➕”、“➕”,➕。', - ] - resultSingle = set() resultSequence = set() for row in content: sType = symbolConvert(removeDuplicate(abstract(row))) - - if sType in target: - print(row) - if delimiter in sType: resultSequence.add(sType) else: