python中用正则表达式去掉文本中所有的标点符号

目前的做法是：

line=re.sub(r'[{}]+'.format(punctuation),'',line)
但是这样不能够将标点符号去除完全，比如python’s中的“ ’ ”就不能被去掉，请问该怎么做？

举报该问题

推荐答案推荐于2017-12-16

我的理解是 python’s的“ ’ ”也是字符，和标点符号一样。你只要把去除的字符都加到正则表达式的括号中就可以了。，所以：

import re

r='[’!"#$%&\'()*+,-./:;<=>?@[\\]^_`{|}~]+'

line=re.sub(r,'',"python’s")

print line

温馨提示：答案为网友推荐，仅供参考

当前网址：http://99.wendadaohang.com/zd/WOztj7eOXBvevvWjvvt.html

其他回答

第1个回答 2018-03-31

先定义变量 punctuation，其内容应该是所有的标点符号。

例如：import repunctuation def removePunctuation...

Python是一种面向对象、直译式计算机程序设计语言，由荷兰人Guido van Rossum发明于1989年，1991年发行第一个公开发行版。它常被昵称为胶水语言，它能够很轻松的把用其他语言制作的各种模块（尤其是C/C++）轻松地联结在一起。

Python是纯粹的自由软件，源代码和解释器CPython遵循 GPL协议。语法简洁清晰，特色之一是强制用空白符作为语句缩进。名字来源于一个喜剧，最初设计Python这种语言的人并没有想到Python会在工业和科研上获得如此广泛的使用。

本回答被网友采纳

第2个回答 2015-01-04

line.translate(None,punctuation)

追问

报错：
translate() takes exactly one argument (2 given)

追答

python啥版本。。line是string？

看文档https://docs.python.org/2/library/stdtypes.html#str.translate

unicode 真麻烦。。上了次stackoverflow才找到。。。

import unicodedata
import sys

tbl = dict.fromkeys(i for i in xrange(sys.maxunicode)
                      if unicodedata.category(unichr(i)).startswith('P'))
def remove_punctuation(text):
    return text.translate(tbl)


#你爽了直接 remove_punctuation(line)
#或者屌屌的这样：
import regex as re

def remove_punctuation(text):
    return re.sub(ur"\p{P}+", "", text)

本回答被提问者采纳

相似回答

大家正在搜