在python中使用NLTK标记文本
给定一个字符序列和一个定义的文档单元,令牌化就是将其切成碎片(称为令牌)的任务,也许同时丢掉某些字符(例如标点符号)。在nltk和python的上下文中,这仅仅是将每个标记放入列表的过程,因此我们可以遍历一个标记,而不是一次遍历每个字母。
例如,给定输入字符串-
Hi man, how have you been?
我们应该得到输出-
['Hi', 'man', ',', 'how', 'have', 'you', 'been', '?']
我们可以使用NLTK中的word_tokenize方法对此文本进行标记。例如,
示例
from nltk.corpus import stopwords from nltk.tokenize import word_tokenize my_sent = "Hi man, how have you been?" tokens = word_tokenize(my_sent) print(tokens)
输出结果
这将给出输出-
['Hi', 'man', ',', 'how', 'have', 'you', 'been', '?']
热门推荐
5 短祝福语简短暖心
10 结婚祝福语粤语大全简短
11 晚上祝福语女生文案简短
12 法语妈妈生日祝福语简短
13 药厂开工祝福语大全简短
14 蛋糕节日祝福语简短英文
15 跨年的生日祝福语简短
16 文案祝福语英文短句简短
17 在家聚餐婚礼祝福语简短
18 学生节祝福语大全简短