当先锋百科网
首页
1
2
3
4
5
6
7
【python】pytorch包(第五章)RNN循环神经网络 【待填坑】
一、 文本处理
1. tokenization 中英文分词
概念解释
即将完整的一句话 按照一个短语一个短语的进行断句
如 “我爱学习” --> “我” “爱” “学习”
也可以按单个字分词。
常用工具
jieba
分词
清华大学的分词工具
THULAC