↧
中文分词入门之字标注法1
在《自然语言处理领域的两种创新观念》中,张俊林博士谈了两种创新模式:一种创新是研究模式的颠覆,另外一种创新是应用创新,前者需要NLP领域出现爱因斯坦式的革新人物,后者则是强调用同样的核心技术做不一样的应用。...
View Article中文分词入门之字标注法2
虽然基于字标注的中文分词借鉴了词性标注的思想,但是在实践中,多数paper中的方法似乎局限于最大熵模型和条件随机场的应用,所以我常常疑惑字标注中文分词方法为什么不采用别的模型和方法呢?莫非是由于其诞生之初就采用了最大熵模型的缘故。但是,在词性标注中,Citar实现的是TnT中所采用的HMM...
View Article中文分词入门之最大匹配法扩展2
在进入正题之前,还是先说两句篇外话,上一篇《中文分词入门之篇外》中说到了solol提供了Java版的mmseg,相似的,python版mmseg的作者fakechris也在这里留了言: 你好,我是pychseg的作者,一直没时间加上download,大家check out源代码就可以用了。。。 我才发现在pychseg的”Source”页面下有一个通过命令行方式获取其代码方式: svn...
View Article用MeCab打造一套实用的中文分词系统
MeCab是一套日文分词(形态分析)和词性标注系统(Yet Another Part-of-Speech and Morphological Analyzer), rick曾经在这里分享过MeCab的官方文档中文翻译: 日文分词器 Mecab...
View Article