国产v综合v亚洲欧美大,新金梅瓶2国语完整版,欠久久久精品无码av专区首页

技術展示 NEWS

搜索引擎知識-中文分詞技術

72009-2

2009-2-7瀏覽：次

中文分詞是將一句話或一個短語按照日常閱讀習慣進行機械分解。英文是以詞為單位的，詞和詞之間是靠空格隔開，而中文是以字為單位，句子中所有的字連起來才能描述一個意思。例如，我很喜歡搜索引擎，分詞的結果是：我|很喜歡|搜索引擎。把中文的漢字序列切分成有意義的詞，就是中文分詞，有些人也稱為切詞。

　　中文每個字都可以直接作為一個詞來使用，沒有斷詞，正因為此它才多變。雖然多變，但是在表達上靈活。但是對于搜索引擎來說這是非常難以解決的問題。在中文分詞當中，有三種難分類型。

　　1、交集型歧義

　　假設“ABC”是一個由A、B、C三個漢字構成的字串，如果 “AB”、“BC”都是詞，那么計算機在切分時可以把“ABC”切分為“AB/C”，也可以切分為“A/BC”。這種切分歧義稱為交集型歧義。
　　2、組合型歧義

　　如果“AB”是詞、“ABC”也是詞，那么產生的切分歧義稱為組合型歧義。

　　3、混和型歧義

　　混和型歧義是包含交集型歧義和組合型歧義的切分歧義。

　　目前解決這些問題主要通過字典和統(tǒng)計學的方法。

　　首先我們先說說字典分詞法。字典一般采用前綴樹和后綴樹的數據存儲結構。什么是前綴樹呢？其實就是我們把一個句子從左向右掃描一遍，遇到字典里有的詞就標識出來，遇到復合詞就找最長的詞匹配，遇到不認識的字串就分割成單字詞，于是簡單的分詞就完成了。后綴樹就是從右向左掃描一遍。

　　統(tǒng)計學的方法，雖然字典分詞已經解決了很多分詞上出現的問題。但是面對很多新出的詞匯，分詞也面臨著挑戰(zhàn)。統(tǒng)計學的分詞方式是基于概念和信息學方面的知識進行處理。基本原理就是尋找那些經常一同出現的字，總是相互的字很有可能構成一個詞。為此需要分析大量內容。即使到現在中文分詞還在不斷發(fā)展，還沒有一個分詞方法能徹底解決一切問題。

　　對中文分詞有興趣的讀者，可以閱讀以下文獻：

1. 梁南元
書面漢語自動分詞系統(tǒng)
http://www.touchwrite.com/demo/LiangNanyuan-JCIP-1987.pdf
2. 郭進
統(tǒng)計語言模型和漢語音字轉換的一些新結果
http://www.touchwrite.com/demo/GuoJin-JCIP-1993.pdf
3. 郭進
Critical Tokenization and its Properties
http://acl.ldc.upenn.edu/J/J97/J97-4004.pdf
4. 孫茂松
Chinese word segmentation without using lexicon and hand-crafted training data
http://portal.acm.org/citation.cfm?coll=GUIDE&dl=GUIDE&id=980775