<blockquote id="mi59j"></blockquote>

    1. 午夜福利电影一区二区三区_中文字幕日本免费视片_亚洲精品中文字幕午夜_四虎国产精品亚洲永久免费

      首頁

      客服
      返回頂部
      技術(shù)展示 NEWS

      搜索引擎知識-中文分詞技術(shù)

      72009-2
      2009-2-7瀏覽:

      中文分詞是將一句話或一個短語按照日常閱讀習(xí)慣進行機械分解。英文是以詞為單位的,詞和詞之間是靠空格隔開,而中文是以字為單位,句子中所有的字連起來才能描述一個意思。例如,我很喜歡搜索引擎,分詞的結(jié)果是:我|很喜歡|搜索引擎。把中文的漢字序列切分成有意義的詞,就是中文分詞,有些人也稱為切詞。

        中文每個字都可以直接作為一個詞來使用,沒有斷詞,正因為此它才多變。雖然多變,但是在表達上靈活。但是對于搜索引擎來說這是非常難以解決的問題。在中文分詞當(dāng)中,有三種難分類型。

        1、交集型歧義

        假設(shè)“ABC”是一個由A、B、C三個漢字構(gòu)成的字串,如果 “AB”、“BC”都是詞,那么計算機在切分時可以把“ABC”切分為“AB/C”,也可以切分為“A/BC”。這種切分歧義稱為交集型歧義。
        2、組合型歧義

        如果“AB”是詞、“ABC”也是詞,那么產(chǎn)生的切分歧義稱為組合型歧義。

        3、混和型歧義

        混和型歧義是包含交集型歧義和組合型歧義的切分歧義。

        目前解決這些問題主要通過字典和統(tǒng)計學(xué)的方法。

        首先我們先說說字典分詞法。字典一般采用前綴樹和后綴樹的數(shù)據(jù)存儲結(jié)構(gòu)。什么是前綴樹呢?其實就是我們把一個句子從左向右掃描一遍,遇到字典里有的詞就標(biāo)識出來,遇到復(fù)合詞就找最長的詞匹配,遇到不認(rèn)識的字串就分割成單字詞,于是簡單的分詞就完成了。后綴樹就是從右向左掃描一遍。

        統(tǒng)計學(xué)的方法,雖然字典分詞已經(jīng)解決了很多分詞上出現(xiàn)的問題。但是面對很多新出的詞匯,分詞也面臨著挑戰(zhàn)。統(tǒng)計學(xué)的分詞方式是基于概念和信息學(xué)方面的知識進行處理;驹砭褪菍ふ夷切┙(jīng)常一同出現(xiàn)的字,總是相互的字很有可能構(gòu)成一個詞。為此需要分析大量內(nèi)容。即使到現(xiàn)在中文分詞還在不斷發(fā)展,還沒有一個分詞方法能徹底解決一切問題。

        對中文分詞有興趣的讀者,可以閱讀以下文獻:

      1. 梁南元
      書面漢語自動分詞系統(tǒng)
      http://www.touchwrite.com/demo/LiangNanyuan-JCIP-1987.pdf
      2. 郭進
      統(tǒng)計語言模型和漢語音字轉(zhuǎn)換的一些新結(jié)果
      http://www.touchwrite.com/demo/GuoJin-JCIP-1993.pdf
      3. 郭進
      Critical Tokenization and its Properties
      http://acl.ldc.upenn.edu/J/J97/J97-4004.pdf
      4. 孫茂松
      Chinese word segmentation without using lexicon and hand-crafted training data
      http://portal.acm.org/citation.cfm?coll=GUIDE&dl=GUIDE&id=980775

      午夜福利电影一区二区三区_中文字幕日本免费视片_亚洲精品中文字幕午夜_四虎国产精品亚洲永久免费

      <blockquote id="mi59j"></blockquote>

        1. 延边| 丹巴县| 都安| 龙里县| 德格县| 垦利县| 湄潭县| 通海县| 井陉县| 阿克苏市| 德安县| 蓬莱市| 松原市| 建宁县| 方城县| 永登县| 博野县| 涟源市| 从化市| 云和县| 肥东县| 忻州市| 遂平县| 安陆市| 孝昌县| 疏附县| 荆州市| 平南县| 扶风县| 岐山县| 桂林市| 吉林市| 元阳县| 肇庆市| 昔阳县| 延边| 玉林市| 泰来县| 贵德县| 温宿县| 云和县|