科學(xué)家解碼了越來(lái)越多的基因組,但對(duì)遺傳學(xué)家或研究人員來(lái)說(shuō),尋找有機(jī)體的共享基因組是一件十分艱巨的任務(wù)——因?yàn)橐獙?duì)比的DNA字母難以計(jì)數(shù)。如何快速搜索巨大的生物信息學(xué)數(shù)據(jù)庫(kù)?多數(shù)研究人員使用的是BLAST或FASTA算法,它們本質(zhì)上逐一比較每個(gè)基因組?,F(xiàn)在中國(guó)第三大搜索引擎、騰訊旗下搜搜(SOSO.com)的一位計(jì)算機(jī)科學(xué)家王亮(Wang Liang)提出應(yīng)用中文索引算法去檢索生物信息。
王亮指出,中文的每個(gè)字之間沒(méi)有留下間隔,因此索引中文文檔的一種方法是將文本分解成N個(gè)片段(n-grams),N代表字?jǐn)?shù),1-grams表示一個(gè)漢字,2-grams表示兩個(gè)漢字,3-grams表示三個(gè)漢字,一些中文搜索引擎就只索引2-grams。王亮稱(chēng),DNA序列的統(tǒng)計(jì)分布應(yīng)該遵循齊夫定律(Zipf's law)。齊夫定律是指一個(gè)單詞出現(xiàn)的頻率與它在頻率表里的排名成反比,頻率最高的單詞出現(xiàn)的頻率大約是出現(xiàn)頻率第二位的單詞的2倍,而出現(xiàn)頻率第二位的單詞則是出現(xiàn)頻率第四位的單詞的2倍。王亮應(yīng)用同樣標(biāo)準(zhǔn)去尋找擬南芥、曲霉、果蠅和老鼠的基因組字母平均長(zhǎng)度,他發(fā)現(xiàn)平均長(zhǎng)度為12個(gè)字母,因此用12-gram索引基因組數(shù)據(jù)也許最優(yōu)。
