国产高清AV,日本熟女视频

騰訊工程師提議用中文索引算法創(chuàng)建DNA搜索引擎

2015-02-06 行業(yè)研究

展示量: 3463

　　科學(xué)家解碼了越來(lái)越多的基因組，但對(duì)遺傳學(xué)家或研究人員來(lái)說(shuō)，尋找有機(jī)體的共享基因組是一件十分艱巨的任務(wù)——因?yàn)橐獙?duì)比的DNA字母難以計(jì)數(shù)。如何快速搜索巨大的生物信息學(xué)數(shù)據(jù)庫(kù)?多數(shù)研究人員使用的是BLAST或FASTA算法，它們本質(zhì)上逐一比較每個(gè)基因組?，F(xiàn)在中國(guó)第三大搜索引擎、騰訊旗下搜搜(SOSO.com)的一位計(jì)算機(jī)科學(xué)家王亮(Wang Liang)提出應(yīng)用中文索引算法去檢索生物信息。

　　王亮指出，中文的每個(gè)字之間沒(méi)有留下間隔，因此索引中文文檔的一種方法是將文本分解成N個(gè)片段(n-grams)，N代表字?jǐn)?shù)，1-grams表示一個(gè)漢字，2-grams表示兩個(gè)漢字，3-grams表示三個(gè)漢字，一些中文搜索引擎就只索引2-grams。王亮稱(chēng)，DNA序列的統(tǒng)計(jì)分布應(yīng)該遵循齊夫定律(Zipf's law)。齊夫定律是指一個(gè)單詞出現(xiàn)的頻率與它在頻率表里的排名成反比，頻率最高的單詞出現(xiàn)的頻率大約是出現(xiàn)頻率第二位的單詞的2倍，而出現(xiàn)頻率第二位的單詞則是出現(xiàn)頻率第四位的單詞的2倍。王亮應(yīng)用同樣標(biāo)準(zhǔn)去尋找擬南芥、曲霉、果蠅和老鼠的基因組字母平均長(zhǎng)度，他發(fā)現(xiàn)平均長(zhǎng)度為12個(gè)字母，因此用12-gram索引基因組數(shù)據(jù)也許最優(yōu)。

知名風(fēng)險(xiǎn)投資公司

創(chuàng)業(yè)聯(lián)合網(wǎng)是創(chuàng)業(yè)者和投資人的交流平臺(tái)。平臺(tái)擁有5000+名投資人入駐。幫助創(chuàng)業(yè)企業(yè)對(duì)接投資人和投資機(jī)構(gòu)，同時(shí)也是創(chuàng)業(yè)企業(yè)的媒體宣傳和交流合作平臺(tái)。

我想找投資人我想發(fā)布信息

精華文章

丝袜久久亚洲国产毛片,老人AV综合,国产精品日韩av,超碰国产综合,综合av在线草,毛片久久久,精品蜜桃一区三区,99久久久,人妻99在线视频