本發(fā)明公開了一種基于雙向長短記憶模型的藥物小分子活性預測的方法,包括:獲取數(shù)據(jù)集;對所述數(shù)據(jù)集進行預處理,包括將所述數(shù)據(jù)集中的所有化合物分子用SMILES表示,對所有分子的SMILES表達式做標準化處理,統(tǒng)一分子SMILES表達式中的原子、鍵、連接關系的編碼方式和順序,利用分子的InChIKey,進行去重復化處理;對預處理的數(shù)據(jù)集進行編碼,其中通過獨熱編碼對SMILES序列的單個元素、單個數(shù)字、單個符號以及整個方括號看作一個序列令牌,每個令牌本身具有化學意義和指向性,任何令牌的組合符合化學規(guī)則;構(gòu)建雙向長短記憶核心片段識別模型;將編碼數(shù)據(jù)輸入所述雙向長短記憶核心片段識別模型,得到隱藏狀態(tài)矩;以及對上述雙向長短記憶核心片段識別模型進行評估。
聲明:
“基于雙向長短記憶模型的藥物小分子活性預測的方法和系統(tǒng)” 該技術專利(論文)所有權利歸屬于技術(論文)所有人。僅供學習研究,如用于商業(yè)用途,請聯(lián)系該技術所有人。
我是此專利(論文)的發(fā)明人(作者)