构建将数据维数降低、利于进一步处理、可视化和理解信息的数学模型,已成为各科学领域面对的一个共同问题。该问题在人工智能和机器学习领域也被称为特征选择,是一个根据一定的评估准则最优地从初始高维特征集合中选出低维特征集合的过程。我们将介绍我们针对生物医学数据的一些进展,提出一个同时最大化数据解释能力和最小化特征数目的多目标优化模型,进一步将该问题转化为单目标优化,松弛优化变量用线性规划来近似整数规划获得高效的求解算法. 并将以生物标记物识别、癌症驱动基因和调控关键分子为例介绍几个具体应用。
Ref:
1. ELF: Extract Landmark Features by optimizing topology maintenance, redundancy, and specificity.Feng, Zhanying; Wang, Yong. IEEE Transaction on Bioinformatics and Computational Biology, in press, 2018.
2. NCC-AUC: an AUC optimization method to identify multi-biomarker panel for cancer prognosis from genomic and clinical data. Zou, Meng; Liu, Zhaoqi; Zhang, Xiang-Sun; Wang, Yong. Bioinformatics 31 (20), 3330-3338 (2015).
3. A novel mixed integer programming for multi-biomarker panel identification by distinguishing malignant from benign colorectal tumors.Zou, Meng; Zhang, Peng-Jun; Wen, Xin-Yu; Chen, Luonan; Tian, Ya-Ping; Wang, Yong. Methods. 83: 3-17 (2015).