Implementation of virtual workflows in KNIME for medicinal chemistry

Jack Antonio DiTommaso

Abstract


This project demonstrates how two programs are created in KNIME - an open source data analytic, reporting and integration platform, are used to support research scientists in medicinal chemistry. The first application flags pan-assay interference compounds such as “promiscuous” compounds present in chemical libraries that recurrently behaves as false positive hits in screening campaigns. The second application adapted a previously published workflow, where it automatically scans the recently published scientific literature on a weekly basis, and identifies articles considered relevant to medicinal chemists focused on epigenetic mechanisms, a novel and promising field in drug discovery. These workflows are very important because they allow a user with relatively little training to be able to extract important data that would typically need a trained chemist for. The PAINS workflow performed adequately but data was problematic. This workflow and an online tool, used to compare results, agged different, but overlapping sets of compounds. The PubMed alert workflow performed very well, being able to consistently identify new papers. These workflows have been implemented at the Structural Genomics Consortium, in Toronto. Both Workflows are available at http://sgc.utoronto.ca/ditommaso.zip The implementation of these workflows demonstrate that the process is viable, and paves the way for the implementation of more complex workflows.

Ce projet montre comment deux logiciels qui ont été créés en utilisant KNIME - une plate-forme open-source d’intégration et de reportage de data analytique, sont utilisées comme soutient pour les chercheurs dans le domaine de chimie médicale. La première application signale les composés d’interférence pan-essai (PAINS), par exemples des composés ‘libérés’ présents dans les chimiothèques, qui s’agissent souvent comme des fausses réactions positives pendant les campagnes de dépistage. La deuxième application, le système de workflow PubMed alert, a adapté un système de workflow développé auparavant qui parcourt rapidement la littérature scientifique publiée récemment une fois par semaine et identifie des articles qui sont pertinents pour des chimistes médicales qui étudient des mécaniques épigénétiques, un domaine novateur et prometteur dans les découvertes des drogues. Ces systèmes de workflow sont très importants car ils permettent un utilisateur avec relativement peu d’entraînement à soutirer des données importantes qui ont typiquement besoin d’être trouvées par les chimistes entraînés. Le système de workflow de PAINS a fonctionné suffisamment mais les données trouvées étaient problématiques. Le système et un outil en ligne utilisé pour la comparaison des résultats ont signalés des résultats différents, mais les résultats se sont débordés sur les unes les autres. Nous avons trouvés que le système de workflow PubMed alert a très bien fonctionné, car le système pouvait constamment identifier des nouveaux papiers scientifiques. Ces systèmes de workflow sont maintenant implémentés au Consortium Génomique Structurel (SGC) à Toronto. Les deux systèmes de workflow sont disponibles à http://sgc.utoronto.ca/ditommaso.zip. L’implémentation de ces systèmes de workflow montre que le procès est viable et ouvre la voie pour l’implémention des systèmes de workflow plus complexes. 


Keywords


Cheminformatics; KNIME; PAINS; PubMed

Full Text:

PDF

References


KNIME | Open for Innovation. KNIME | Open for Innovation, https://www.knime.org/ (accessed Jan 2, 2016).

RDKit: Open-Source Cheminformatics Software. RDKit, http://www.rdkit.org/ (accessed Jan 2, 2016).

Baell, J.; Walters, M. A.; Introducing the PAINS. Nature. 2014, 513, 481-483.

Papadatos, G.; Westen, G. J. V.; Croset, S.; Santos, R.; Trubian, S.; Overington, J. P. A Document Classi er for Medicinal Chemistry Publications Trained on the ChEMBL Corpus. Journal of Cheminformatics. 2014, 6, 40.

Baell, J. B.; Holloway, G. A. New Substructure Filters For Removal of Pan Assay Interference Compounds (PAINS) from Screening Libraries and for Their Exclusion in Bioassays. J. Med. Chem. Journal of Medicinal Chemistry. 2010, 53, 2719– 2740.

Free Marvin Chemistry Extensions. KNIME, https:// www.knime.org/free-marvin-chemistry-extensions (accessed Jan 2, 2016).

Welcome to Python.org. Python.org, https://www. python.org/ (accessed Jan 2, 2016).

Entrez Programming Utilities Help. National Center for Biotechnology Information, http://www.ncbi.nlm. nih.gov/books/nbk25501/ (accessed Jan 2, 2016)

Wishart DS, Knox C, Guo AC, Shrivastava S, Hassanali M, Stothard P, Chang Z, Woolsey J. DrugBank: a comprehensive resource for in silico drug discovery and exploration. Nucleic Acids Res. 2006 Jan 1;34(Database issue):D668-72. 16381955.

Yang, J. SmartsFilter. SmartsFilter, http://pasilla. health.unm.edu/tomcat/biocomp/smartsfilter (accessed Jan 2, 2016).




DOI: https://doi.org/10.13034/jsst.v10i1.123

Refbacks

  • There are currently no refbacks.


Copyright (c) 2017 Journal of Student Science and Technology