Instytut ma długą historię badań nad algorytmami tekstowymi, które koncentrują się wokół technik wyszukiwania wzorców, indeksowania i kompresji danych. W naturalny sposób prowadzą one do konkretnych zastosowań, takich jak np. analiza sekwencji DNA w bioinformatyce. Tematy z zakresu bioinformatyki obecnie badane w Instytucie obejmują:
- skuteczne znajdowanie maksymalnych dokładnych dopasowań (MEM) w parach genomów,
- kompresję danych bioinformatycznych,
- przeszukiwanie pangenomu,
- klasyfikację podtypów wirusów.
Użyte narzędzia algorytmiczne obejmują techniki przetwarzania tekstu i kompresji danych, a także głębokie uczenie dla klasyfikacji wirusów.
Podejmowane przez nas zagadnienia mają istotne znaczenie praktyczne i są aktywnie badane na świecie. Jednym z naszych osiągnięć jest algorytm znajdujący najdłuższe dopasowania dokładne (MEM, Maximum Exact Matches) metodą próbkowania dwóch genomów z użyciem kroków będących liczbami względnie pierwszymi (ang. coprimes), stąd nazwa naszego algorytmu, copMEM.
T. Kowalski, S. Grabowski. „PgRC: Pseudogenome based Read Compressor”, Bioinformatics, 2020. 36: 2082-2089. DOI link.
A. Fabijańska, S. Grabowski. „Viral Genome Deep Classifier”, IEEE Access, 2019. 7: 81297-81307. DOI link.
S. Deorowicz, A. Debudaj-Grabysz, A. Gudyś, S. Grabowski. „Whisper: read sorting allows robust mapping of DNA sequencing data”, Bioinformatics, 2019. 35: 2043-2050. DOI link.
S. Grabowski, W. Bieniecki. „copMEM: Finding maximal exact matches via sampling both genomes”. Bioinformatics, 2019. 35: 677–678. DOI link.
A. Cisłak, S. Grabowski and J. Holub. „SOPanG: online text searching over a pan-genome”. Bioinformatics, 2018. 34: 4290-4292. DOI link.
T. Kowalski and S. Grabowski. „Faster range minimum queries”. Software Pract. Exper., 2018. 48: 2043-2060. DOI link.
Inżynieria algorytmiczna dla indeksów pełnotekstowych, projekt NCN, S. Grabowski (kierownik), T. Kowalski, 2014-2017.
Wydajne pamięciowo algorytmy przetwarzania i analizy danych sekwencjonowania genomu, projekt NCN, S. Grabowski (kierownik), 2013-2015.