Przejdź do treści

Algorytmika, rozpoznawanie wzorców i bioinformatyka

Instytut ma długą historię badań nad algorytmami tekstowymi, które koncentrują się wokół technik wyszukiwania wzorców, indeksowania i kompresji danych. W naturalny sposób prowadzą one do konkretnych zastosowań, takich jak np. analiza sekwencji DNA w bioinformatyce. Tematy z zakresu bioinformatyki obecnie badane w Instytucie obejmują:

  • skuteczne znajdowanie maksymalnych dokładnych dopasowań (MEM) w parach genomów,
  • kompresję danych bioinformatycznych,
  • przeszukiwanie pangenomu,
  • klasyfikację podtypów wirusów.

Użyte narzędzia algorytmiczne obejmują techniki przetwarzania tekstu i kompresji danych, a także głębokie uczenie dla klasyfikacji wirusów.

Podejmowane przez nas zagadnienia mają istotne znaczenie praktyczne i są aktywnie badane na świecie. Jednym z naszych osiągnięć jest algorytm znajdujący najdłuższe dopasowania dokładne (MEM, Maximum Exact Matches) metodą próbkowania dwóch genomów z użyciem kroków będących liczbami względnie pierwszymi (ang. coprimes), stąd nazwa naszego algorytmu, copMEM.

Treść (rozbudowana)
Wybrane publikacje

T. Kowalski, S. Grabowski. „PgRC: Pseudogenome based Read Compressor”, Bioinformatics, 2020. 36: 2082-2089. DOI link.

A. Fabijańska, S. Grabowski. „Viral Genome Deep Classifier”, IEEE Access, 2019. 7: 81297-81307. DOI link.

S. Deorowicz, A. Debudaj-Grabysz, A. Gudyś, S. Grabowski. „Whisper: read sorting allows robust mapping of DNA sequencing data”, Bioinformatics, 2019. 35: 2043-2050. DOI link.

S. Grabowski, W. Bieniecki. „copMEM: Finding maximal exact matches via sampling both genomes”. Bioinformatics, 2019. 35: 677–678. DOI link.

 A. Cisłak, S. Grabowski and J. Holub. „SOPanG: online text searching over a pan-genome”. Bioinformatics, 2018. 34: 4290-4292. DOI link.

T. Kowalski and S. Grabowski. „Faster range minimum queries”. Software Pract. Exper., 2018. 48: 2043-2060. DOI link.

0
Granty / projekty

Inżynieria algorytmiczna dla indeksów pełnotekstowych, projekt NCN, S. Grabowski (kierownik), T. Kowalski, 2014-2017.

Wydajne pamięciowo algorytmy przetwarzania i analizy danych sekwencjonowania genomu, projekt NCN, S. Grabowski (kierownik), 2013-2015.

0