Método de identificación de patrones con arreglos relacionales en secuencias de ADN

Víctor Ignacio Sobrevilla-Solís; Anilú Franco-Árcega; Luis Heriberto  Garcia-Islas; Esteban Rueda-Soriano; Virgilio López-Morales; Joel Suárez-Cansino

doi:10.29057/icbi.v10iEspecial3.8928

Autores/as

Víctor Ignacio Sobrevilla-Solís Universidad Autónoma del Estado de Hidalgo https://orcid.org/0000-0003-3920-3430
Anilú Franco-Árcega Universidad Autónoma del Estado de Hidalgo https://orcid.org/0000-0002-9415-8313
Luis Heriberto Garcia-Islas Universidad Autónoma del Estado de Hidalgo https://orcid.org/0000-0002-1483-2428
Esteban Rueda-Soriano Universidad Autónoma del Estado de Hidalgo https://orcid.org/0000-0002-5430-2536
Virgilio López-Morales Universidad Autónoma del Estado de Hidalgo https://orcid.org/0000-0003-2043-8766
Joel Suárez-Cansino Universidad Autónoma del Estado de Hidalgo https://orcid.org/0000-0002-8927-1135

DOI:

https://doi.org/10.29057/icbi.v10iEspecial3.8928

Palabras clave:

Minería de patrones secuenciales, patrones frecuentes contiguos, secuencias biológicas, secuencias de ADN, bioinformática

Resumen

Las secuencias biológicas contienen información importante de los organismos vivos. El análisis de estas secuencias pueden proporcionar información que ayudaría a los biólogos a un mejor entendimiento de estos organismos. El descubrimiento de patrones frecuentes en un grupo de secuencias de ADN se ha vuelto uno de los grandes retos en la aplicación de técnicas de minería de datos. Existe un considerable tiempo y esfuerzo empleado para obtener patrones frecuentes secuenciales cuando los métodos se basan en algoritmos Apriori, como GSP y KeySegment. Este trabajo propone el diseño de un método basado en mapeo de secuencias para aumentar la búsqueda de patrones frecuentes contiguos en un grupo de secuencias de ADN. El presente artículo muestra experimentos utilizando conjuntos de secuencias de ADN cuyas longitudes varían desde los 1000 hasta 5000 nucleótidos, obtenidas desde una base de datos biológica. Estos experimentos demostraron un algoritmo eficaz para la identificación de patrones frecuentes en secuencias de ADN comparado con otros algoritmos.

Descargas

Los datos de descargas todavía no están disponibles.

Citas

Aggarwal, C. and Han, J., (2014). Frequent Pattern Mining. Springer International.

Agrawal, R., y Srikant, R. (1995)., Mining sequential patterns. En Proceedings of the eleventh International Conference on Data Engineering (pp. 3–14). Washington, DC, USA: IEEE Computer Society

Bailey, T.L., (2008) Discovering Sequence Motifs, page 231–251. Humana Press.

D’haeseleer, P., (2006). What are DNA sequence motifs? Nature Biotechnology, 24(4):423–425.

Han, J., Pei, J., Mortazavi-Asl, B., Chen, Q., Dayal, U., y Hsu, M.-C., (2000). Freespan: frequent pattern-projected sequential pattern mining. In Proceedings of the Sixth ACM SIGKDD International Conference on Knowledge Discovery and Data Mining (pp. 355–359).

Mizrachi, I., (2016). Genbank: The nucleotide sequence database. consultado el 11-11-2021 desde http://www.ncbi.nlm.nih.gov/books/NBK21105/

Rocha, M., Ferreira, P.G., (2018). Bioinformatics Algorithms: Design and Implementation in Python. Elsevier.

Srikant, R., y Agrawal, R., (1996). Mining sequential patterns: Generalizations and performance improvements. En P. Apers, M. Bouzeghoub, y G. Gardarin (Eds.), Advances in database technology (pp. 1–17). Berlin, Heidelberg: Springer Berlin Heidelberg.

Starr, C., Evers, C.A., Starr, L., (2011). Biología: Conceptos y Aplicaciones. Cengage Learning.