Las expresiones regulares (regex) son una herramienta muy poderosa que sirve para cadenas de caracteres específicas dentro de textos más grandes.
Vamos a utilizarlas tanto en R como en tareas que tengamos que hacer en la línea de comando de linux.
En esta página (http://regexstorm.net/tester) se puede introducir texto, una consulta regex y se resalta en el texto el resultado. es muy útil para practicar. Y aqui hay una lista completa de expresiones regulares; y en esta otra una lista más compacta
A continuación está el texto que vamos a usar en nuestra primera práctica con expresiones regulares, y luego algunas búsquedas que se deben hacer utilizando expresiones regulares.
ABD234.3 ubiquitin family protein. Similar to ABD1
ABD2567.2 transcription factor family XTT
ABD1.1 ubiquitin family protein
ABD2346.3 transcription factor family XTT
ABD328.4 hyphothetical protein similar to TRE25.4
ABD2345.6 two-pore potassium channel 1
ABD1245.7 ubiquitin family protein. Similar to ABD1
ABD4578.8 two-pore potassium channel 2
ABD23.3 transcription factor family RGT
ABC563.1 two-pore potassium channel A
CDM34.3 transcription factor family RGT
CDM2767.1 hyphothetical protein similar to TRE25.4
CDM1.123 hyphothetical protein similar to TRE25.4
CDM34.3 ubiquitin family protein. Similar to ABD1
CDM27.1 transcription factor family RGT
CDM1.2 two-pore potassium channel A
CDM3040.3 two-pore potassium channel B
CDM67.1 hypothetical protein
CDM201.1 translation initiation factor SUI1 family protein
CDM34.5ubiquitin family protein
CDM2.2 translation initiation factor SUI1 family protein
CDM1001.1 hypothetical protein
Consultas
Encontrar las anotaciones que se refieren a factores de transcripción
Encontrar todas las entradas que comienzan con ABD.
Encontrar las entradas que comienzan con ABC o ABD
Idem 3, pero además que estén seguidas por dos o tres números
Encontrar las anotaciones que mencionan a ABD.1
Encontrar las menciones a canales de potasio de tipo 2 o 3