Fuentes: El presente texto se redactado con datos tomados de los siguientes documentos:
IEC 61508-6 Ed2.0 2010 “Functional safety of electrical/electronic/programable electronic safety-related systems” Part 6: Guidelines on application of IEC 61508-2 and IEC 61508-3
“Manual de seguridad de procesos 1” ROCKWELL AUTOMATION© 2013
“Sistema Instrumentado de seguridad” ESCOLA TECNICA SUPERIOR ENGINYERIA. Departament d´Enginyeria Electronica Electrica i Automatica. Xavier Galindo Diez. 2012
Tolerancia a fallas de hardware (HFT). Selección de arquitecturas
Un sistema tolerante a fallas es aquel que es capaz de continuar operando en función de una o más fallas peligrosas del hardware. La técnica utilidad para conseguir un sistema tolerante a fallas es la redundancia de hardware con un sistema de votación por mayoría. Esta redundancia es lo que define la arquitectura del sistema, su selección se realiza durante la fase de diseño conceptual y tendrá un fuerte impacto sobre la seguridad del sistema.
Una vez que se ha establecido la fiabilidad de los componentes en relación al contexto y tiempo de funcionamiento, se debe evaluar la fiabilidad de un sistema o proceso. Abordaremos los cálculos de fiabilidad en los sistemas con arquitectura en serie, en paralelo y redundantes de carga compartida (M de N) (sistemas MooN).
Abordaremos además temas tales como fallas de causa común generalmente asociados a factores externos (vibración, temperatura, errores humanos) y fallas sistemáticas (errores de diseño).
RECOMENDACIONES:
HFT indica la capacidad que tiene un componente o subsistema de realizar su función de seguridad incluso bajo falla. Si HFT = N significa que N+1 fallas de hardware ocasionan la perdida de seguridad de una función de seguridad.
Sistemas seriales
Un diagrama de bloques de fiabilidad sirve para esquematizar un proceso desde el principio hasta el final. En el caso de un sistema serial, al subsistema 1 le sigue el subsistema 2, y así sucesivamente. En el sistema serial (fig. 25), la capacidad para utilizar el subsistema 2 depende del estado de funcionamiento del subsistema 1. Si el subsistema 1 no está en funcionamiento, el sistema está inactivo, independientemente de la condición del subsistema 2.
Para calcular la fiabilidad del sistema en el caso de un proceso serial, solo se debe multiplicar la fiabilidad aproximada del subsistema 1 en un tiempo (t) por la fiabilidad aproximada del subsistema 2 en un tiempo (t). La ecuación básica para calcular la fiabilidad del sistema en el caso de un sistema serial sencillo es:
Rs(t) = R1(t) . R2(t) . R3(t)
Donde: Rs(t) – Fiabilidad del sistema durante un tiempo (t);
Rn(t) – Fiabilidad del subsistema o de la subfuncion durante un tiempo (t)
Así, en el caso de un sistema sencillo con tres subsistemas o subfunciones, cada una de ellas con una fiabilidad aproximada de 0.90 (90%) en un tiempo (t), la fiabilidad del sistema se calcula del siguiente modo: 0.90 * 0.90 * 0.90 = 0.729%.
Sistemas en paralelo
A los efectos de incorporar redundancia en equipos que requieren alta seguridad, se diseñan los sistemas en paralelo (fig. 26). Estos sistemas pueden ser: sistemas en paralelo activos o sistemas en espera.
Para calcular la fiabilidad de un sistema en paralelo activo, en el que ambas maquinas están en funcionamiento, utilice la siguiente ecuación:
Rs(t) = 1 – [ {1-R1(t)} * {1-R2(t)} ]
Donde: Rs(t) – Fiabilidad del sistema durante un tiempo (t);
Rn(t) – Fiabilidad del subsistema o de la subfuncion durante un tiempo (t)
Un sistema en paralelo simple, con dos componentes en paralelo (cada uno de ellos con una fiabilidad de 0.90% presenta una fiabilidad total del sistema de [1 – (0.1 * 0.1)] = 0.99. De este modo, la fiabilidad del sistema ha aumentado en gran medida.
Sistemas M de N (MooN)
Estos sistemas requieren que M unidades de una población total de N se encuentren disponibles para ser utilizados.
La arquitectura más sencilla se identifica como 1oo1, en ella cualquier falla peligrosa genera una falla de la función de seguridad.
La arquitectura 1oo2 consiste en dos canales conectados en paralelo, en los cuales cada uno puede realizar la función de seguridad. En esta arquitectura ambos canales deben fallar en forma peligrosa para que la función de seguridad falle en una demanda.
La arquitectura 2oo2 consiste en dos canales conectados en paralelo, ambos canales deben de demandar la función de seguridad para que esta se ejecute.
La arquitectura 2oo3 consiste en tres canales conectados en paralelo con un arreglo de votación a la salida, aquí el estado de las salidas no difiere si solo un canal muestra discrepancia con los otros dos canales.
Fallos peligrosos y seguros
Para que los cálculos relacionados con la fiabilidad resulten significativos, no solo nos preocupa la tasa de fallo del sistema, sino también como puede fallar el sistema, es decir, el modo de fallo.
Los modos de fallo pueden clasificarse como:
• Peligrosos: Un fallo peligroso de un componente en una función instrumentada de seguridad evita que la función alcance un estado seguro cuando se precise que así lo haga. La tasa de fallos peligrosos se representa mediante el símbolo: λD.
• Seguros: Un fallo seguro no tiene el potencial de poner el sistema instrumentado de seguridad en un estado peligroso o de fallo de funcionamiento, pero el fallo se produce de tal forma que el sistema debe apagarse o la función instrumentada de seguridad debe activarse cuando no hay ningún peligro presente. La tasa de fallos seguros se representa mediante el símbolo: λS.
• Fallas no relacionadas con la seguridad: No afectan la función de seguridad. Entre ellos pueden incluirse las funciones de mantenimiento, los elementos indicadores, los registros de datos y otras funciones no relacionadas (no RS) con la seguridad. La tasa de fallos no RS se representa mediante el símbolo: λno RS.
La tasa de fallo total de un elemento λ es igual a la suma de las tasas de fallo relacionadas y no relacionadas con la seguridad. Por lo general solamente se incluyen en los cálculos relacionados con la fiabilidad λD y λS.
λ = λD + λS + λno RS
Fallos detectados y no detectados
La probabilidad de falla bajo demanda (PFD) está relacionada con los fallos peligrosos que evitan que el sistema instrumentado de seguridad (SIS) funcione cuando se precise que así lo haga. Estos modos de fallo se clasifican como:
Fallos detectados: que se pueden detectar mediante un diagnóstico.
Fallos no detectados: que no se detectan excepto mediante pruebas de calidad manuales, que por lo general se llevan a cabo en forma espaciada temporalmente.
Se recomienda que los modos de fallo clasificados según la metodología FMECA como fallos detectados peligrosos se detecten como parte del diagnóstico y se verifiquen en la validación del software. Además, los procedimientos de la prueba de calidad deben garantizar que los modos de fallos no detectados peligrosos se descubran para garantizar que las pruebas de calidad resulten efectivas.
IMPORTANTE: De acuerdo con la norma IEC 61508-6, Anexo B.3.1, en el análisis se puede considerar que para cada función de seguridad existe una prueba de calidad y una reparación perfecta; es decir, que todos los fallos no detectados se descubren mediante una prueba de calidad.
Intervalo entre pruebas (TI) y tiempo improductivo medio (MDT)
Cuando se usa un sistema relacionado con la seguridad E/E/PE en el modo de baja demanda, el estándar requiere que se evalúe su PFDavg (es decir, su indisponibilidad promedio). Esta es simplemente la relación MDT (T) / T donde MDT (T) es el tiempo medio de inactividad durante el período [0, T] del sistema relacionado con la seguridad E/E/PE.
La suma de los tiempos de inactividad medios debido a cada conjunto de corte proporciona una estimación conservadora del tiempo medio de inactividad de todo el sistema. Del diagrama en bloques de fiabilidad de un bucle de seguridad completo, encontramos:
MDT ≈ MDT ABC + MDTD + MDT EF
La fórmula utilizada en todas las ecuaciones para PFD y la tasa de falla del sistema son todas en función de la tasa de falla del componente y el tiempo de inactividad promedio (MDT). Cuando hay una cantidad de elementos en el sistema y se requiere calcular la PFD total de los elementos combinados o la tasa de falla del sistema, a menudo es necesario usar un valor único para el MDT en las ecuaciones. Sin embargo, cada elemento puede tener diferentes mecanismos de detección de fallas con diferentes MDT y diferentes elementos pueden tener diferentes valores MDT para los mismos mecanismos de falla, en cuyo caso es necesario calcular un único valor para el MDT que pueda representar todos los elementos en el sistema.
Esto se puede lograr considerando la tasa total de fallas de las trayectorias totales y luego la proporción del equivalente MDT individual a su contribución de la tasa de fallas a la tasa de falla total bajo consideración.
Como ejemplo, si hay dos elementos en serie pero uno con un periodo de prueba, T1, y el otro con un periodo de prueba, T2, entonces el valor único equivalente para el MDT es:
MDTE = [(λ1/λT)(T1/2)] + [(λ2/λT)( T2/2)] donde: λT = λ1 + λ2
Realizando algunas consideraciones respecto de los tiempos, podemos encontrar que: si se produce un fallo, se presupone que en promedio ocurre en el punto intermedio del intervalo de prueba. En otras palabras, el fallo sigue sin detectarse durante el 50% del periodo de prueba.
Tanto en el caso de fallos detectados como de no detectados, el tiempo improductivo medio (MDT) depende del intervalo de prueba y del tiempo medio hasta la reparación (MTTR).
El tiempo improductivo medio (MDT) se calcula, por lo tanto, a partir de:
MDT = (intervalo de prueba / 2) + MTTR
En el caso de fallas detectadas, el tiempo improductivo medio (MDT) se aproxima, por lo tanto, al tiempo medio hasta la reparación, ya que el intervalo de prueba (autoprueba) es por lo general corto en comparación con el tiempo medio hasta la reparación (MTTR).
En el caso de fallas no detectadas, el tiempo de reparación es corto en comparación al intervalo de prueba (TI), por lo tanto, el tiempo improductivo medio (MDT) de este tipo de fallos se aproxima a TI/2.
Modelado de la tasa de fallo del sistema (λsys)
La tasa de fallo de un sistema redundante λsys, puede calcularse teniendo en cuenta las diferentes formas en que puede producirse el fallo del sistema. En un sistema 3oo4, se requiere el funcionamiento de 3 de los 4 canales para que el sistema funcione; por lo tanto, cada dos fallos se produce un fallo del sistema.
La tasa a la que se producen los dos fallos, λ2 se da por la tasa de fallo de un elemento λ, multiplicada por la probabilidad de que se produzca un segundo fallo durante el tiempo improductivo, el tiempo improductivo medio del primer fallo, λ * MDT.
Por tanto: λ2 = λ *( λ * MDT)
No obstante, existen 12 permutaciones (el orden es importante) de dos fallos en un sistema 3oo4: A.B, A.C, A.D, B.C, B.D, C.D, B.A, C.A, D.A, C.B, D.B, D.C y deben tenerse en cuenta todas ellas. La tasa de fallo del sistema se convierte, por lo tanto, en aproximadamente:
λSYS = 12 * λ2 * MDT
Para ser exactos se debería incluir las fallas de causa común; no obstante, como aproximación de primer orden, obviaremos estos términos de orden superior y se presenta la tasa de fallo para varios tipos de arquitecturas.
Modelado de tasas de fallos peligrosos detectados (λDD) y no detectados (λDU)
Al sustituir λDD y λDU, por λ en la Tabla anterior, y al utilizar el intervalo de tiempo entre pruebas (TI/2) puede derivarse la tasa de fallo del sistema a causa de fallos peligrosos detectados o no detectados.
Modelado de disponibilidad de sistemas de seguridad en el modo a demanda
En el caso de un sistema de seguridad, la disponibilidad debida a fallos peligrosos detectados (ADD), se calcula:
ADD = 1 / (1 + λDD(SYS) * MDT)
λDD(SYS) es la tasa de fallo del sistema como resultado de los fallos peligrosos detectados.
En el caso de fallos peligrosos no detectados, la ADU se calcula:
ADU = 1 / (1 + λDU(SYS) * TI/2)
λDU(SYS) es la tasa de fallo del sistema como resultado de los fallos peligrosos no detectados .
En el caso de fallos seguros, AS se calcula:
AS = 1/(1 + λS(SYS) * MDT)
λS(SYS) es la tasa de fallo del sistema como resultado de fallos erróneos (seguros).
La disponibilidad del sistema es, por lo tanto, producto de las disponibilidades debidas a fallos peligrosos detectados, fallos peligrosos no detectados y fallos seguros:
ASYS = ADD * ADU * AS
Este método puede utilizarse para modelar sistemas seriales y también sistemas redundantes.
Modelado de disponibilidad de sistemas de seguridad en modo continuo
Cuando se aplica el método a sistemas de seguridad en modo continuo, se debe comprender la naturaleza de las demandas a la que está sometida la función de seguridad. Ciertas funciones de seguridad en modo continuo funcionan a demanda, pero se clasifican como en modo continuo debido a la frecuencia de la demanda (por ejemplo, superior a una vez al año). En este caso, la disponibilidad puede calcularse al igual que para una función de seguridad en modo a demanda, excepto que el intervalo de prueba de calidad (TI) debe sustituirse por el intervalo de demanda (TD). Los fallos peligrosos no detectados no se descubren sino hasta que la función de seguridad se somete a una demanda.
Cuando la función de seguridad en modo continuo proporciona control continuo de forma eficaz, la disponibilidad puede calcularse como si se tratase de un sistema de control.
En estos casos, nos preocupan los fallos que afectan el proceso y debemos decidir si un fallo afecta al proceso hasta tal punto que el sistema de control se encuentra efectivamente no disponible.
La detección de un fallo se lleva a cabo ya sea mediante diagnóstico y alarmas de fallo, en cuyo caso se precisa una reparación y el sistema no está disponible sino hasta que se restaure, o mediante síntomas, en cuyo caso el proceso bajo control funciona fuera de los límites de los puntos de ajuste.
Los fallos que no se detectan no tienen como consecuencia inmediata que el sistema de control se encuentre no disponible. Con el tiempo, el fallo no detectado puede tener como consecuencia la desviación de los límites específicos para los parámetros de proceso y, en dicho punto, se descubre y se traduce en una falta de disponibilidad.
La disponibilidad de los sistemas de control puede, por lo tanto, modelarse teniendo en cuenta que la tasa de fallo total del sistema ASYS viene dada por:
ASYS = 1/(1 + λSYS * MDT)
λSYS es la tasa de fallo total del sistema como resultado de todos los fallos.
Probabilidad de falla peligrosa/hora (PFH) y probabilidad de falla bajo demanda (PFD)
En la Tabla 20 se presentan las fórmulas simplificadas de la probabilidad de falla peligrosa/hora (PFH) y de la probabilidad de falla bajo demanda (PFD) de configuraciones comunes en el caso de fallos detectados y no detectados. La base para estas ecuaciones en el intervalo entre pruebas (TI)
Consideración de fallos por causas comunes (CCF)
Los fallos por causas comunes son fallos que pueden producirse por una única causa, pero que afectan de forma simultánea a más de un canal. Pueden ser el resultado de un fallo sistemático, por ejemplo, un error de especificación de diseño o una influencia externa como temperatura excesiva que pudiera dar lugar a un fallo de componentes en los dos canales redundantes. Es responsabilidad del diseñador del sistema adoptar las medidas necesarias para minimizar la posibilidad de que se produzcan fallos por causas comunes empleando las prácticas de diseño adecuadas.
La contribución de fallos por causas comunes en rutas redundantes en paralelo se contabiliza mediante la inclusión de un factor β. La tasa de fallos por causas comunes que se incluye en el cálculo es igual a β * la tasa de fallo total de una de las rutas redundantes.
El modelo del factor β- [IEC 61508-6, Anexo D] es la técnica preferida puesto que es objetiva y proporciona facilidad de rastreo en el cálculo de β. El modelo se ha compilado para responder a una serie de preguntas específicas que, a continuación, se han puntuado mediante un juicio objetivo en materia de ingeniería. La puntuación máxima de cada pregunta se ha ponderado en el modelo mediante la calibración de los resultados de varias evaluaciones (contra datos conocidos de fallos de campo).
El efecto final en la ecuación de PFDavg será de la forma
PFDccf = (PFDa * PFDb * ….. * PFDn) + (β * PFDpeor)
PFDccf = Probabilidad de falla de causa común
PFDa …..n = Probabilidad de falla de los dispositivos a hasta n
β = Factor de falla de causa común
PFDpeor = Probabilidad de falla del dispositivo más débil del sistema
Usando las tablas del Anexo D de IEC 61508-6, el factor β debe calcularse para los sensores, el subsistema lógico y los elementos finales por separado.
Para minimizar la probabilidad de que ocurran fallas de causa común, primero se debe establecer qué medidas conducen a una defensa eficiente contra su ocurrencia. La implementación de las medidas apropiadas en el sistema conduce a una reducción en el valor del factor β utilizado para estimar la probabilidad de falla debido a fallas de causa común.
La Tabla D.1 (del Anexo mencionado) enumera las medidas y contiene valores asociados, basados en el juicio de ingeniería, que representan la contribución que cada medida hace en la reducción de fallas de causa común. Debido a que los sensores y los elementos finales se tratan de manera diferente a la electrónica programable, se utilizan columnas separadas en la tabla para calificar los componentes electrónicos programables y los sensores o elementos finales.
NOTA: la tabla es incompleta y se muestra a modo de ejemplo, para ver la tabla completa se debe consultar la tabla D.1 del Anexo D de la norma IEC 61508-6
Se pueden incorporar extensas pruebas de diagnóstico a los sistemas electrónicos programables que permiten la detección de fallas de causa común no simultáneas. Para permitir que las pruebas de diagnóstico se tengan en cuenta en la estimación del factor β, la contribución global de cada medida en el cuadro D.1 se divide, utilizando el juicio de ingeniería, en dos conjuntos de valores, X e Y. Para cada medida, la relación X: Y representa la medida en que la contribución de la medida frente a fallas de cláusulas comunes puede mejorarse mediante pruebas de diagnóstico.
El usuario de la Tabla D.1 debe determinar qué medidas se aplican al sistema en cuestión y sumar los valores correspondientes que se muestran en cada una de las columnas XLS y YLS para el subsistema lógico, respectivamente.
Los cuadros D.2 y D.3 de la norma (Tablas 22 y 23 en este documento) pueden utilizarse para determinar un factor Z a partir de la frecuencia y cobertura de las pruebas de diagnóstico, teniendo en cuenta la nota importante 4 que limita cuándo debe utilizarse un valor de Z distinto de cero.
La puntuación S se calcula utilizando las siguientes ecuaciones, según corresponda (véase la cláusula anterior):
Aquí S o SD es un puntaje que se usa en la Tabla D.4 para determinar el factor β apropiado.
β int y β D int son los valores de la falla de causa común antes de considerar el efecto de diferentes grados de redundancia.
Al tener en cuenta los fallos por causas comunes en la fórmula de la probabilidad de fallo a demanda (PDF) y de la probabilidad de fallo por hora (PFH), puede utilizarse el siguiente enfoque.
Para fallos detectados:
PFD1oo1 = λDD * MDT Ref. IEC 61508-6, B.3.2.2.1
PFD1oo2 = λDD2 * MDT2 + β * λDD * MDT Ref. IEC 61508-6, B.3.2.2.2
Para fallos no detectados:
PFD1oo1 = (λDU * TI)/2 Ref. IEC 61508-6, B.3.2.2.1
PFD1oo2 = (λDU2 * TI2)/3 + (β * λDU * TI)/2 Ref. IEC 61508-6, B.3.2.2.2
Donde λDD es la tasa de fallos peligrosos detectados, λDU es la tasa de fallos peligrosos no detectados y β es la contribución de los fallos por causas comunes. TI es el intervalo de prueba de calidad y MDT es el tiempo improductivo medio.