En los últimos años ha aumentado de forma notable el interés por la evaluación de las intervenciones en salud, especialmente en relación a su utilidad social y su eficiencia económica. Sin embargo, todavía estamos lejos de tener un grado suficiente de consenso en los aspectos básicos de la evaluación, como son la terminología, la finalidad y la metodología de trabajo. En este marco se revisan las principales definiciones y clasificaciones de la evaluación aplicada a los programas y políticas en salud pública. En relación a la evaluación de resultados, se presentan los principales diseños evaluativos y sus componentes, y se revisan las amenazas a la validez interna de los resultados de los diseños evaluativos débiles. Se analizan y discuten las características de las intervenciones de salud pública que limitan las opciones de evaluación con diseños tradicionales. Entre estas limitaciones destacan la complejidad de las intervenciones, que habitualmente tienen múltiples componentes, y la dificultad de establecer un grupo de comparación sin intervención, en especial mediante asignación aleatoria. Para finalizar, se describe una propuesta de evaluación a partir de diseños evaluativos débiles, consistente en la valoración de la adecuación y la plausibilidad. La adecuación estaría determinada por la existencia de un cambio observable en los indicadores de resultados, y podría ser suficiente para tomar decisiones bajo determinadas condiciones; otras veces sería necesario analizar la plausibilidad, o atribución de los resultados observados al programa.
In the last few years, interest has markedly increased in evaluating health programs, especially their social utility and economic efficiency. However, consensus on key issues in evaluation, such as terminology, goals and methods is still a long way off. In this context, we review the main definitions and classifications of evaluation applied to public health programs and policies. We describe the main evaluation designs and their components, focusing on outcome evaluation. Threats to the internal validity of the results of weak evaluation designs are also discussed. The characteristics of public health interventions that limit evaluation with traditional designs are also analyzed. These limitations include the complexity of interventions, usually with multiple components, and the difficulty of forming an equivalent control group with no intervention, especially through random assignment. Finally, a two-step approach to evaluation through weak designs, which takes into account adequacy and plausibility, is described. Adequacy consists of the observation of a change in the selected indicators after the intervention, and would be sufficient to take decisions under certain conditions; at other times, plausibility would need to be analyzed, defined as attribution of the results to the program or intervention