求书:软件可靠性 设计方面的
软件的可靠性,是一个重要问题, 比如有的系统需要7*24小时运行, 那么在设计时需要考虑 错误检测与错误恢复技术
通常我们可以通过 心跳 命令/响应 异常 等检测错误,可以用 主动冗余 被动冗余 状态再同步 等技术实现错误恢复。
当然对于这些 我理解的都比较浅显,现在迫切需要有一本专门论述 软件可靠性的书籍。。。。。
请大家帮忙,万分感谢!
[解决办法]
关注可用性的定义即可。HA不意味着长时间不出问题,这种方案的代价和成本过高;尽量不出问题,在出问题情况下可以快速恢复,是高可用性的核心。
[解决办法]
楼主想法不错,可惜我也没读过这类书,帮不上忙
[解决办法]
http://www.bookschina.com.tw/770732.htm
這一本書應該可以參考看看