记录:bearychat接口故障
admin 6年前 (2019-03-06) 2822浏览 0评论
故障 公司内部使用 bearychat 沟通, 使用 机器人 直接推送内部一些 通知,告警或者消息之类的. 在 bearychat系统恢复后, 无法收到推送的消息了, 服务器维护预告: 因服务升级需要,倍洽将于 2019-03-05(下周二)01:...
admin 6年前 (2019-03-06) 2822浏览 0评论
故障 公司内部使用 bearychat 沟通, 使用 机器人 直接推送内部一些 通知,告警或者消息之类的. 在 bearychat系统恢复后, 无法收到推送的消息了, 服务器维护预告: 因服务升级需要,倍洽将于 2019-03-05(下周二)01:...
admin 6年前 (2018-09-17) 3795浏览 0评论
在最近开发的一个系统中,有一个定时任务,每天需要将一份数据(大约200w条),发送至一个线上key-value存储系统中。 说到定时任务,最常见的,就是使用crontab。原来这一套系统已经开发完成,部署在深圳IDC,工作良好。最近,需要在天津IDC...
admin 7年前 (2018-07-31) 8700浏览 0评论
chdir to cwd (\”/var/www/html\”) set in config.json failed: no such file or directory # docker exec -it a90277f94...
admin 7年前 (2018-03-28) 3487浏览 0评论
内网有个机器有2个网卡,并且是不同的网段和网关。 其中的B服务器有2个网卡。这个时候我们就只有默认网关为10.1.1.1 那查看路由表就是如下 [root@localhost ~]# ip route show table all 10.1.1.0/...
admin 8年前 (2016-08-27) 4517浏览 0评论
一. 表损坏的原因分析 以下原因是导致mysql 表毁坏的常见原因: 服务器突然断电导致数据文件损坏 强制关机,没有先关闭mysql 服务 mysqld 进程在写表时被杀掉 使用myisamchk 的同时,mysqld 也在操作表 磁盘故障 服务器死...
admin 10年前 (2014-12-30) 3404浏览 0评论
这次的惊魂让我提高很多,先说提高,再说故事经过。文章可能有点乱,大家包涵。 1)linode还有一种可以ssh上去的方式 第一步 ssh pennyliang@lish-tokyo.linode.com 然后在提示中输入密码(其中pennylia...
admin 10年前 (2014-11-14) 7300浏览 0评论
故障描述: 报告某服务器出现故障,测试发现ssh和ping均不通,尝试ILO连接也失败(网页打不开)。 在准备使用ipmitool命令重启服务器时,服务器恢复正常,能够ssh登录。发现服务器前几分钟自动重启了。 为了尽快恢复故障,首先将应用服务启动起...
admin 10年前 (2014-11-14) 3932浏览 0评论
通常,我们使用的DELL/HP/IBM三家的机架式PC级服务器阵列卡是从LSI的卡OEM出来的,DELL和IBM两家的阵列卡原生程度较高,没有做太多封装,可以用原厂提供的阵列卡管理工具进行监控;而HP的阵列卡一般都做过封装了,因此需要使用自身特有的管...
admin 10年前 (2014-11-05) 4394浏览 0评论
OOM command not allowed when used memory > ‘maxmemory’ 报错排查 grep “OOM command not allowed when used memory > ‘maxmemory...
admin 10年前 (2014-09-13) 3344浏览 0评论
如何“估算”RS被踢除的时间? 需要先明确几个概念。 “盲眼时间”,在这一段时间里,RS的健康状况是未知的。 这个时间的大小与健康检查的“间隔”有关。 在一个间隔内的时间点上,RS的健康状态是未知的。 “间隔”,多长时间发生一次健康检查。 “time...
admin 11年前 (2014-08-10) 5292浏览 0评论
Linux 要使用远程桌面需要安装VNC,好在CentOS5 已经自带了VNC,默认也已经安装了,只要配置一下就可以了(如果没有安装,可以:yum install vnc vncserver安装)。但是Windows客户端还是要安装的。 VNCSer...
admin 11年前 (2014-07-15) 3134浏览 0评论
云环境下的容灾 什么是容灾? 简单的说是对灾难的而应对策略。比如火灾,盗窃,人为损坏,火山,地震,洪水,战争,飓风等自然灾害或者人为灾害。 RTO/RPO RPO(Recovery Point Objective): 指灾难后可能恢复到的时间点。涉及...
admin 11年前 (2014-04-15) 3544浏览 0评论
背景介绍: 随着线上服务器数量的增加,各种开源软件和工具的广泛使用,一些服务自动停止或无响应的情况时有发生。 而其中有很大一部分都是由于软件自身的稳定性或者机器硬件资源的限制而造成的,按道理来讲,这些情况都应该设法找到本质原因,然后避免再次出现。 但...
admin 11年前 (2014-02-07) 4105浏览 0评论
在开机启动时,提示“unexpected inconsistency;RUN fsck MANUALLY”进不了系统 解决方法: fsck不仅可以对文件系统进行扫描,还能修正文件系统的一些问题,值得注意的是fsck扫描文件系统时一定要在...
admin 11年前 (2014-01-23) 3884浏览 0评论
不久前的一次机房网络故障,再一次对我们在Heartbeat+DRBD+MySQL数据库架构运维水平的一个考验,之前不止一次的测试与线上部署,还有之后大言不惭的关于该架构组件的所谓深入理解,在这一次不经意的意外面前又是“很囧”的收场,慌张呀!这次断网导...
admin 11年前 (2013-09-29) 3444浏览 0评论
某台「Nginx / PHP」服务器时不时出现HTTP请求响应卡住的现象。 开始我怀疑PHP有问题,但是通过查询Nginx的access日志,发现里面记录的PHP响应时间「$upstream_response_time」非常小,此外还通...
admin 12年前 (2013-08-08) 3746浏览 0评论
如何“估算”RS被踢除的时间? 需要先明确几个概念。 “盲眼时间”,在这一段时间里,RS的健康状况是未知的。 这个时间的大小与健康检查的“间隔”有关。 在一个间隔内的时间点上,RS的健康状态是未知的。 “间隔”,多长时间发生一次健康检查。 “time...