其实网课远远超出收发快递的简单概念。网课的通畅既包括了速度,也包括了高质量的视听效果。网速的快慢、画面的质量,都呈现在APP这个“入口”。无论是直播课堂,还是线上交作业、答疑……这些过程都在瞬间完成,人们并不会感知这些数据在信息高速路上的流动,但可以从手机APP直观感受到网速的快慢、直播的流畅与否。 巨大的网课需求,让多个在线教育APP的日活跃用户数达到千万以上,对开发这些APP产品的互联网科技公司来说,挑战前所未有。 春节过后,全国范围内不少老师开始自发使用QQ群功能来上网课。“网课直播的每日峰值有超过百万的开播量。”腾讯副总裁、QQ负责人梁柱说,如果算上作业等功能,QQ网课的整体覆盖学生人群有2000万到3000万的规模。 “几千万老师和学生同时上课,并不在我们原先的技术架构和服务器储备的预算之内,纯粹是新增的。”梁柱说,大带宽的视频直播集中在一个时间点上突然发生,下课后流量又突然消失,对互联网基础设施是一个难以判断的压力负载。 腾讯QQ技术负责人邱俊从后台实时曲线的变化中,注意到QQ的群文件功能需求在不断增加。他担心很快会“撑破”整个群的容量,于是马上和团队商量扩容的可行性,把每个QQ群的群文件容量,从2GB扩大为10GB。这个决策和修改的落地,5小时之内就得完成。 最大的挑战,还是时间紧。QQ的版本更新节奏也随着用户的各种需求被调快。为了网课需要,QQ的新功能从想法提出到最终上线,更新版本只花了两周。 “就是打仗的感觉。饿了就吃一点,困了就睡一会,醒了就马上投入工作。”邱俊说,网课带来的是工作量两三倍地增长,在高压下,每个人的战斗力都被激发出来,因为感觉自己在做一件特别有意义的事情。 产品研发的过程中,技术人员甚至专门去收集喧嚣的公交站、雨水声等噪音进行人工智能分析处理,以实现智能消除环境声、键盘声,完美还原人声的目的。“这就是为什么能够实现最低80毫秒的超低延时,即便视频丢了70%的数据包,也不会花屏和卡顿。”夏志勇说,这些努力,就是为了让网课更加“真实”。 “现在沉淀下来最合适的网课解决方案,我们当时根本不知道。情况突发,一切都是未知,只能备选很多种方案。”长期的技术积累、稳定的视音频能力和支持海量并发的带宽等技术底层能力,让钉钉教育产品经理安步和团队在有惊无险中完成了对直播网课的支持,但他们还需要以天为单位,去快速响应如潮水般涌来的各种功能需求。 前一天老师提出没法在提交的作业照片上批改,安步和团队马上改进上线,第二天老师们就惊喜地发现,在手机、平板电脑和电脑上,都可以直接圈画、批改作业了。为了这个功能,技术人员至少优化了50次。 疫情防控期间,中国在线教学规模之大、范围之广、程度之深,在全球范围内都无与伦比。仅高等教育领域,截至4月初,全国就有1454所在线开学的普通高校,95万余名教师开发94.2万门、713.3万门次在线课程,在线学习的学生达11.8亿人次。这其中,在线课程平台和技术平台功不可没,为停课不停教、停课不停学提供了有力保证。钉钉和腾讯会议等多款中国APP,也因此被联合国有关机构推荐给全球的学生使用。 如何化解网络“洪峰”? 如果把云计算看作是一个网络仓库的话,这是一个容量大、智能化的仓库,能够瞬间让排队的几千万人顺利取到自己的包裹 从春节期间开始,安步清晰看到,钉钉后台的系统峰值流量不断增长,最高甚至暴增百倍,很大一部分源于在线网课的“贡献”。 虽然顶住了2月10日首个网课流量高峰,安步还无法高枕无忧。他注意到那天其实已触到了当时的系统峰值,“看到带宽使用量节节攀升,我们心里特别紧张。” 安步意识到,2月10日只是部分高中和初中的使用,等到小学加入进来,预计2月17日会带来更大的访问量。 带宽用来衡量一个平台能够承受的最高网络流量。师生课堂互动、“连麦”实时问答之间,在网络上都会掀起一阵阵流量“洪峰”。能不能抵御和化解这些“洪峰”,云计算服务发挥着关键作用。 云计算既是高性能硬件搭建的数据中心,也可以看作是性能强大的网络中枢。它释放出强大的计算能力和存储资源,像水和电一样源源不断地提供给钉钉这样的前端应用,使其有足够能力支撑用户的需求。如果把云计算看作是一个网络仓库的话,这是一个容量大、智能化的仓库,能够瞬间让排队的几千万人顺利取到自己的包裹。 流量到底会多高?安步和团队难以准确预判。“如果全国60%到70%的老师、学生甚至家长,在同一时刻登录钉钉,这是一个什么量级?”安步和团队迅速去申请带宽,并寻求阿里云的帮助。 那段时间,每逢周六日是安步和团队最忙碌的时候。钉钉上不断有新的学校开设网课,为了周一开课,他们会在前一个周末进行测试,安步他们则要随时监测并调整带宽的配比。 “大部分学校使用直播上课,一般都是早上8点集中开始,同一时间巨大流量涌来,我们的压力真是非常大。”安步说。 2月17日早上8点,钉钉后台流量突然瞬间上涨,不断飙升,60%、70%、80%……时间一分一秒过去,到9点半,还没突破100%。安步心里一下子就放宽了。 实际上,扩容的需求对云服务来说,并非像拧开水龙头一样简单,而是有很高技术含量。为了不影响白天的网课效果,往往需要技术人员和时间赛跑,即便是千万人的访问需求,都是在凌晨几小时内,完成服务器扩容和镜像部署。为迎接史无前例的流量“洪峰”,保障网络授课,钉钉在阿里云上连续扩容10余万台云服务器,创下了短短2小时内新增超过1万台云服务器的快速扩容新纪录。 峰值状态下,钉钉支持的流量达到常态时的百倍,是中国所有视频、直播流量总和的5―10倍。正是这样的能力,让钉钉能够累计支持全国1.3亿学生在线上课。 “带宽需求在很短时间内就到了T(1T相当于1000G)级‘水位’。但扩容不可预期,没法精准地知道明天的增长到底是5倍还是10倍,我们只有更大胆地去堆资源。”腾讯云运维中心和客户服务部门负责人徐勇州带领团队,用三天时间完成了平常需要三四个月的数T带宽扩容。 这种量级的线上流量洪峰和快速扩容,在全世界也属首次。值得一提的是,10万台服务器、数T带宽,成本折算下来达上亿元,但为了保障网课顺利进行,这些资源都被不计成本地投入使用。 怎样填平网络洼地? 在海拔1400米的山上,建成可容纳2000多人上网的应急方舱基站,手机4G信号噌一下跳到满格,就像从羊肠小道开上了高速路一样通畅无比 |