亚图小说网
首页 > 都市言情 > 打造传媒巨头,从电锯惊魂开始 >

第二百六十五章 大数据技术的突破

章节目录

  李阳点点头,目光扫过那些建筑,随口问道:“王教授团队最近在分布式计算节点上的那个突破,具体是哪方面有了进展?”

  老师闻言,神情认真了些:“是关于非结构化日志的实时索引和检索效率这一块。我们优化了一套内存和磁盘的混合存储模型,并设计了新的分片技术。”

  “在现有的服务器规模下,针对特定关键词的关联查询,响应时间从原来的分钟级缩短到了秒级,并且能保持较高的并发能力。”

  他边说边观察着李阳的反应,见对方似乎听得很专注,便继续解释。

  这次他讲的具体了点,他们和很多公司有过合作,知道这些老板们听不懂技术,所以他将这次技术突破后能做什么大致说了出来。

  “当然,距离您之前提到的想法还很遥远。但这个进展意味着,我们已经可以构建一个能快速处理来自游戏平台、论坛等渠道的海量文本的系统。

  他想了想,做了个比喻:“比如,追踪一个游戏新版本上线后,玩家讨论中最集中的内容,或者监控一场大赛期后,哪些选手、哪些操作被提及得最多。”

  李阳眼睛微微一亮,这确实是个关键的进步。

  在2006年,谈全网数据的实时抓取与处理是天方夜谭,但若能先在一个相对封闭但数据量庞大的网站内,实现数据收集分析,价值巨大。

  当然,他想到的不是繁星游戏平台,而是微博!

  微博现在连内容推荐都还靠人工编辑呢,如果系统能自动收集、处理用户讨论……

  是不是证明可以搞出热搜了!?

  “也就是说,靠这个技术,已经能在网站内部做一个热点榜单或话题热度榜了?”李阳立刻追问。

  “技术上可以实现,”老师回答得很谨慎。

  “但具体的数据来源、排序规则、更新频率,以及前端如何呈现,这些都是产品设计问题,而不单是技术能解决的了。”

  李阳点了点头,心里已经飞速盘算起来。

  技术上能实现,热搜应该是没问题了。

  唯一遗憾的是这突破来得稍晚了些,若能提早一个月,配合娱乐百晓生那波曝光,舆论发酵的效果会好得多。

  不过有总比没有强。

  李阳随着那位老师在校园里走了走,路过几栋颇有年岁的红砖楼。

  大约十几分钟后,两人走到了那栋计算机实验楼的门口。

  看到一个五十多岁、穿着朴素衬衫的中年男人匆匆从另一条小径走过来。

  来人正是王教授,他快步上前与李阳握手,带着歉意的笑容:“李总,不好意思,刚结束答辩,让你久等了。”

  “王教授客气了,刚好在您这宝地参观学习。”李阳笑着回应。

  几人没再多寒暄,王教授侧身引路:“实验室就在楼上,我们上去聊?正好有些初步的演示环境可以看一下。”

  上到实验楼里,直接到了他们的课题组。

  几排长桌上摆满了显示器,大部分屏幕都亮着,上面或是代码界面,或是跳动着复杂曲线和数据表格的监控面板。

  两三个学生模样的年轻人正凑在一台显示器前讨论着什么,见到有人进来,抬头看了一眼,又迅速恢复了工作状态。

  “我们搭建了一个小型的演示环境。”

  王教授走到一台主控电脑前说道,“之前张老师应该跟您大致介绍过,我们主要在实时索引这块做了些优化。”

  屏幕上出现了一个简洁的界面,左侧在不断滚动显示着模拟的文本数据流,上面的关键词和后面的数字在缓慢变动。

  李阳走近些,看向屏幕:“来的路上张老师大概说过了。我最关心的是,这套系统的实际响应能力,它能承受多大的实时数据量?如果放在一个日活几百万甚至更高的社交平台上,用它来生成实时热度榜单,目前的技术能撑得住吗?”

  王教授回答得很实在:“数据量如果激增,压力肯定会有。主要因为我们实验的数据规模有限。但从技术原理上讲是没问题的,无非是响应时间可能从秒级延迟到十几秒。”

  他又用更通俗的语言解释了一番背后的逻辑以及目前的缺陷。

  李阳点点头:“也就是说,从实验室彻底到产品化,中间还需要解决数据清洗、算法优化和资源弹性扩展这几个关键问题?”

  “是的,李总总结得到位。”

  王教授笑了笑:“不过以目前的基础,在微博上做一个可用的热度榜单,技术上已经完全可以实现了。”

  李阳点了点头。

  在简单交流了技术转化与市场应用的话题后,他将话题引向了他心中那个更宏大的构想,大数据分析的方向。

  “目前的实际进度到了哪一步?”

  王教授摇了摇头,神情带着无奈:“虽然关于大数据分析的设想很多年前就有了,但实现起来太难了。我们团队目前主要做的是数据收集与分析,但在一个网站内都充满挑战。至于李总您想的收集全网数据乃至涉及个人行为的分析,这里面的技术难关实在太多了。”

  他进一步解释道:“而且,这不是单一技术突破就能解决的。它牵扯的面太广了。比如,这涉及到北大林教授团队的数据安全问题,西科大田教授团队研究的数据仓库架构技术,每一个环节都需要实质性的进展,光靠我们一个点上的突破,作用有限。”

  他顿了顿,给出了一个保守的估计:“综合来看,要实现您设想的那种可应用的大数据体系,预计,五年内都不太可能。”

  李阳听完倒是没什么意外。

  大数据技术的复杂程度远超他最初的想象,毕竟他前世也不了解。

  他最开始只是想在集团内部挂靠一个小型研究团队,但深入之后才发现,这项技术涵盖的范围实在太广,但偏偏每一个组成部分都不可或缺。

  更关键的是,他发现这些分支技术几乎都能在星海集团的各个业务板块中找到用武之地。

  因此,这个最初仅由一位数学教授和一位计算机教授牵头的小团队,如今已扩展为联合了五个高校科研团队的协同项目组,再加上集团内部的相关技术团队,规模已经不算小。

  王教授说完这些,看了一眼李阳。

  尽管知道这些话可能不那么中听,但出于学者的严谨和合作的诚信,他还是选择了如实相告,他不想给人不切实际的期望。

  五年,这个时间跨度意味着巨大的持续投入。

  他知道,仅仅是他们团队这半年不到,来自星海的研发支持经费就已达到了2600万。

  以此粗略估算,几个团队一年下来的总投入恐怕得以亿为单位计算。

  而且他深知,随着研究进入更深入的攻坚阶段,后期的投入只会更多。

  五年时间,十亿资金或许都未必够用。

  他必须让李阳心里有数。

章节目录
书友推荐: 我能复制万灵天赋 影视:从四合院开始双穿欢乐颂 重生84:我要上大学 诸天从神雕娶妻赤练仙子开始 天命皆烬 四合院之我是猎人 瘤剑仙 吞噬星空:种田万倍返还 锦衣无双 东京泡沫人生 快收了神通吧! 重生华娱,但绑定了罪犯系统 大明1581,家父张居正! 从五禽拳开始肉身成圣 我带家乡科技致富 魔禁:学园都市的替身使者 驱邪从食尸请神开始 年代从巨额私房钱被发现开始 信我,我真是联盟职业选手 人在秦时,趋吉避凶