2016百度世界大会上,人工智能毫无疑问成为了全场的焦点,百度将本届大会的主题定为“AI is the new electricity”,意指通过人工智能技术赋能全行业,以科技力量驱动改变大众生活。
以下是清华大学新闻与传播学院博导沈阳教授就人工智能发表的看法:
互联网的终极状态是什么?
互联网的终极状态是什么?一定是基于人工智能的体联网。而搜索引擎的终极状态也一定是基于人工智能的秘书顾问式的搜索服务。
了解了终极状态,我们才能去复盘路径。搜索引擎从目录式,到检索式,再到智能顾问式,这条路径意味着人需要做的事情越来越少,电脑越来越聪明。按照这个划分,搜索引擎还处在第三代的极早期。
搜索引擎的进化也是符合进化论的。进化需要基因的变异。目录式,强调的是人工分类;检索式,关注的是机器分类;而智能顾问式强调的是智慧识别,要识别用户意图,要洞察场景,要匹配信息,这是需要大智慧的。大智慧的养成非一日之功,是一种迭代过程。这个迭代过程的关键是用进废退,机器学习。
不要害怕现在的效果不好,而要强化其学习能力。也许今天类似于度秘的搜索引擎顾问仅仅只有6岁智商,偶尔洪荒之力爆发相当于12岁,但是只要其能够自我学习,自我赋能,他就会进入春春期。
和人的一辈子类似,十岁不愁,好玩。现在的人工智能就处在好玩的阶段,更多的是一个玩具,在某些情况下,达到了二十不悔的程度,就是说,简单可依赖啦。
三十而立,这个时候人工智能已经可以独立于人了,甚至可能在人类的帮助下产生情感的属性。再往下走,就是四十不惑,此时,没有什么是人工智能不知道的,人工智能已经极大的覆盖了人类知识。
五十知天命,到这一步,人工智能就可以帮助人类或者代替人类探索宇宙奥秘、社会规律和人类自身,甚至人工智能会开始琢磨自身的哲学意义,诞生基于人工智能的虚拟宇宙,在这个虚拟宇宙中孕育出新人工生命。人工智能成为上帝。
成功的智能产品是什么样的?
判断一款产品能否成功,其实就是两个标准,一是能否推动生产力提升,二是能否适应生产关系。
例如秘密社交,提升了秘密信息生产力,但是负能量过重,和现有社会关系严重冲突,这类应用就难有成功。再比如机器新闻,依托于程序化数据处理和自动集成报道,极大地释放了内容生产力,让更多媒体人从数据处理中解放出来,更加关注于专业深度和人文关怀,在很大程度上实现了生产力的提升和行业生产关系的进化。
当然,这种生产关系的重构也有破坏性的一面,比如对个性化的削减、导向性的把握等,如何将这些关系暗角和谐化,对媒体人的角色提出了更多维的要求,今年百度世界大会提出的语音、图像、自然语言处理、用户画像四项AI技术,为用户提供了更新、更快、更有趣的智能化信息搜索服务,可以有效激活信息生产力,让信息与人之间的连接更密更紧。
我们看今天的搜索引擎,如果坚持这项原则,标准应该有这么五条:快、准、全、新、智。
快,这个其实已经基本解决了。从用户提交需求到海量结果反馈所需时间越来越短,提速的同时搜索服务的可靠性和稳定性也在强化。百度之前上线极速搜索,基于大数据计算能力提前预测用户检索关键词,通过异步检索大幅提升响应速度,让结果反馈时间缩减至0.03秒。大数据赋予搜索引擎提前预知的功能,超越感知、瞬时呈现,不断挑战速度的极限。
准,在封闭环境和开放环境中的准确性实现难度是差别是很大的。开放生态下信息过载现象不断加剧,精准化成为节省用户搜索的时间成本的一大痛点。从技术角度来看,通过构建语义化信息库,支持多类型数据的高效索引,强化数据网络和知识发现,信息的准确呈现不再是难题。而从搜索引擎的商业化角度来看,在信息不对等的情况下,广告价值的驱动性作用在一定程度上造成了搜索信息失真,这在一定程度上也影响了搜索引擎的权威性和用户对之的信任值。精准搜索,不仅仅是在过剩的信息生产力下准确发掘目标,也是在与商业价值的博弈中发掘平衡点。搜索引擎要做到的,也不仅仅是在海量数据中找到结果,更是在海量结果中找到唯一。
全,像Google、百度都是迈向千亿级别的数据量,今年百度世界大会上提到百度人工智能聚合全网上万亿互联网内容、数十亿次搜索请求、数百亿次定位请求,全量数据下基于AI的应用服务创新具备更大的想象空间。搜索引擎的数据网络在不断编织扩大,在这张大网背后也有无数张暗网在延伸。一方面我们可以发现越来越多的WEB数据在私有化,尤其是垂直领域数据价值发酵,不少垂直网站在规模化发展之后倾向于私有化自身数据,不断探索个性化数据服务的价值。
可以预见,垂直搜索的需求在加速扩张,这对传统综合性搜索引擎来说是方向,也是挑战。另一方面,在移动互联网向智能互联网、体联网进化的过程中,衍生了巨量非WEB化数据,大量社交数据、应用数据、场景数据、个体数据对于搜索引擎而言都是不可见的。如何适应数据战地的转移,在聚合多源全域数据的基础上优化个性化搜索服务,搜索引擎还需向更多领域延伸数据触角。
新,指的是分析方法、分析内容的新颖性。基于个性化需求的搜索推荐在搜索领域已被广泛应用,尤其是垂直细分领域的用户偏好分析和定向推荐越来越成熟。百度目前已经有接近10亿用户的画像,其中垂直画像支持深度行业应用,通用画像支持全行业个性化定制,基于61.5万的用户标签手机百度资讯推荐阅读量2个月增长10倍,实现了千人千面的个性化信息推荐。
再如今日头条、一点资讯、百度新闻等客户端都融入了个性化推荐功能,很大程度上节约了用户信息搜索时间成本。电商、社交、音乐领域的偏好搜索功能和推荐算法也在不断更新迭代。视觉识别和语音识别等AI技术的成熟让分析内容更全更新,我们输入的信息不再限于文字,一句话、一首歌、一张图片、一个物品甚至一个场景,都可以成为搜索入口,我们与搜索引擎的对话方式更直接、也更有趣。
智,则强调AI的高效能程度。搜索引擎是目前实现人机对话最为普遍的一种形式,是人脑需求和机脑反馈相互连接的一种初级形态,也是最有可能快速进化、实现人工智能的一种应用载体。搜索引擎的“智”不仅仅体现在它对海量数据处理和计算能力,更体现在它对个体需求的理解和快速反馈。
依托大数据的语义识别、智能推荐、精准匹配以及内容自动聚合功能,搜索引擎以更贴近人脑思维和触觉习惯对用户需求进行分析,并以更加聪慧的话语方式和更精准的话语内容与人进行对话。
去年百度世界大会上度秘今年再次亮相,与杨毅联合解说篮球背后是令人惊异的自然语言处理能力,除了对话交谈、智能化搜索等信息化服务在不断升级,度秘更在加速接轨生活化服务,连接了包括购票、点餐、叫车甚至奥运赛事直播解说等生活场景。
智能互联网时代用户在搜索框中搜寻服务的需求在扩张,基于深度学习的智慧型搜索引擎已不再是一种设想。当然,这种智慧型搜索需要时间学习与沉淀,随着数据的积累、交互的频繁和算法的优化,搜索引擎对人的理解会越来越深入,这种智慧化演进正在发生。
根据清博舆情监测系统的分析,我们可以统计出搜索引擎的几个技术突破点:
语音技术,语音技术我主要关注百度、搜狗、讯飞三家公司,百度提出了深度语音识别系统,讯飞也推出自己的系列专利。整体而言,语音输入和识别技术已经实用化了.
以我们家为例,我小孩的语音输入基本上是百分之百准确的,而我的发言略带口音,识别率有了稍许下降。尽管语音搜索还没有成为一种人人皆用的普遍日常应用,但实际上智能程度已经达到了近10岁的水平,这其实在某种程度上是比AlphaGo更值得关注的进展。
在今年的百度世界大会上我们也看到,百度语音识别技术已经进入比较成熟的阶段,语音识别对输入语言的精准度要求降低很多,已能识别部分难懂的方言和小孩咿呀,在安静环境中的语音识别功能已具有97%的准确率,基于语音识别和自然语言处理的即时翻译让跨语种交流也不再是障碍。
除了语音识别,语音合成技术提供的基于个性化声音的语音服务,让每个人都能拥有属于自己的模拟合成语音,使得搜索引擎的交互服务有了更多新的可能性。
在人工智能领域,百度和搜狗比较强调这个概念。从产品实现来看,百度多次提出了多轮对话的连续智能,连续对话,不仅仅是信息的单一匹配,而且包含对话框架的逻辑理解,甚至情感氛围的判断,这个难度是极大的。如果有一天,度秘能够代替你和女友对话,甚至赢得美人芳心,这种人工智能是我们所期待的。
从上述分析,我们得出一个什么结论呢。那就是中国互联网市场正在高速迭代中,人工智能和大数据是其中的关键。有了人工智能和大数据,才有超级社会能力、超级连接能力、超级资本能力和超级进化能力。
根据CNNIC的2015年中国网民搜索行为调查报告,百度搜索的比例超过87.5,易观智库2016年2季度移动搜索报告也显示百度占比78.5%,可见百度在搜索引擎仍然处于统治地位,能力越大,责任越大。
未来,BAT三家不可避免最终要在人工智能和大数据决出生死胜负,谁的数据量大,谁的人工智商高,谁就能够主导未来的前进方向。
(作者系清华大学新闻与传播学院博导沈阳教授)
沈阳
清华大学新闻与传播学院教授、博导
中宣部国际传播专家组成员
新华网舆情首席科学家
新浪新媒体学院荣誉教授
微博、微信和移动互联网领域最具理论和实践结合的专家之一
两届世界互联网大会的发言嘉宾
清博舆情地址(http://yuqing.gsdata.cn)