當前位置:首頁>>關于宣盟>>聯系我們>>新聞媒體>>營銷知識
出處: 作者: 發表時間:2014-10-24
自從去年百度和藥監局達成戰略合作,百度將使用藥監局的的藥品數據為人們提供用藥相關的查詢。百度為這批數據付出的代價并未提及。天下沒有免費的午餐,藥監局雖然是要造福于民,但是這批數據顯然不會白給。這意味著搜索引擎為數據買單的時代已經到來。筆者今天想談談關于搜索和數據關系的一些看法。注意,大數據離我們太遠,這不是談大數據。
谷歌不作惡,干的事情是“整合全球信息,使人人皆可訪問并從中受益”和“加速信息流動”。百度簡單可依賴,干的事情是“讓人們最便捷地獲取信息,找到所求”。不同的表示,搜索引擎本質卻是一致的:幫助人們找到想要的信息。伴隨著社會化和移動互聯網的浪潮,網絡上的數據爆炸式的增長。如何應對這些爆炸的數據,既是搜索引擎面臨的挑戰,也是搜索引擎們的機遇。
94年Dr.Jill Ellsworth便提出”暗網“的概念。指存儲在網絡數據庫里、不能通過超鏈接訪問,不屬于那些可以被標準搜索引擎索引的表面網絡。暗網的規模也遠超我們的想象,據科學家研究,人類信息只有不到1%的實現了WEB化,而WEB化的網頁中,搜索引擎能抓取的大概為1%。
不能抓取的既有網站本身非主觀的問題(不符合網頁規范,對搜素引擎不友好等),也有網站本身的主觀屏蔽的問題,如淘寶、優酷等網站屏蔽百度的爬蟲既是這類。搜索引擎在解決這兩類問題上已經做過很多努力。包括爬蟲爬取技術的優化、合法SEO的推動以及類似百度阿拉丁計劃。
百度的阿拉丁計劃通過提供接口的方式,第三方網站主動接入自己的結構化數據,用戶在搜索時即可在結果前面看到這些信息。百度期望阿拉丁燈神可以“照亮”暗網。與此類似的計劃還有Google的OneBox,360的oneBox(360這名字取的)。但在暗網的問題還未解決之際,一個更暗的網已經到來。
1、越來越多的私有化的WEB化數據。
電商網站、BBS、知乎問答、互動百科、豆瓣電影等內容便是屬于此類。垂直網站在達到一定規模后,擁有與搜索引擎博弈的能力時,便可屏蔽搜索引擎的爬蟲,將自己的數據“私有化“。垂直網站提供的搜索功能,可以用個性化的搜索功能和獨有的挖掘能力,提供更好的搜索體驗。甚至上升為垂直搜索引擎,如知乎搜索。另外一種垂直搜索引擎即是綜合其他垂直的結構化數據,提供搜索服務,如去哪兒、一淘。
筆者相信隨著WEB的發展,垂直搜索是未來搜索引擎細分的一個方向,且將對傳統搜索引擎構成威脅。類似手機上瀏覽器和原生APP之間的關系:瀏覽器和APP流量對半分。我們把傳統搜索引擎如百度看成這一個瀏覽器,那么垂直搜索引擎便是APP。垂直搜索引擎也如APP一樣正在滋長壯大。且他們具有的核心優勢都是:個性化VS統一的優勢。
2、巨量增長的沒有WEB化的數據。
隨著10多年的發展,PC互聯網已積累大量的數據;而在移動互聯網的浪潮下,APP、云應用、社交和物聯網讓數據爆炸式增長。對搜索引擎來說,這些數據幾乎都是不可見的。
人工整理的數據:
藥監局的數據就是例子。這類數據集中存在于政府部門、機構組織和一些企業手里。他們手里即掌握著民眾關心的權威民生數據,又暫時沒有將這些數據通過網站開放出來。與此類似的擁有數據的還有交通部門、環保部門、旅游局、衛生局、教育局等民眾關注的各個領域。經過十多年的信息化建設,這些數據想必已經達到可觀的量級。
另外,“我查查”的條形碼數據也可歸為此類。我查查團隊創業初期,數百人團隊在全國商場收集商品條形碼數據。我查查有一定規模后,用戶才主動為其添加條形碼數據。
社交產生的數據:
這里的社交網絡不僅僅指微博或人人網。QQ聊天也是一種社交。郵件也是一種社交。虎嗅網也是一種社交。甚至短信通信也是一種社交。我們不妨將這稱為“暗社交”。這些社交過程又產生了大量的信息,尤其是分享行為。一定程度上部分社交網站的數據是WEB化的,但是它們是封閉的。這部分數據正在巨量增長,而搜索引擎對他們無能為力。Facebook可以通過Graph Search搜索自己的數據,微博有微博搜索,人人的,以及“暗社交”的數據,誰來搜索?
APP產生的數據:
搜狗王小川曾經拋出過“WEB已死”的說法。移動互聯網已經不再是由WEB通過超鏈接互相連接的網絡。APP之間通過接口互相鏈接,APP上的不同用戶通過QQ好友關系、微信圈、微博關注關系、手機號碼等方式互相鏈接。而傳統搜索引擎正是基于超鏈接的。帶來的問題實際問題就是,搜素引擎如何搜索啪啪等APP的數據?
個人云應用產生的數據:
個人云應用主要是解決多屏同步的問題。這讓更多用戶選擇將數據保存在云端。在不同設備上賬號認證后下載并使用這些數據。這類應用除了同步通訊錄、收藏夾這類私密性強的數據外,還有印象筆記、網易云閱讀等類型的大文本數據。個人云應用將越來越多。若干年后,筆者認為OFFICE提供云同步功能也不是沒可能。這些數據,搜索引擎無能為力。
物聯網產生的數據:
車聯網、監控錄像、電子抄表、水文監測等物聯網應用每時每刻也在產生大量的數據。這個行業還沒爆發。爆發的時候,應用也不會局限與此。互聯網鏈接網頁,移動互聯網鏈接天下蕓蕓眾生,而物聯網,鏈接天下萬物。現在中國的手機用戶數突破11億。蕓蕓眾生基本已連起來。不過相比11億,物聯網用戶數則是一個驚人的量級。這些“用戶”也將產生大量的數據。這些數據將來是否要被人類搜索,以什么形式搜索,搜索的結果是什么?
Humor-Funny-l1
二、大數據如何流動
百度的阿拉丁計劃曾經一度擁有吸收結構化數據的魔力,眾多結構化數據如天氣預報、圖書信息等都主動去接入百度框計算。以便從百度獲取流量和用戶。垂直網站們也一度通過SEO提升百度排名。而這個形勢正在逆轉。結構化數據不再主動流到百度。垂直網站們趨于將這些數據私有化,或者有限地開放給部分搜索引擎。
云云搜索由雄心勃勃的Google工程師出來創立,最初立意于做社交搜索。此時FACEBOOK的GraphSearch還不為大家所知。但是云云搜索現在走向了為新浪、即刻等公司提供搜索技術服務的方向。云云搜索之所以在自己的社交搜索上沒有起色,歸根結底就是從搜索切入社交是癡人說夢,因為沒有用戶,就沒有社交,也就沒有社交搜素依賴的數據。云云需要的社交數據在微博。所以,云云投奔微博而去。
百度搜索做了10多年,在如何吸引用戶登錄上做出很多努力,但仍然沒有形成自己的賬號體系。Google煞費苦心的GooglePlus也無法撼動Facebook在社交網絡的地位。同類的例子還有BING。2012年10月沈向陽接受采訪時說BING戰略是社交搜索、實體搜索(移動搜索)和地圖。而現在,BING中國主要方向已變為英文搜索。
1、遠離搜索引擎的數據
搜索需要的大數據掌握在誰手里呢?垂直網站正將其數據私有化,社交網站天生私有化,云應用提供商替保存著用戶的私有數據,APP的數據因為沒有WEB化也是私有化的,當然還有一部分數據掌握在政府、組織、普通企業手里。
數據一度主動流向搜素引擎,而現在結構化的數據,尤其是有價值的結構化數據正在慢慢遠離搜索引擎,流向一個私有的領地。這將產生數據的滾雪球效應:有數據的地方,數據會越來越多;沒有數據的地方,必須為獲得數據付出比蜘蛛爬取更多的代價。
2、搜索引擎將退化,或者改變位置?
傳統綜合搜索引擎接下來要解決的不是“加速信息流動”,因為很多信息都夠不著。這也更加突出Google 以及gmail等可以收集數據的應用對Google未來的意義。或許未來的搜素引擎,百度這種傳統的網頁搜索引擎將退化為“垂直網頁搜索引擎”。因為網頁數據只是網絡數據的一部分,一小部分。這里再次借用王小川的話“WEB已死”。
當然,還有一種可能是搜索引擎仍然可以夠著這些數據,有償獲取。其在生態圈中的位置的變化。搜索吃了免費數據10多年,接下來,搜索引擎要更多地為數據買單。藥監局只是一個開始。
47
三、大數據對搜索的價值
人類已經到了離開信息不能活的地步。數據大爆炸,按照達爾文生物進化論,人類的信息吸收、篩選和處理的能力應該也會進化。人們對信息的需求并不會退化,反而會更加饑渴。而搜索引擎需要解決的問題,不再是幫助人們從海量信息里面找到結果。而是,在海量結果里面找到唯一。快速找到準確的答案比找到更多的答案更重要。
1、結構化數據對搜索的價值。
結構化數據和網頁數據相比,更能滿足第一點:找準唯一答案。網頁分析是靠文本匹配。結構化數據的分析即支持內容提供者的主動接入,也支持搜索引擎的個性化精準分析。這兩種方式都會增加內容提供者或者搜索引擎的成本,但是付出帶來的回報是用戶快速得到準確的唯一的答案。
2、大數據挖掘是搜索引擎的機會。
不再僅僅是加速信息流動,如果只做第一點提的結構化數據接入和展示又太簡單。搜素引擎要做什么呢?幫助人類做人腦不能做的事情:數據挖掘。即從海量數據中挖掘價值。人們都說大數據是一座金礦。但是如何從這座金礦中淘金,人們即沒找到方法,也沒找到工具。
搜索引擎經過十多年的發展,在文本分析、關系發掘、圖譜構造、用戶語義理解等方面已有豐富的積累。這些技術是大數據挖掘依賴的基本技術。咱們會叫它挖掘引擎。而將挖掘和傳統搜索結合起來,通過挖掘響應用戶主動的或者被動的搜索需求,或許咱們可以叫其“推薦引擎”。
豆瓣和一些電商網站早已進行這方面的探索。豆瓣因為最初便將“推薦”作為其核心功能之一,已有一些成型的成果。或許,我們撇開豆瓣的UGC模式,其搜索 推薦的模式值得關注:豆瓣專注文化產品,其早已悄然上線“發現喜歡的東西”,可以點評、分享和推薦任何“東西”,任何“物”。現在屬于低調的實驗性產品,但我認為這可能是豆瓣將來的爆發點,這個將來很遠,因為豆瓣很“慢”。
總結一下:如果說大數據是金礦,擁有大數據的垂直網站、社交網站、APP、云應用提供商、物聯網擁有者、政府組織和企業既是金礦礦山的老板。他們可以自己從金礦里面掘金。也可以將金礦賣給搜索引擎或者大數據挖掘公司來挖掘。搜索引擎為金礦買單的同時,必須將自己從加速信息流動的管道,轉變為會淘金的人。
上一篇:網站建設中的用戶體驗和交互
下一篇:客戶需要什么樣的搜索引擎