Google Data In 2006 | |
Data |
Size (TB) |
Crawl Index |
800 |
Google Analytics |
200 |
Google Base |
2 |
Google Earth |
70 |
Orkut |
9 |
Personalized Search |
4 |
這壓縮的數(shù)據(jù)的大小接近 TB(1024GB)。而 Google 透露的數(shù)據(jù)大小超過 1PB(1048576GB)。這甚至不需要考慮 AdSense,Gmail,Google Map,街景,Google圖片,或者其他私有數(shù)據(jù)庫。并且這些數(shù)據(jù)都是超過2年前的。
大量的數(shù)據(jù)分析
這就有點像 Charlie and the Chocolate Factory (電影《查理與巧克力工廠》)。我們都知道有很多數(shù)據(jù)都進入到 Google 那里,我們也知道有大量處理好的數(shù)據(jù)會導出來。我們就只是不知道兩者之間是發(fā)生了什么,是怎么轉(zhuǎn)換的。
我們也知道 Google 本身有很多運算法則組織他的數(shù)據(jù),Page Rank 就是最出名的了。據(jù)說,Google 也有很多復雜的 spam 的過濾系統(tǒng),內(nèi)容復制過濾系統(tǒng),類型偵查運算法則,自然語言解析程序,圖像識別軟件,和其他大量的復雜的軟件。
永久備份
Google 上的數(shù)據(jù)最終的棲息地可能會在永久存儲。Google 的隱私政策提示某些用戶數(shù)據(jù)永遠都不會完全被刪除,因為已經(jīng)被永久的備份。
理解Google收集特定用戶的數(shù)據(jù)情況
以下都是一些當用戶與很多網(wǎng)站交互的時候 Google 收集到的用戶的資料的清單列表。這意味著其實有更多的數(shù)據(jù)被 Google 收集而卻又沒有公開的。不過其實無知就是幸福,當你看完之后,你或許會感覺很不爽:
Google用戶數(shù)據(jù)收集情況匯總:Google用戶數(shù)據(jù)收集情況匯總
你能相信 Google 會幫你保密一切信息么? 你敢相信 Google 會遵守所有保密要求么?
原文地址:http://semwatch.org/2009/11/evil-of-google-data
標簽:陜西 嘉峪關(guān) 崇左 陽江 烏魯木齊 南京 百色 中衛(wèi)
巨人網(wǎng)絡通訊聲明:本文標題《Google 處理采集數(shù)據(jù)的一些分析》,本文關(guān)鍵詞 Google,處理,采集,數(shù)據(jù),的,;如發(fā)現(xiàn)本文內(nèi)容存在版權(quán)問題,煩請?zhí)峁┫嚓P(guān)信息告之我們,我們將及時溝通與處理。本站內(nèi)容系統(tǒng)采集于網(wǎng)絡,涉及言論、版權(quán)與本站無關(guān)。