2013年10月13日 星期日
2013年10月7日 星期一
2013年10月5日 星期六
Homework 9-30-2013
1. Watch Tim Berners-Lee's talk on ted.comWrite a 200 word summary about his speech.
「Linked Data」的需求始於當前的研究不在只是單一領域的探討,有時候是需要不同領域之間相當尖端的研究結果,才能使當前的研究往前邁進,因此,資料的分享在當中扮演了相當重要的角色,這就像是大公司中每一個研究團隊彼此分享研究的結果,我能快速從其他團隊得到我所需要的資料,節省下來的人力物力是相當可觀的。
「Linked Data」的需求始於當前的研究不在只是單一領域的探討,有時候是需要不同領域之間相當尖端的研究結果,才能使當前的研究往前邁進,因此,資料的分享在當中扮演了相當重要的角色,這就像是大公司中每一個研究團隊彼此分享研究的結果,我能快速從其他團隊得到我所需要的資料,節省下來的人力物力是相當可觀的。
「RAW DATA NOW!!」的構想有多重要,如果每篇論文只將成果數據發表,卻將使用的方法私藏在資料庫中,這將使我們下一篇的「進步」變的非常困難與緩慢。少了資訊的分享,我們每個人都得花上相當多時間「浪費」在別人走過的路上,少則一、兩個月,多則數十年。
2. Google 的創業動機是什麼?
根據統計顯示,網際網路的網頁數量達到數千億,密集程度已經逼近人類腦神經,這樣的成長便凸顯了搜尋引擎嚴重的問題,我們如何在最短的時間內搜尋到對我們最有幫助的資料呢?
1995年,正值互聯網技術第一波熱潮時期,史丹佛大學整個電腦系都在談論著未來的網路如何發展,但Google的兩位創辦人Larry Page和Sergey Brin卻發現一件事──當時的搜尋引擎效率奇差無比。當時的搜尋引擎採用的方法,是某個關鍵字在一個文檔中出現的頻率越高,該文檔在搜索結果中的排列位置就越顯著,因此,使用者可能因為輸入的搜尋文字略微不同,而得到不同的網頁結果,這當中還不包括搜尋到的網頁是否對使用者提供有用的資訊。Google採用的理念是一個網頁的重要性取決於它被其他網頁鏈結的數量,每一個鏈結都是一張價值不等的「選票」,所獲選票的總價值將決定誰將被安置在最重要、最顯赫的位置上,這樣的「公平競爭」使對使用者最有幫助的網頁資訊能在最短的時間內獲得。
參考資料:
網路資料
3. Facebook的創立動機是什麼?
臉書創辦人馬克祖克伯在與女朋友分手後在blog寫下當時心情,幾位好朋友原先是想安慰馬克祖克伯,馬克祖克伯卻向他們討論起了「正妹演算法」,並開放讓所有哈佛男生參與討論,接著透過這樣的大型社交網頁構想,他們建立一個校內學生「把妹交友」的平台,最初只限於哈佛校內的學生透過學生帳戶使用,後來拓展到長春藤聯校,一直到現在全世界擁有數億臉書用戶。
參考資料:
電影:社群網戰(The Social Network)
4. WWW的發明動機是什麼?
全球資訊網的概念是創辦人Tim Berners-Lee一九八零年從CERN 一連串工作中得到的啟發,CERN是相當著名的物理研究中心,來自世界各地的工程師和科學家在CERN從事物質最根本特性的研究,但在看似世界人才聚集中心的CERN卻也為此困擾,面對來自世界各地各種不同的作業系統愛好者,更別說麥金塔使用者和IBM/PC使用者的壁壘分明了。在CERN常看見開發人員不斷鼓吹某些系統,說可以「幫助」人們整理資訊,但前提是你必須先將文件分成四類,導致許多研究員火冒三丈,因為這些開發人員強迫他們要重新整理原本的研究,才能符合新系統。Tim Berners-Lee認為,開發人員應該利用最普遍的規則來建立一套系統,讓大家都能接受,最好事不要有任何規則,於是他採用「超文字」當作極低限系統當模組,並希望這樣一套系統能完全不受中央控制,這樣才能使一個人在開始存取資料之錢不需要得到任何人的允許,這也是能使這套系統擴大規模的唯一方法。但最重要的,是使不同的電腦可以相互結合,形成新的資訊網,所有系統都能擺脫束縛並參照其他系統。而這些概念,最後完成了「World Wide Web」(全球資訊網)。
參考資料:
圖書館書籍:一千零一網 Tim Berners-Lee/著 p.009~p.029
5. 為什麼 Lab 4 的各校檔案數,能見度,檔案數,論文數,加權總和用來計算排名的方法是錯的?
1)筆者以人工方式查詢網頁,發現有圖 一所示的現象。亦即,在不同時間(相隔數秒)、不同介面(中文、英文介面),Google的查詢結果數量會不一樣,甚至差距達1,200萬頁左右。此現象 被專業的網友稱為Google Dance,用來描述Google在更新索引時,搜尋結果數量跳動不穩定的情況。
2)針對搜尋引擎查詢結果的分析顯示,網頁資料的雜訊相當高,變動非常快。因此,利用網路資料來排名有其先天上的缺點,亦即較細微的排名結果可信度較差,爭議亦較高。
3)上述資料多寡或許可以判斷學校與學校之間的排名,但前提是比較的學校需要有一定相同範圍內的創校歷史,因為一間學校成立多久是會影響到檔案數、能見度、檔案數、論文數等項目的,但是創校二十年的學校就一定比創校四十年的學校差嗎?這仍需要透過計算其他數據採樣來證明了。
2)針對搜尋引擎查詢結果的分析顯示,網頁資料的雜訊相當高,變動非常快。因此,利用網路資料來排名有其先天上的缺點,亦即較細微的排名結果可信度較差,爭議亦較高。
3)上述資料多寡或許可以判斷學校與學校之間的排名,但前提是比較的學校需要有一定相同範圍內的創校歷史,因為一間學校成立多久是會影響到檔案數、能見度、檔案數、論文數等項目的,但是創校二十年的學校就一定比創校四十年的學校差嗎?這仍需要透過計算其他數據採樣來證明了。
2013年9月30日 星期一
Lab4
一、網頁規模(Size),占20%:統計各大搜尋引擎如Google, Yahoo等系統記錄的各大學網頁頁數。
Google:台灣大學: 2,240,000
中正大學: 2,100,000
中原大學: 1,180,000
元智大學: 250,000
Yahoo:
台灣大學:14600
中正大學:4910
中原大學:42800
元智大學:7890
二、能見度(Visibility),占50%:統計搜尋引擎如Yahoo記錄的各大學網頁被連結數(total number of unique external links received, i.e., inlinks)。
台灣大學: 27663中正大學:6937
中原大學:3086
元智大學:2963
三、教學檔案(Rich Files),占15%:統計搜尋引擎如Google記錄各大學網頁的多種類型檔案個數,包含Adobe Acrobat(pdf), Adobe PostScript(ps), Microsoft Word(doc)與Microsoft Powerpoint(ppt)等形式之檔案。
台灣大學:中正大學:
中原大學:108000
元智大學:128000
四、學術文件(Scholar),占15%:由Google Scholar網站所搜尋到之學術文章等學術研究相關的文件數量。
台灣大學: 60200
中正大學: 17900
中原大學: 10900
元智大學: 4230
排名:
1.台灣大學:450920+13831.5+255000+9030 = 728781.5
2.中正大學:420982 +3468.5 + 36150 + 2685 = 463285.5
3.中原大學:244560+1543+16200+1635 = 263938
4.元智大學:51578+1481.5+19200+634.5 = 72894
Lab6
1. download Firefox
2. control font size
3. tabbed browsing
4. subscribe to the course blog
5. Using bookmarks to test RSS feed
訂閱:
意見 (Atom)









