元智大學資訊管理學系 第二十七屆專業實習報告(1111學期)
研究主題: 關鍵字萃取技術應用於網路新聞外匯投資分析
姓 名:王芷軒
組別代號:ZV02
學 號:1081333
實習單位:元智大學
指導老師:禹良治教授
工作內容
工作環境介紹
我的工作環境比較偏向自主學習的方式進行學習,所以目前我是使用自己的電腦找相關資料進行學習,如果在學習過程中有遇到問題,會先上網尋找解決方式,像是相關的部落格還有搜尋相關的教學影片,如果真的無法解決才會詢問學長姐或是寄信詢問教授。
工作詳述
我是藉由搜尋搜尋網頁以及尋找相關Python影片教學進行學習,先從最基本的語法開始學習,熟悉基本語法後,我自行學習了讀取檔案相關的基礎程式碼以及網路爬蟲基礎的使用方法。
暑假期間,有幫教授做了一些VA標註工作,自己還有自行上網學習Jieba和TF-IDF相關的資料學習。
開學之後針對實作中遇到的問題進行排除,若真的無法排除就另外尋找其他解法達到我想呈現的目標。
實習期間完成的進度
-
學習最基礎的python語法和for、while、if else的迴圈學習
-
學習最基礎的讀檔文件與寫入文件
-
定義function 函式呼叫函式
-
學習split
-
學習網路爬蟲
-
利用beautifulsoup套件解析原始碼去抓取網頁刊版的標題
-
TF-IDF的學習
-
Jieba斷詞
-
做成文字雲
工作扮演的角色
目前是自己一人進行學習,需要自己安排學習進度以及安排自己學習的時間,花了蠻多時間尋找自己容易理解的內容,以及自己想要學習的相關內容,所有文件和工作都是自己完成。
學習
工作中所學習到的東西
工作中所學習到的東西:
110學年下學期:學習基礎的Python 、初步的爬蟲學習
110學年暑假:
-
將爬蟲練習實作,使用beautifulsoup 去抓去PTT的標籤
-
學習Jieba斷詞、TF-IDF的詞語計算
111學年上學期:
Jieba分詞
可分成三種模式,分別為精確模式、全模式、搜尋引擎模式,支持繁體字分詞,也可以自定義詞典
TF-IDF
TF-IDF(Term Frequency–Inverse Document Frequency)是一種用於資訊檢索與文字挖掘的常用加權技術。是一種統計方法,用來評估字詞對於一個檔案集或一個語料庫中的重要程度。字詞的重要性隨著它在檔案中出現的次數成正比增加,但同時會隨著它在語料庫中出現的頻率成反比下降。在一份給定的檔案裡,詞頻(term frequency)指的是某一個詞語在該檔案中出現的頻率。對於在某一特定檔案裡的詞語來說,它的重要性可表示為:
逆向檔案頻率(inverse document frequency,idf)是一個詞語普遍重要性的度量。某一特定詞語的idf,可以由總檔案數目除以包含該詞語之檔案的數目,再將得到的商取以10為底的對數得到:
檔案內的高詞語頻率,以及該詞語在整個檔案集合中的低檔案頻率,可以產生出高權重的TF-IDF。因此,TF-IDF會過濾掉常見的詞語,然後將重要的詞語保留下來。
學習成果
印出未斷詞過的文章和斷詞過的文章,在這裡用的是Jieba分詞的精確模式,
coin.txt有事先將特殊符號進行處理
精確分詞過的文章和未分詞文章的差異
將精確分詞過的詞存成文件
從分詞過的文檔當中,去計算每篇文章出現的次數,並印出次數最多的前10個詞
設定停用詞前,文字雲中出現很多多餘的字
設定停用詞,將多餘的字移除
設定停用詞之後,相關的字詞相對明顯
自我評估
這學期的自我學習,我覺得我蠻努力的,要找到自己聽得懂的教材也花了不少時間,基礎語法學完之後,往更深入的學習,像是讀檔和網路爬蟲,又多了更多的語法,一個一個去理解作用和用法,看到沒學過的HTML,繼續找資料理解HTML的用法,這段時間的學習真的讓我自己不斷的去找解答,自我解決的能力提升了一些,在自學能力方面也提升了一些。
暑假期間,我做了很多學習,除了去補習班上課,剩下時間就上網找資料進行研究學習,明明是暑假,自己卻過得很忙碌,很認真的學習當個時間管理大師,不過暑假也是很認真的進行學習了。
四上開學之後,變的課業和專題都要顧,在尋找解方的過程中花了多時間,現在想想,從零開始到最後完成一個我想嘗試的題目,可能做的題目不是很酷或是做得很厲害,不過對我來說是很大的學習,在錯誤的代碼中不斷尋找解方,真的是做了很多的嘗試。
在實習期間,花了很多時間在找資料學習。因為是第一次碰到的領域,比較不知道往什麼方向去下手,找了很多資料,在一點一點的去把題目做出來,中間遇到很多問題,中間也嘗試不同的套件方法去達到我想做的效果。
再來就是實習成果競賽,競賽前需要做出網頁,第一次做網頁也是花了很多時間去摸索嘗試,最後還是有按時地把所有文件完成,競賽當天我也沒想過我可以重複地對這麼多學弟妹介紹我題目的內容,總結來說自己是很努力地把題目做完了,也在這學習的過程中接觸到不同的方法不同的套件,在Python不是非常熟悉的狀態下,去完成了這次的實習題目。
心得感想
這一年的實習,我覺得我收穫很多,我做的內容或許不是一個非常酷的東西,但是在過程中像是時間管理,發現自己確實進步很多,因為學校還有課業要顧,還要準備研究所考試,在時間掌控上和計畫安排上比之前好很多。
在做專題的過程中,發現自己在程式語言上真的太多不足,所以一開始先從最基礎的開始練習,到後來開始摸索到爬蟲相關的,最後實作出來。
在實作過程中也遇到超多問題,以前學習程式語言的時候,因為比較像是邏輯的訓練,錯誤的文字訊息相對簡單理解,詞語重複性也高,到了做這次的專題,錯誤的文字訊息經常讓我無法理解到底錯在哪,在不斷的練習過後,現在比較了解查詢的方法是什麼了,現在發現相較以前,好像解決問題的速度相對快很多。
很感謝教授讓我自己去學習我想嘗試的東西,雖然內容不是什麼很酷的東西,但是在自己摸索的過程中發現自己的問題和自己的不足,做完發現又有想要去學習的其他東西,也感謝自己努力地去學習並完成這一年的實習。
對系上的建議
我覺得系上有這種實習制度還不錯,可以推動同學去提早思考想出去工作還是想繼續升學,校外實習的話可以提早尋找自己想要的工作崗位是什麼,也可以累積履歷,提早跟社會接軌,校內專題的話可以提早尋找自己有興趣的研究方向,擁有更多時間去準備升學相關考試,這樣的制度可以讓學生可以針對自己的需求去做選擇,跟其他沒實習制度的資管系相較之下,多了一份實習的工作經驗。