進階創新科技技術共編(第一個禮拜)
- 每周的錄音檔都放在這裡
https://drive.google.com/drive/folders/1jQl4cLGAwekYkz6gSCDlR7wwxA4dqbzP?usp=sharing
曾老師 (要求)
- 爬蟲 PTT、FB
- 特定網站 (文章)
- 參考文獻 (有興趣的主題)
- 老師只有上六週的課程
- 文字分析為主 結構化資料也可以
- Kagle、政府的公開資料、Researched Data
- 從NLP上知道商品的行情
- 專家系統是甚麼?
第一周
- 要啥的資料集,NLTK
- 一組報一篇 NLP 的研究、論文、文獻探討
- 下禮拜就可以做這件事
- 我有錄音嘻嘻
- 臭噁男博士生(人家只是年齡比較大ㄅ…) 我說禮拜一那個
- HI-EXPEND 是啥意思 (花比較多錢來讀書的人)
- 說得好,我華山派…
- 要幹嘛
- 語意分析
- 情感分析
- 網路聲量分析,都不容易
Sources of Big Data
In addition to accumulation of traditional data of transactions:
Data warehousing (資料倉儲)
Cloud computing
Social network
Internet of Things (IOT)
The business data volume is therefore increasing dramatically.
Some important attributes may be embedded in or mined from the big volume of data.
Therefore, data management issues for the big data are getting 蝦咪挖歌的.
Common Framework of Big Data
- 六個V(自己查)
- Volume
- Velocity
- Variety
- Veracity
- Value
- 深V
我的帥照(屁啦)
非監督式學習
- 牛奶跟啤酒(關聯式資料)-
監督式學習
- 一生只督你一人
- 有Y那一條的可以督
- 督的越準、越夯(XGBOOST、DNN)
- 決策樹(Desision tree) (最老的那種)
增強式學習
深度學習(類神經網路)
AI的三大應用
- 語言辨識
Prescriptive Analysis
- 名詞:指導性分析
- 釋義:根據預測分析的結果,總結及建議不同結果的優化行動。
- 方法:透過預測分析結果,進行決策
NTLK (好像這才是重點)
- 找一篇paper來報告
載一下套件
網頁在這 載好久
1 |
|
Tokenizers
- 好多Token,好想玩桌遊。(傻眼….)
- Token -> 璀璨寶石
第三堂課
Part-Of-Speech Tagging-1
- 最重要的文字分析之一
- …投影片都有(也是)
Part of speech tagging-2
- .
1 | from nltk.corpus import treebank |
竟能如此優秀 <3(謝東森)
助教精華(身材跟柏龍一樣)還蠻可愛的
- 需要加入記憶的結構
- 裝備很重要嗎 ?
- …
- …
- 助教除了聲音檔都可以幫我們爬
- 柏龍想抓AV女優圖(乾我闢是)
- 表特版抓圖(我好像有抓過) 我抓過西斯<3(想要++) (太讚啦~)
- 助教剛剛說甚麼模型是最差的 ?
- 容易過度配飾的模型很差(應該吧)(適拉幹)
- 87萬張圖(好猛)變成8萬張而已
- 感覺就跟AI相機一樣
- 混淆矩陣(到底會不會進複賽呢~好刺激)
一個對話機器人
- AI is A Brand’s New Face
- Mind the tech Details
- Know the difference between conversation AI and conventional chatbots
- Integrate Key Data Sets
Crawler & Data Cleanup
1.爬蟲,隨機抽資料
2.採用Python packages或 BASH shells皆可
3.實驗室有PTT的爬蟲資料
4.建議先學習基本linux指令
5.高頻字與低頻字,都比不上可以清理因素的字
結論
- 幸好還有助教…
- 有人想跟博班一組ㄇ
- 我們四個一組不是嗎
- NLP的文章(要找啥)-各自找在混一波嗎
- 產品的聲量(上游不太知道通路購買的消費者資料)
- topical model
- 我的鮮奶茶機器人
下禮拜的作業
- 找出分析NLP的方法嗎 ?
- 我先讀東森說的那兩篇,一些小摘要、心得和 murmur 記錄在這邊