進階創新科技技術(第一周)

進階創新科技技術共編(第一個禮拜)

  • 每周的錄音檔都放在這裡

https://drive.google.com/drive/folders/1jQl4cLGAwekYkz6gSCDlR7wwxA4dqbzP?usp=sharing

曾老師 (要求)

  • 爬蟲 PTT、FB
  • 特定網站 (文章)
  • 參考文獻 (有興趣的主題)
  • 老師只有上六週的課程
  • 文字分析為主 結構化資料也可以
  • Kagle、政府的公開資料、Researched Data
  • 從NLP上知道商品的行情
  • 專家系統是甚麼?

第一周

  • 要啥的資料集,NLTK
  • 一組報一篇 NLP 的研究、論文、文獻探討
  • 下禮拜就可以做這件事
  • 我有錄音嘻嘻
  • 臭噁男博士生(人家只是年齡比較大ㄅ…) 我說禮拜一那個
  • HI-EXPEND 是啥意思 (花比較多錢來讀書的人)
  • 說得好,我華山派…
  • 要幹嘛
    • 語意分析
    • 情感分析
    • 網路聲量分析,都不容易

Sources of Big Data

  • In addition to accumulation of traditional data of transactions:

    • Data warehousing (資料倉儲)

    • Cloud computing

    • Social network

    • Internet of Things (IOT)

  • The business data volume is therefore increasing dramatically.

  • Some important attributes may be embedded in or mined from the big volume of data.

  • Therefore, data management issues for the big data are getting 蝦咪挖歌的.

Common Framework of Big Data

  • 六個V(自己查)
    • Volume
    • Velocity
    • Variety
    • Veracity
    • Value
    • 深V

我的帥照(屁啦)

非監督式學習

  • 牛奶跟啤酒(關聯式資料)-

監督式學習

  • 一生只督你一人
  • 有Y那一條的可以督
  • 督的越準、越夯(XGBOOST、DNN)
  • 決策樹(Desision tree) (最老的那種)

增強式學習

深度學習(類神經網路)

AI的三大應用

  • 語言辨識

Prescriptive Analysis

  • 名詞:指導性分析
  • 釋義:根據預測分析的結果,總結及建議不同結果的優化行動。
  • 方法:透過預測分析結果,進行決策

NTLK (好像這才是重點)

1
2
3
4
5
6
7
8
9
10
11
12

# 語料庫在這
from nltk.corpus import brown
brown.words()[0:10]
brown.tagged_words()[0:10]
len(brown.words())
dir(brown)

# 斷句

# 斷字
tokens = word_tokenize(text)

Tokenizers

  • 好多Token,好想玩桌遊。(傻眼….)
  • Token -> 璀璨寶石

    第三堂課

  • Part-Of-Speech Tagging-1

    • 最重要的文字分析之一
    • …投影片都有(也是)
  • Part of speech tagging-2

    • .
1
2
3
4
5
6
from nltk.corpus import treebank
len(treebank.tagged_sents())
train_data = treebank.tagged_sents()[:3000]
print(train_data)
test_data = treebank.tagged_sents()[3000:]
print(test_data)

竟能如此優秀 <3(謝東森)

助教精華(身材跟柏龍一樣)還蠻可愛的

  • 需要加入記憶的結構
  • 裝備很重要嗎 ?
  • 助教除了聲音檔都可以幫我們爬
  • 柏龍想抓AV女優圖(乾我闢是)
  • 表特版抓圖(我好像有抓過) 我抓過西斯<3(想要++) (太讚啦~)
  • 助教剛剛說甚麼模型是最差的 ?
  • 容易過度配飾的模型很差(應該吧)(適拉幹)
  • 87萬張圖(好猛)變成8萬張而已
  • 感覺就跟AI相機一樣
  • 混淆矩陣(到底會不會進複賽呢~好刺激)

一個對話機器人

  1. AI is A Brand’s New Face
  2. Mind the tech Details
  3. Know the difference between conversation AI and conventional chatbots
  4. Integrate Key Data Sets

Crawler & Data Cleanup

1.爬蟲,隨機抽資料
2.採用Python packages或 BASH shells皆可
3.實驗室有PTT的爬蟲資料
4.建議先學習基本linux指令
5.高頻字與低頻字,都比不上可以清理因素的字

結論

  • 幸好還有助教…
  • 有人想跟博班一組ㄇ
  • 我們四個一組不是嗎
  • NLP的文章(要找啥)-各自找在混一波嗎
  • 產品的聲量(上游不太知道通路購買的消費者資料)
  • topical model
  • 我的鮮奶茶機器人

下禮拜的作業

  • 找出分析NLP的方法嗎 ?
  • 我先讀東森說的那兩篇,一些小摘要、心得和 murmur 記錄在這邊