Day 1 201 Meeting Room 11:15 - 12:00

Talk/演講: PyPtt - PTT 登入式爬蟲

PyPtt (PTT Library) 是一套 Pure Python PTT Library。 你可以使用 PyPtt 操作 Ptt 大部分常用功能,比如推文、發文、爬蟲、寄信、發 P 幣、丟水球或者追蹤帳號,你都可以在這裡找到完整的使用範例。 而 PyPtt 有別於其他爬蟲採用網頁式爬蟲需要把整個看板爬下才可以做分析,PyPtt 的爬蟲功能採用了獨家登入爬蟲技術,可以使用 PTT 內建的搜尋功能,可以很方便的瞄準你想研究的關鍵字。 如果你會需要 PTT 的語料,那這將會是你不容錯過的分享。

批踢踢實業坊(PTT)作為一個在臺灣學術網路發展也是目前最具規模的公民發聲平台,每天都有非常大量的文本產生。
但在 2017 年,Github 上並未存在一個對 PTT 有比較完整支援的 Python 函式庫。因此進而催生了 PyPtt,可以讓每一個 Python 開發者都可以很簡單地使用 Python 操作 PTT,例如: 推文、發文、寄信、登入式爬文或者查詢帳號的狀態等等。
我們可以使用這些功能實作出,爬蟲、看到特定文章關鍵字自動寄送信件給作者、聊天配對服務、批踢踢一次性密碼(PTT OTP)還有水球通訊軟體等等,非常實用的功能。
其中爬蟲功能採用了獨家登入爬蟲技術,並且功能強大,大幅度降低了使用門檻,也可以針對感興趣的關鍵字下載語料。
在這個演講裡,希望每一位聽眾聽完之後,都可以很簡單上手地下載 PTT 資料。

Speaker/講者: CodingMan

本身是個後端開發者
目前是還正在開發中 PTT 官方 app 的後端成員
也是這次演講的主角 PyPtt 的作者
https://pttcodingman.github.io/

Subscribe to Receive PyData Updates

Subscribe