這裡記錄每週值得分享的科技內容,週五發佈。
本雜誌開源,歡迎投稿。週刊另有《誰在招人》服務,發佈程序員招聘信息。合作推廣請郵件聯繫([email protected])。
封面圖

這不是美術館,而是杭州臨安三口村的楊梅大棚,沿著山坡堆疊在一起。(via)
本週話題:訓練材料用完之日
現在的新聞報道,天天有 AI 的新聞,裡面會提到很多模型。
分辨模型的強弱,有一個關鍵指標,就是看它有多少個參數。一般來說,參數的數量越多,模型就越強。
GPT-2 有15億個參數,GPT-3 和 ChatGPT 有1750億個,GPT-4 沒有公佈這個指標,據傳比上一代大5倍以上。

那麼,什麼是參數呢?
按照我粗淺的理解,參數相當於模型預測時,所依據的神經網絡的節點數量。參數越多,就代表了模型所考慮的各種可能性越多,計算量越大,效果越好。
既然參數越多越好,那麼參數會無限增長嗎?
答案是不會的,因為參數受到訓練材料的制約。必需有足夠的訓練材料,才能計算出這些參數,如果參數無限增長,訓練材料勢必也要無限增長。
我看到的一種說法是,訓練材料至少應該是參數的10倍。舉例來說,一個區分貓照片和狗照片的模型,假定有1,000個參數,那麼至少應該用10,000張圖片來訓練。

ChatGPT 有1750億個參數,那麼訓練材料最好不少於17500億個詞元(token)。"詞元"就是各種單詞和符號,以小說《紅樓夢》為例,它有788,451字,就算100萬個詞元。那麼, ChatGPT 的訓練材料相當於175萬本《紅樓夢》。
根據報道,ChatGPT 實際上用了 570 GB 的訓練材料,來自維基百科、互聯網圖書館、Reddit 論壇、推特等等。

大家想一想,更強大的模型需要更多的訓練材料,問題是能找到這麼多材料嗎,會不會材料有一天不夠用?
我告訴大家,真的有學者寫過論文,研究這個問題。
過去10年來,AI 訓練數據集的增長速度遠快於全世界的數據存量的增長速度。如果這種趨勢繼續下去,耗盡數據存量是不可避免的。
論文給出了三個時間點。
- 2026年:用完一般的語言數據
- 2030年~2050年:用完所有的語言數據
- 2030年~2060年:用完所有的視覺數據
也就是說,根據他們的預測,大概三四年後,新的訓練材料就會很難找。最遲三十年後,全世界所有材料都不夠 AI 的訓練。

上圖是作者給的趨勢圖,虛線是訓練材料的增長速度,紅線和藍線是模型增長速度的不同預測。到了2035年以後,這三根線就合在一起了,曲線變得越來越平。
作者認為,到了那時,由於沒有足夠的訓練材料,AI 模型的發展速度可能就會顯著放緩。
如果他的預測是正確的,就意味著,跟大家想的不一樣,AI 飛速發展不會持續很久。現在也許就是發展最快的階段,然後就會開始放慢,等到本世紀中葉就會顯著放慢,接近停滯,跟量子物理學的現狀差不多。
科技動態
1、車輪轉向系統
韓國現代汽車發佈了一項新技術,允許每個車輪獨立轉動90度。

演示視頻中,這輛概念車可以橫著開,也可以原地調頭。
雖然實用性很強,但是該技術增加了車輛的複雜性和成本,對於正常行駛是否有影響也未知。現代汽車沒透露,是否會將其投入生產。
2、電腦椅的靜電
一位國外網友發帖說,他家的顯示器經常莫名其妙暗掉幾秒鐘,然後又好了。
他原以為是顯示器問題,後來發現只有移動電腦椅、或者坐下站起時,才會發生這個故障。

他的電腦椅是宜家的 MARKUS,很多網友回帖說,他們的這把電腦椅也有這個問題。
這把椅子的織物材料或者金屬座架,容易帶有靜電,一移動就會導致放電,使得電腦顯示器短時間關閉。
解決方法似乎只有換掉這把椅子,但也有動手能力強的網友,為椅子接上地線,讓它通地,從而解決了放電問題。



一項研究發現,無線耳機可以取代助聽器,幫助聽力受損的人,

蘋果的 Airpods 耳機有一個"實時收聽"功能,可以放大外界聲音,跟助聽器的功能很像,實際效果也很好。
助聽器的價格非常貴,好的要幾萬元人民幣,普通的也要幾千。無線耳機如果真能替代,將造福很多失聰的人。
4、沙壩蓄水池
韓國為了解決山區在旱季斷水的問題,新建了該國第一座沙壩蓄水池。


壩體內部有一個砂石的蓄水池,平時用來蓄水,需要時打開管道,讓水流向下游。

這樣做據說有三個好處:水的蒸發大大減少;水質在通過沙床時得到改善;冬天的水不結冰。
5、智能婚戒
一家捷克公司推出"智能婚戒",這種婚戒可以感知佩戴者的心跳,並且能將心跳曲線顯示在戒指上。

有趣的地方是,它顯示的不是自己的心跳,而是對方的心跳。
它通過藍牙與手機通信,只要佩戴者按壓戒指,手機就會聯絡另一隻配對的戒指。

對方的心跳頻率,就會傳到你的手機上,心跳曲線也顯示在戒指上。

發明者稱,它讓你隨時感受到愛人的浪漫心跳。它採用玫瑰金材質,報價是3000美元/對。

文章
1、我的開源經歷(中文)

作者分享自己的經歷,開發一個圖片編輯的網頁應用。(@nihaojob 投稿)
2、如何自己實現 CodePen(英文)

CodePen 是著名的網頁實時編輯預覽工具,本文教你怎麼實現它的主要功能,非常簡單。
3、tcpdump 快速上手(英文)

作者教你怎麼使用 tcpdump 這個命令行工具,查看某個網站的 TCP 通信。
4、WebGPU 為什麼重要(英文)

操作系統的圖形 API,目前是不統一的:Windows 是 DirectX,蘋果是 Metal,Linux 是 Vulkan。
WebGPU 是一種跨平臺的解決方案,提供了統一的接口。推薦這篇長文。
5、我開發 PCalc 的30年(英文)

作者在1992年為 Macintosh 電腦寫了一個計算器 PCalc(上圖)。後來,他一直維護這個項目30年,還把它移植到蘋果公司的其他設備上,比如 iPhone 和 iWatch(下圖)。作者回憶了他這30年。

6、使用 hurl 自動化 HTTP 測試(英文)

本文介紹一種簡單的方法,使用 hurl 這個軟件,對網站 API 進行自動化測試,看它是否正確響應。
7、編程語言的錯誤處理機制(英文)

本文討論不同的語言如何處理報錯,比如 Java 會拋出異常,而 Go 將錯誤賦值給一個變量。
這裡還有一篇相同主題的文章,也值得參考。
8、瘋狂的 C 語言字符串(英文)

本文是 C 語言的字符串教程,從結尾的\0講到 Unicode,結論就是在 C 語言裡面,正確處理字符串是一件多麼麻煩的事情。
工具
1、stagit

這個軟件可以將 Git 倉庫轉為一個靜態網站,為每個文件、每次提交生成一個頁面。
2、元標籤生成器

很多社交媒體對於外部 URL,會顯示一個卡片,上面有標題、縮略圖和頁面簡要內容。這些信息來自網頁裡面的元標籤,這個工具可以幫助你生成這些元標籤。
3、CJK 字體識別

上傳一張東亞文字的圖片,這個開源工具可以識別這些文字用了什麼字體。(@JeffersonQin 投稿)

一個自託管的開源微博網站,只能一個人使用(即沒有多用戶),支持 ActivityPub 協議。

一個終端窗口的 Markdown 文件渲染器,適合用來在終端下閱讀 Markdown 文件。

這個網站為用戶輸入的文本,生成一個用於分享的 URL。但是,這個 URL 只能打開一次,第二次訪問就會不存在,有點像"閱後即焚"。

一個帶有上傳進度顯示的網頁多文件上傳 JS 庫。
8、snappify

一個將代碼片段生成截圖的工具。
9、RustDesk

一個開源的遠程桌面軟件,讓你遠程操作其他電腦的桌面,有各種操作系統的客戶端。
10、LosslessCut

一個視頻編輯器,最大特點是不進行重新編碼,按照原視頻的格式進行剪切連接,因此速度極快。
資源

吳恩達與 OpenAI 合作的免費英文課程,教大家怎麼編寫 ChatGPT 提示,做出一個自己的聊天機器人。

Udemy 高分付費課程的中文字幕版。(@lyf61 投稿)

解釋 QUIC 協議通信的每個字節的含義,原始英文版的翻譯。(@cangSDARM 投稿)
4、Musico

一個自動生成音樂的 AI 模型,它的官網可以收聽這個模型生成的音樂。
圖片
1、雲的表情
一位美國藝術家專門為各種雲的照片,添加表情,使得雲看上去像一個卡通人物。


他原本只是出於無聊,隨手拍了一些雲的照片,畫上表情以後,發到網上。
後來,他發現很多人喜歡這些作品,就堅持了下來。


他說:"看著雲,你會產生無窮無盡的靈感。"
現在,越來越多的讀者向他投稿。他還準備出書。

文摘
1、忙碌的七個層次
生活的忙碌可以分成七個層次。
大家可以對照一下,自己屬於哪個層次?

第 1 級:一點不忙。
時間很自由,怎麼安排都可以,沒有一定要去完成的事項,週末想睡多久就多久。
第 2 級:有一些小事。
你記得有一些事要做。這些事情是合理的事項,沒有截止期,但是你知道這些事遲早要做。
第 3 級:有一些重要的事。
你有必須要做的事情,需要及時跟蹤,不能拖延,你會時刻提醒自己這些事情。
第 4 級:日程排滿了。
你的日程排滿了,不得不經常問自己"什麼事情更重要?",以便決定先做哪些事,後做哪些事。
你沒有計劃外的時間,不過你還能控制日程。
第 5 級:生活出現混亂。
你的事情在工作時間做不完,你開始加班了。
你經常因為事情來不及,而對別人說"對不起"。那些事情並沒有被你放棄,只是你不得不趕時間,有些事情執行變得草率。
第 6 級:任務做不完。
你需要做的事情,超過了你安排日程的能力。即使放棄某些事情,你依然做不完剩下的事情。
你的工作時間大大延長,影響到正常生活。你感到非常疲勞。
第 7 級:日子過不下去。
各種任務塞滿了你醒著的每一分鐘。吃飯和其他生活必需的事情,都是抽時間來做。你忙起來的時候,甚至飯也沒時間吃。
你不寫日程安排了,因為根本沒有時間做計劃,每個小時情況都在發生變化。
你走路也心不在焉,常常覺得要崩潰,日子過不下去了。
言論
1、
我離開谷歌,是為了呼籲 AI 的風險,在谷歌任職不方便談論這些事情。
-- "深度學習之父"傑弗裡·欣頓(Geoffrey Hinton),宣佈從谷歌辭職
2、
歐洲的問題是,沒有將互聯網視為可利用的經濟機會,而是看成需要監管的對象。
3、
大多數人都認為,手下的人比自己聰明,是沒有問題的。一般來說,領導人都要聘請比自己聰明的顧問和幕僚。
那麼,當你的手下變成了比你聰明的 AI 模型時,人們為什麼會感到受威脅呢?
-- Yann LeCun,Meta 首席 AI 科學家
4、
要成為優秀程序員,請編寫大量代碼;要成為頂級程序員,請閱讀大量代碼。
歷史上的本週
如何走出失望和懷疑(2022 #206)
顯卡缺貨與異業競爭(2021 #156)
數字遊民(2020 #106)
文科生為什麼不容易就業?(2019 #56)
鳴謝
週刊得到國內新一代知識管理與協作平臺 FlowUs 的幫助,深表感謝。
FlowUS = 文檔 + 表格 + 網盤。你可以用它寫文檔、做主頁、管理數據、存儲文件等等。
每一期週刊同時發佈在 FlowUs 專欄,歡迎大家也去開通自己的專欄和主頁。

(完)












