這裡記錄每週值得分享的科技內容,週五發佈。
本雜誌開源,歡迎投稿。另有《誰在招人》服務,發佈程序員招聘信息。合作請郵件聯繫([email protected])。
封面圖

上圖是河南新鄉的中原融創文旅城"冰立方",模仿冰塊堆疊的效果,10個玻璃冰塊組成三個建築單元。(via)
AI 的關鍵是語料
大家有沒有發現,現在打開新聞,都是 AI 模型的消息。
今天甲發佈一個模型,明天乙發佈一個模型,個個(聽上去)都具備了不得的能力。

2023年5月有一個統計,那個時候,10億參數以上的模型,中國已經發布了79個。一年過去了,現在恐怕上千了。

說實話,我現在看到新模型,已經麻木了,壓根不覺得這種消息有什麼重要。
我的觀點是,不管怎麼調整模型的架構、功能、參數,作用是有限的,真正決定性的因素是訓練模型的語料。
不需要說,你的模型多新穎、多強大,只需要告訴我,你用什麼語料訓練模型。
模型完美,但是語料垃圾,一樣不行;反之,模型很平常,但是語料足夠,那就 OK。模型不是關鍵,語料才是關鍵。

這其實不是我的觀點,而是 OpenAI 的工程師 James Betker 的觀點。他是 AI 專家,著名"文生圖"模型 DALL-E 的第一作者。

去年,他寫過一篇文章,只有幾段話,在國外的影響很大。國內似乎沒人提到這件事。但是我認為,這篇文章很重要。
他說,自己的日常工作就是開發 AI 模型,但是不管怎麼增加參數、調整方程,模型效果都不如語料集的大小來得顯著。
更多的訓練材料,會顯著提升模型效果,影響遠大於其他因素。更神奇的是,不同的模型拿同樣的語料訓練,最後的表現居然很接近。
他的結論是,模型的差異其實不是關鍵,決定性的是你的訓練材料。只要有更多更好的語料,不管用什麼模型,都會得到差不多的結果。
初次聽到,你可能覺得,這個結論難以置信,但是仔細想想,你會發現它很可能是對的。
因為不管什麼 AI 模型,最終目標只有一個,就是模仿人類的思維。語料體現的正是人類思維,同一份語料,不管你拿什麼規則去分析,最後得到的結果應該是一樣的,因為它包含的人類思維是不變的。
這就好像,不同的畫家去臨摹同一個模特,如果目標都是復現原貌,那麼只要畫家達到一定水準,不管誰來畫,結果將非常接近,因為模特的長相是不變的。
這告訴我們兩點啟示。
(1)哪一家公司的語料的數量多、質量好,它的模型就會強於其他公司。
(2)開源模型完全可以替代閉源模型,前提是訓練語料要足夠。
下面是 James Betker 的原文,大家仔細讀讀,看看是否認同他的觀點。
我在 OpenAI 工作已經快一年了。這段時間裡,我訓練了很多生成式 AI 模型,比任何人能想到的還要多。
每當我花了幾個小時,觀察和調整各種模型配置和參數時,有一件事讓我印象深刻,那就是所有訓練結果之間的相似性。
我越來越發現,這些模型以令人難以置信的程度,向它們的語料集靠近。
這表明在相同的語料集上訓練足夠長的時間,幾乎每個具有足夠權重和訓練時間的模型都會收斂到同一點。足夠大的擴散卷積網絡會產生相同的結果。
這是一個令人驚訝的觀察!
這意味著模型行為不是由架構、參數或優化器決定的。它由你的語料集決定,沒有其他決定因素。其他一切因素都不過是為了有效計算以近似該語料集的手段。
當你談論 Lambda、ChatGPT、Bard 或Claude 時,指的並不是它們的模型,而是它們的語料集。
稀土開發者大會:徵集議題和早鳥票
國內開發者的線下大聚會要來了,今年的"稀土開發者大會"已經定下了時間,就在六月底。
這次大會的議題非常廣泛:前端、AI、雲計算、架構、DevOps......
最重要的一點是,它向所有開發者開放演講臺。如果你有工具要推出,有開發的經驗要分享,大會都會提供演講臺,讓你展示在全國開發者面前。
只要能引起聽眾興趣的乾貨內容,就可以申請成為演講嘉賓,在該主題的分論壇上臺發言。一旦組委會確定,即可免費參加本次大會。
其他朋友參加大會,可以現在購買早鳥票。兩天的所有活動,學生票只要99元,基本上就是電影票的價格。正常票的拼團價是139元,如果兩天包午餐,價格是799元。

提交議題和購票,都請點擊這個鏈接,或者掃描上方海報的二維碼。早鳥票的時間和名額有限,如果你想結交朋友、感受業內動向,不妨抓緊時間購票。
科技動態
1、氣球屋
住宿平臺 airbnb 推出了一個氣球屋,完美地再現了迪斯尼電影《飛屋環遊記》,住客現在就可以申請入住。

這個屋子的所有傢俱和佈局,跟電影裡面一模一樣。

它的屋頂上了裝了8000個氦氣球。

這個屋子可以"飛"起來,當然不是氣球拉動的,而是用吊車把它吊在半空,然後遊客住在裡面。


我在想,如果吊在半空,水電怎麼供應呢?看來這棟屋子一定配備了水箱、水泵、發電機和電池。
2、AI 小姐
一家英國互聯網公司宣佈,舉辦第一屆世界 AI 小姐選美比賽。

今年5月10日之前,全世界的創作者都可以向它的官網提交作品。
作品不僅僅包括 AI 生成的虛擬美女照片,還必須在社交平臺上與粉絲互動,漲粉數量也是評選指標之一。

評審團將評出前三名,獲得"AI 小姐"的稱號,還有總額2萬美元的獎金。
主辦單位稱,該比賽是為了擴大 AI 的影響,幫助創作者將內容貨幣化。這件事表明,娛樂業將是 AI 最早、最大的應用領域之一。
3、摩托車的呼嘯聲
一些摩托車騎士喜歡非常響亮的引擎呼嘯聲,甚至去改動引擎。他們辯解,大音量的噪聲能夠讓別人儘早注意到,從而減少交通事故。
為了驗證這種說法是否正確,一個羅馬尼亞團隊進行了現場實驗。

他們一共實驗了6輛摩托車,噪音都在80分貝到110分貝之間。這是很大的噪音,飛機起飛時的噪音為100分貝到120分貝,摩托車的噪音就是這麼響。

研究人員發現,如果轎車司機關閉車窗,那麼只有摩托車距離汽車10米之內時,司機才會聽到聲音。這意味著,高速行駛時,司機根本來不及做出反應。
這個實驗說明,保證交通安全的不是響亮的引擎聲,而是要降低車速。
文章
1、CPU 超頻的天花板(中文)

很多玩家喜歡超頻 CPU,越快越好。但是,到達物理極限後,就很難突破。用了整整15年,世界紀錄才從 8G Hz 提高到 9G Hz。
2、空的 S3 存儲桶也能產生費用(英文)

亞馬遜 S3 是最流行的存儲雲服務,作者建了一個空存儲桶,萬萬沒想到,沒有寫入任何數據,兩天居然產生了1300美元的費用。
3、2024阿里巴巴全球數學競賽預選賽(中文)

作者參加2024阿里巴巴全球數學競賽預選賽,全部七道題只會做第1、2、6題,他分享了自己的解答。(@longluo 投稿)
4、Git 的離線使用(英文)

作者介紹沒有網絡怎樣備份 Git 倉庫,比如把本地倉庫推送到 U 盤。
5、如何為項目設置打卡點(英文)

本文介紹一種便捷方法,使用 Makefile 在代碼倉庫裡面設置打卡點(checkpoint)。
6、服務器實時消息獲取的技術方案(英文)

本文比較了瀏覽器獲得服務器實時消息的五種技術方案:WebSockets、服務器發送事件、長輪詢、WebRTC、WebTransport。
AI 相關
這個網站要求上傳三張照片,第一張是佈局,第二張是樣式,第三張是人像。

它會將它們合成一張。


這個網站使用 AI,生成你與名人(或者任意兩個人)的合照。
3、AI 說圖解圖

一個開源軟件,生成上傳圖片的文字描述,基於 ERNIE 3.5 和 GEMINI-PRO-1.5 API。(@ShurshanX 投稿)
4、AI 生成的音樂視頻(英文)

OpenAI 發佈了一段4分鐘的音樂視頻,畫面和音樂都是 AI 生成的。這是迄今 AI 生成的最長視頻。

這個項目對 Hacker News 每天的熱點文章,生成中文的 AI 摘要,除了官網,還會發到飛書上面。(@rmrf 投稿)
6、MaxKB

一款基於 LLM 大語言模型的知識庫問答系統,可以無縫嵌入第三方網站,實現智能問答。(@maninhill 投稿)
這個網站使用 AI 識別上傳照片的拍攝地點。
本文列出七個可以在線試用各種 LLM 的網站。(@webup 投稿)
工具
1、ElysiaJS

JS 語言的 Web 框架,專門為 Bun 運行環境開發。
2、mcfly

Shell 操作歷史的搜索工具,提供神經網絡搜索功能,可以替代 ctrl-r 快捷鍵。
3、DocKit

Elasticsearch/OpenSearch 的跨平臺桌面客戶端,集成了 OpenAI,可以用自然語言與數據庫交互。(@Blankll 投稿)

一款開源的封面設計工具,基於 JS 的 Web 應用,有試用 Demo。(@slince-zero 投稿)
一個命令行工具,通過語音識別,批量為本地的視頻文件生成字幕,並支持翻譯。(@buxuku 投稿)
6、vmr

一個跨平臺的通用版本管理器,目前支持40多種編程語言和工具。(@moqsien 投稿)
7、Pichome

一款開源網盤程序,使用 PHP 開發。(@fhxsnabi 投稿)
8、筆.COOL

CodePen 的國產替代品,實時預覽 HTML、CSS 和 JavaScript 代碼的渲染結果。(@uovol 投稿)

一款類似 styled-components 的 CSS 工具,支持 vue 3。(@akinocccc 投稿)
10、MonsterMusic

一款開源的安卓音樂播放器。(@ZTFtrue 投稿)
11、豆瓣圖書館查詢助手

一款瀏覽器插件,在豆瓣讀書頁面上,查看該書在指定圖書館的藏書情況。(@wyj0605 投稿)
資源
1、技術概念示意圖

這個倉庫收集各種技術概念的示意圖。
2、海棠詩社

網友開發的詩詞網站。(@javayhu 投稿)
3、svgl

一個常用徽標 Logo 的搜索引擎,提供 SVG 文件下載。

你輸入一個關鍵詞,這個網站自動生成它的樂高拼裝。(@husu 投稿)
圖片
蘋果的 MacBook 筆記本,內存是 8GB。如果要更多的內存,就要花錢買,價格非常貴。

大家都在質疑,為什麼內存這麼少?相比之下,Windows 筆記本的最小內存,現在一般都是 16GB。
蘋果解釋,macOS 系統效率高,自家的 8GB 內存等於別家的 16GB。
有人畫了一張 MacBook 內存演變圖。

從上圖可以看到,蘋果以前是經常升級內存的,每過幾年就升級一次。
但是,2011年以後只升級過一次內存,從 6GB 變成 8GB,以後就一直沒升級。
有意思的是,2011年是蒂姆·庫克成為蘋果 CEO 的時間。他以前是主管供應鏈的,以成本控制而聞名。
2、PalmOS
還有人記得 iPhone 之前的智能手機嗎?
當時主要系統是諾基亞的塞班、微軟的 Windows CE 和 PalmOS。下面就是 Palm 手機。

它的用戶界面如下。



不要覺得簡陋,那是當時最先進的系統,售價幾千元人民幣一部。
文摘
1、飽腹感指數
什麼食物最能夠消除飢餓感?
一個澳大利亞科學家發明了"飽腹感指數"。他選出38種食物,每一種的熱量都是240卡路里。
實驗者依次食用每一種食物,每吃一種,就要在隨後的兩小時中,每隔15分鐘為自己的飽腹程度打分。

最後發現,碳水化合物(麵包、炸薯條、煮土豆)的效果最好。其中,煮土豆的飽腹感指數最高。
這是因為食物中含有的纖維、蛋白質和水越多,消化時間就越長,從而產生更久的飽腹感。而且,碳水化合物會立即升高血糖,從而使得身體馬上知道已經飽了。
煮土豆含有大量的纖維和水,同樣熱量的情況下,體積又很大,還會升高血糖,所以產生了長時間的飽腹感。

水果的飽腹感指數也很高,因為水份和纖維含量大,但是水果的熱量低,同樣熱量的情況下,水果的份量最多,不容易全吃下去。而且,水果的胃排空速度很快,第二個小時飽腹感就會消失。
高脂肪食物的飽腹感很差,因為它們的胃排空速度也很快。所以,吃肥肉容易餓。
因此,水果搭配高碳水、高蛋白的食物一起吃(比如全麥麵包 + 瘦肉 + 橙子),是一個比較好的飲食方案。
言論
1、
軟件公司應該提倡"無罪文化"。
發生產品事故或者服務中斷時,不要認定罪人並懲罰他們,而要假設相關個人出於良好意圖,只是沒有得到正確的信息來做出更好的決策,或者沒有工具及時制止他們犯錯。
-- 《關於無罪文化》
2、
我們做的許多不想做的事情,實際上很容易開始做,比如很容易開始喝酒,或者很容易打開抖音。
如果你想停止做這些事,首先就是要設法增加障礙,讓自己很難開始做它們。
-- 《出現就是成功的75%》
3、
科技行業的一切,核心都是利潤,而不是其他任何事情。因此,你需要儘快推出新產品或新服務,這樣才可能產生利潤。這意味著儘量使用更多的抽象層、更多的自動化、更少的人員,結果就是開發者越來越缺乏對技術的深入理解。
4、
島嶼巨人症指的是一種生物現象,生存在島嶼上的動物,小型物種往往會身體變大,因為缺乏天敵。相應地,大型物種往往會身體變小(又稱"島嶼侏儒症"),因為不容易有穩定的食物供給。
-- 維基百科
5、
風險投資家沒有理由破壞與你的關係,他們拒絕你的時候不會說"不",而會用其他400種說法,比如"等你的用戶再多一點的時候,再和我們談談"、"當你下一輪融資時,請來找我們"。
往年回顧
互聯網創業變難了(2023 #252)
三個有啟發的學習方法(2022 #202)
從北大到技校(2021 #152)
工作熱情從何而來?(2020 #102)
(完)












