科技愛好者週刊（第 348 期）：李飛飛，從移民到 AI 明星

這裡記錄每週值得分享的科技內容，週五發佈。

本雜誌開源，歡迎投稿。另有《誰在招人》服務，發佈程序員招聘信息。合作請郵件聯繫（[email protected]）。

封面圖

5月1日，宇宙飛船造型的深圳科技館新館開館，上圖是設計團隊在新館前合影。（via）

李飛飛，從移民到 AI 明星

大家知道李飛飛吧，AI 的明星教授。

她在斯坦福大學任教，是美國國家工程院等三院院士，擔任過斯坦福 AI 實驗室主任，以及谷歌雲 AI 首席科學家。

她1976年出生於北京，在成都長大，16歲全家移民美國。

我一直好奇，她怎麼走上 AI 這條路，從移民變成學術明星？

這幾天，我讀完她的自傳《我看見的世界》（中信出版集團，2024），才發現她的人生很有戲劇性，每當重要關頭，都有幸運的事情發生。

（1）高中階段

她出生於一個普通家庭，中學階段並無過人之處。

我們家位於成都當時的外環路旁邊，小區由三棟一模一樣的塔樓組成，我家住在四樓。這個環路是不斷擴張的城市邊緣，一側是工廠，另一側是農田。

我進入了一所吸引全市優秀學生的中學。在那幾年裡，對女孩的預設和偏見讓我越來越不耐煩，這種情緒已經超出了課業的範圍。在同齡人中，我已經有"假小子"的稱號。

1992年，移民美國後，她家的生活頓時變得困難。一家三口擠在新澤西鄉下一間一居室公寓，她睡客廳，床就放在餐桌旁邊。

父親在一家華人商店修理舊相機，後來被辭退，從此失業。母親做雜貨店營業員，後因風溼性心臟病，回家休養。李飛飛下課後，就要去打工，有時在中餐館端盤子12個小時，每小時2美元。

最後，實在走投無路，她們家決定買下社區的一家乾洗店，靠洗衣為生。買下乾洗店需要10萬美元，全家僅有2萬美元儲蓄，其餘8萬美元都是借的。

（2）大學階段

1997年，李飛飛中學畢業，要申請大學了。

一開始，我的目標大學主要是州立大學和社區大學，而不是常春藤學校。但我一直對一所頂級高校念念不忘，那就是普林斯頓大學。

我們是一個靠從車庫市場淘來的舊貨才能勉強度日的家庭，連我用的計算器都是壞的，我們怎麼可能負擔得起常春藤學校的學費呢？

儘管如此，我還是無法抑制內心的衝動，提交了申請。就算只是象徵性地申請一下，我也感覺具有特殊意義。

她申請了普林斯頓大學，結果好夢成真，普林斯頓給了全額獎學金。

如果沒有全獎，以她家的經濟狀況，負擔不了學費。如果不去普林斯頓大學，她就不太可能走上學術道路了，更不要說後面的成就了。

（3）博士階段

大學畢業後，李飛飛原想去華爾街工作，解決家庭的經濟問題。

母親鼓勵她，繼續追求自己的夢想。於是，她選擇去加州理工學院讀研究生，方向是視覺識別機制。

2004年，李飛飛為了寫博士論文，需要圖片材料，來訓練算法。她找了9000張圖片，組成了一個圖片集，手工對每張圖片進行分類標註，一共分成101類。

這個圖片集叫做 Caltech 101，算法經過訓練，就能從新圖片識別出這101類物品。她因此順利拿到了博士學位。

（4）助教階段

博士畢業後，李飛飛先去伊利諾伊大學，後去普林斯頓大學，都是擔任計算機科學的助教。

她繼續探索視覺識別，想找到一種通用算法，能夠識別所有種類的物品，而不是 Caltech 101 那樣，只能識別出101類物品。

這意味著她需要一個超大的圖片訓練集，能夠包含了世界上所有物品。這可太難了，所有人都反對這件事。

我們都是年輕的助理教授，所處的院系競爭激烈，在事業起步的那幾年裡，我們都面臨著"要麼發表論文，要麼完蛋走人"的局面。壓力之下，我們必須馬不停蹄、保質保量地完成工作，因為我們知道，稍有懈怠就可能與終身教授的職位說再見，一同失去的還有獲得穩定生計的最佳機會。

我聽到的勸阻之聲已經多得夠我用一輩子了（可能下輩子也夠了）.

有上萬個類別的數據集有什麼用？大部分模型連一兩個類別都識別不準！

你知道用這麼多圖像訓練一個模型要花多長時間嗎？這個時間可是用"年"來計算的。

別人要怎麼下載呢？你這個圖像總量比大多數硬盤的存儲量還要大。

具體怎麼做，你有計劃了嗎？幾百萬張圖誰來做標註？要花多長時間？怎麼驗證所有內容的準確性呢？

（5）ImageNet

李飛飛堅持要做，這個通用圖片集起名為 ImageNet。那時是2006年。

她想到一個思路，英語詞典有一些基本名詞，用來解釋其他所有物品。只要統計一下，基本名詞有多少個，每一個又有多少變體，那就得到了所有物品的基本類別。

統計結果是3萬類。因此，李飛飛估計，ImageNet 將有3萬個類別，總共包含2000萬張圖片，每張圖片都要有分類和標註，需要從幾億張圖片裡面篩選出來。

我們發出了郵件，招募願意幫忙從網上下載和標註圖片的本科生，工作時間靈活，每小時10美元。我們招募到一些學生，但是按照這樣的進度，完成整個項目需要19年。

這太慢了，項目方法做了改進，用腳本自動去谷歌搜索圖片，然後抓取。但是這樣也需要人工核對和篩選，只把19年的時間縮短到18年。

幸運的是，亞馬遜剛剛發佈了眾包平臺"土耳其機器人"（Amazon Mechanical Turk，AMT）。在這個平臺上，你可以出錢，通過互聯網，把任務分包給世界各地接活的人。

他們通過這個平臺，將 ImageNet 分包出去，投入的人數一下子擴展到幾千人，而人均費用只是原來的幾十分之一。

2009年6月，ImageNet 的初始版本終於完成了。我們成功達成了目標：收集了1500萬張圖片，涵蓋了2.2萬個不同類別。這些圖片篩選自近10億張候選圖片，並由來自167個國家的4.8萬多名全球貢獻者進行了標註。

（6）ILSVRC 算法競賽

ImageNet 雖然完成了，但在學術界毫無反響，沒有太多人關注。

我們遇到了第一個也是最嚴重的挫折：在當年的"計算機視覺與模式識別大會"上，ImageNet 被降級為"海報展示"。

所謂的"海報展示"是一個學術術語，意味著我們將不能在演講廳內向聽眾展示我們的工作，只能在會場的指定區域裡擺放一幅印有項目摘要的大幅海報，希望能引起路人的興趣。

我想過 ImageNet 可能被證明是對的，也可能被證明是錯的，對於這兩種可能性，我都做好了準備。無論是哪種結果，都會是一個學習的機會。然而，我萬萬沒想到，它被忽視了。

由於 ImageNet 得不到承認，李飛飛想到一個辦法，她要每年舉行一次算法比賽，看看哪種算法識別 ImageNet 圖片集的正確率最高。

這樣一來，在計算機視覺領域，ImageNet 就會成為一個比較基準，各種算法都需要用它表示自己的識別能力，大家就不會忽視它了。這個比賽叫做 ILSVRC（ImageNet 大型視覺識別挑戰賽，ImageNet Large Scale Visual Recognition Challenge）。

2010年，第一屆比賽令人失望，11個團隊提交了35個參賽算法。冠軍算法是傳統的圖片向量比較，並無創新之處，正確率也不高。

2011年，第二屆比賽更慘，獲勝算法還是圖片向量比較，正確率只提高了2個百分點。這意味著，沒有任何創新和進展。

最糟糕的是，參賽人數也出現急劇下降，參賽算法從35個減少到15個，願意為此付出努力的人似乎越來越少。

說這種經歷"讓人羞愧"已經遠遠不足以描述我們的心情了。為了推動 ImageNet 的發展，我們傾注了多年的心血，蒐集的圖片數量遠遠超過以往的任何數據集，還精心策劃了一場國際競賽來探索它的能力，但結果卻只是簡單地重複了現狀。如果說ImageNet 是一場賭注，是時候開始思考我們是不是已經輸了。

眼看這個項目就要失敗了，幾年的心血付之東流。就在這個時候，李飛飛人生最大的驚喜和反轉來臨了。

2012年，第三屆比賽，一個加拿大團隊使用被學術界遺忘已久的卷積神經網絡，一舉將圖片識別正確率提高了10%。

接下來的事情，就是被寫進教科書的歷史了。全世界被神經網絡的效果轟動了，AI 研究出現突破，人類進入 AI 時代。

李飛飛徹底翻身，一舉成名，從助教變成世界知名的 AI 研究領頭人物，人生從此海闊天空。

她的故事令人感嘆，如果神經網絡算法沒有在2012年出現，而是再晚幾年，或者更早一點，亞馬遜的土耳其機器人眾包平臺沒有在2005年誕生，一切會怎樣？

這就是時運吧。科學家的人生和科學發現一樣，都是由一些偶然事件推動的。個人奮鬥固然重要，但是關鍵時刻還是離不開幸運。

科技動態

（1）傳統的腦電圖，需要在頭上佈滿電極（下圖），有很多限制，也不舒適。

美國賓州大學的科學家，發明了一種頭髮電極，細得像頭髮一樣，可以直接粘在皮膚上，淋浴和運動也不會掉下。

這種電極目前還是有線的，但是有計劃開發無線版本。

（2）百度地圖在導航路面植入廣告。

（3）谷歌的 AI 筆記應用 NotebookLM，可能很快就會添加"視頻概覽"功能。

它已經支持生成音頻和 AI 問答，如果再支持生成視頻，簡直難以想象，是否還需要真人老師。

直接上傳課本，它就生成講課視頻了。

（4）安卓官方的桌面模式，洩露了運行照片。下圖是它的多窗口模式。

但是 Android 16 可能來不及，發佈要等到 Android 17。

手機當作桌面電腦，已經不遠了。

（5）百度公佈"動物語言轉換方法、裝置、電子設備及存儲介質"專利，使用 AI 識別動物的情感狀態，轉換為人類能夠理解的語言，從而實現動物與人類之間的情感交流和理解。

文章

1、一段讓 Chromium 機器人崩潰的代碼（英文）

作者介紹了一段 JS 代碼，讓Chromium 無頭瀏覽器（Puppeteer 和 Playwright）崩潰。它可以用來識別，訪問者是不是機器人。

2、Git worktree 簡介（英文）

Git 倉庫同時只能有一個工作區，如果想同時建立多個工作區，可以使用 git worktree 命令。

3、用 Go 移植 TypeScript 的重要影響（中文）

微軟官方要用 Go 語言重寫 TypeScript 項目，本文分析這樣做的目的和影響。（@imbant 投稿）

4、為什麼大模型可以控制手機（中文）

開源項目 droidrun 可以通過大模型，以自然語言操作安卓手機的 APP。本文分析它是如何做到的。（@lezhi12 投稿）

5、創業公司可能無法承受微服務（英文）

本文提出，微服務需要很強的運維能力，並會增加代碼複雜性，創業公司不要盲目採用，單體應用更簡單。

6、從 Prettier 和 ESLint 遷移到 BiomeJS（英文）

BiomeJS 是用 Rust 語言寫的工具，對 JS 代碼進行格式化和語法檢查，速度極快，可以取代 Prettier 和 ESLint。

7、如何自己託管 Obsidian（英文）

Obsidian 是一個優秀的筆記軟件，作者給出詳細步驟，自己託管 Obsidian 服務器，從而在任何地方都可以通過瀏覽器使用。

工具

1、Void

開源的 AI 代碼編輯器，Cursor 的替代品，基於 VS Code。

2、Hyvector

在線的矢量圖（SVG 文件）編輯工具。

3、Karakeep

一個自搭建的書籤 App，提供全文搜索和 AI 自動分類標籤，參見介紹文章。

4、PairDrop

局域網傳輸文件的 Web 應用，代碼開源，類似於 ShareDrop 和 LocalSend。

5、zVault

NAS 操作系統 TrueNAS 原本基於 FreeBSD，正在轉向 Linux。zVault 是一個社區的分支，由社區推動繼續在 FreeBSD 開發。

6、YAMLResume

使用 YAML 格式創建簡歷，並通過 LaTeX 輸出 PDF，方便進行版本管理。（@xiaohanyu 投稿）

7、AllinSSL

開源的 SSL 證書自動化管理平臺，集證書申請、管理、部署和監控於一體。（@KincaidYang 投稿）

8、Basecoat

一套基於 Shadcn UI 的組件庫，但是不使用 React。

9、Scraperr

網絡爬蟲的 Web 控制台。

AI 相關

1、MathModelAgent

開源的 AI 應用，自動完成數學建模，生成一份完整的論文。（@jihe520 投稿）

2、BiliFilter

基於本地大模型的 Bilibili 彈幕過濾器，對彈幕分類過濾。（@ddddng 投稿）

3、AI 語音克隆

免費的語音克隆工具，3 秒錄音克隆人聲。（@xiaodaidai0701 投稿）

資源

1、I Don't Have Spotify

一個音樂搜索引擎，輸入 Spotify、YouTube、Apple、SoundCloud 的音樂鏈接，它會提供該音樂在其他網站的鏈接。

2、IPinfo Lite

地理位置數據庫 IPinfo 推出的免費服務，IP 查詢地理位置，無需信用卡，API 請求次數不受限制。

1、Web Component 教程

英文的 Web Component 入門教程。

圖片

1、數字鍵盤的樣式

數字鍵盤來源於電話。

早期的電話都採用旋轉的撥號盤。20世紀50年代，電話可以長途直撥了，撥打長途電話需要輸入11個號碼，撥號盤就太麻煩了，導致了數字鍵盤的誕生。

1955年，AT&T 公司的研究人員，做過一個研究，10個數字的小鍵盤應該怎樣排列，效率最高？

他們一共列出了15種排列。

經過研究和比較，用戶更喜歡從左到右、從上到下的佈局。

具體來說，兩排五列水平佈局與現在普遍使用的 3x3+1 佈局速度相當，差異很小。

AT&T 公司最終為電話選擇了 3x3+1 佈局，主要原因大概是它比較緊湊。

文摘

1、我第一次加入創業公司的教訓

一位開發者大學畢業後，加入了一家創業公司。

他逐漸發現，公司內部有很多矛盾，產品決策也有失誤。

最終，公司開始走下坡路，他就提交了辭呈，放棄了自己的期權。

離職後，他寫了一篇文章，總結了自己得到的教訓。

（1）即使創業公司的每個員工都很有動力，但如果創始人並非頂尖人才，那麼取得巨大成功的機會很低（但你仍然可以從中學到很多東西）。

（2）創業公司只有兩種工作：開發和銷售。如果創始人既不做開發，也不做銷售，不知道他在做什麼，那就相信你的直覺吧。

（3）創業公司的產品還未得到市場驗證的情況下，為多個平臺構建原生應用，是一種極其低效的行為。如果同時為兩個產品在每個平臺開發兩個原生應用，簡直是瘋了。

（4）創業公司的路演，大多是浪費時間。產品的驗證來自於與用戶交流和迭代，而不是打動評委。

（5）沒有什麼比並肩作戰、共同實現夢想更神奇的了。如果你經常見不到創始人，所有的溝通都只能通過遠程進行，那可不是好兆頭。

（6）如果創業公司沒有經過嚴格的面試，就錄用了你，這是一個危險信號。他們到底是基於能力來錄用你，還是因為你是第一個同意只收很少的報酬，就為他們工作的工程師？

言論

1、

科學項目日益大型化和制度化，使得個人的好奇心和創新，對於科學的推動正在減弱。科學的進步越來越依靠有效的組織和大量的投入。

-- 《思想家和實幹家》

2、

除非你參與過歷史遺留項目，否則你不能自稱高級工程師。

-- infobip.com

3、

是什麼讓硅谷的公司如此強大？

不僅僅是它們數十億美元的資金或數十億用戶，也不僅僅是因為它們擁有驚人計算能力和數據儲備，讓學術實驗室的資源相形見絀。它們之所以強大，是因為成千上萬個才華橫溢的人在同一個屋簷下共同努力。

-- 《李飛飛自傳》

4、

以前的小團隊是1名高級開發人員 + 5名初級開發人員，以後是1名高級開發人員 + AI 大模型。

-- Hacker News 讀者

5、

我打賭，以後的工程師必須深入底層，更接近硅片的層面。開發應用程序將不再需要精通技術的人，AI 讓每個人都可以開發自己的應用程序。

-- Hacker News 讀者

往年回顧

OpenAI 的圖書館工位（#301）

國產單板機值得推薦（#251）

中國需要成立半導體部（#201）

NFT 是什麼，聽說能賺錢（#151）

（完）

推薦訂閱源

阮一峰的网络日志

封面圖