テクノロジーファン週刊（第 299 号）：AI の鍵はデータセット

ここでは毎週共有に値するテクノロジー関連のコンテンツを記録し、金曜日に公開します。

この雑誌はオープンソースであり、投稿を歓迎します。また、《誰が採用しているか》サービスがあり、プログラマーの採用情報を公開しています。協力のご依頼はメールでご連絡ください（[email protected]）。

表紙画像

上の写真は河南省新鄭市の中原融創文化娯楽都市の「氷立方」で、氷塊の積み重ねの効果を模倣し、10個のガラスの氷塊が3つの建築単位を形成しています。を通じて）

AIの鍵はコーパス

皆さん、気づいたことはありますか？今ニュースを開くと、AIモデルのニュースばかりです。

今日Aがモデルを発表し、明日Bがモデルを発表し、どれも（聞こえるように）非常に高い能力を持っているようです。

2023年5月にはある統計がありましたが、その時点で、10億パラメータ以上のモデルは中国で79個が発表されていました。一年が経ち、今ではおそらく数千に達しているでしょう。

正直に言って、今新しいモデルを見るたびに、もう飽きてしまって、このようなニュースがどれほど重要か感じなくなりました。

私の考えは、モデルのアーキテクチャや機能、パラメータをどのように調整しようと、その効果は限定的であり、実際に決定的な要素はモデルをトレーニングするコーパスです。

は言う必要はありません。あなたのモデルがどれほど新鮮で強力かは知っておいてください。ただ、あなたはどのようなデータでモデルを訓練したのかを教えてください。

モデルは完璧ですが、データは粗悪であれば同じように機能しません。逆に、モデルは平凡ですが、データが十分であればそれでOKです。モデルが鍵ではありません。データこそが鍵です。

これは私の意見ではなく、OpenAIのエンジニアJames Betkerの意見です。彼はAIの専門家であり、有名な「文章から画像を生成する」モデルDALL-Eの第一著者です。

昨年、彼は一つの記事を書きました。数段落しかなく、海外では大きな影響を与えました。国内ではこの件について言及している人はいないようですが、私はこの記事が非常に重要だと考えています。

彼は、自分の日常業務はAIモデルの開発であると述べていますが、パラメータを増やしたり、方程式を調整したりしても、モデルの効果はデータセットの大きさによってより顕著に変わると言っています。

追加の訓練データはモデルの効果を顕著に向上させ、他の要因よりも大きな影響を与えます。さらに驚くべきことに、異なるモデルが同じコーパスで訓練された場合、最終的な性能は驚くほど似ていることがあります。

彼の結論は、モデルの違いが実は重要ではなく、決定的なのは訓練データです。より多くの良いコーパスがあれば、どんなモデルを使っても似たような結果が得られるということです。

初めて聞いた時は、この結論が信じられないように感じるかもしれませんが、よく考えてみれば、これは正しい可能性が高いでしょう。

なぜなら、どんなAIモデルでも、最終的な目標は一つしかありません。それは人間の思考を模倣することです。コーパスはまさに人間の思考を表しており、同じコーパスであっても、どんなルールで分析しても、最終的な結果は同じであるべきです。なぜなら、それが含む人間の思考は変わりませんから。

これはまるで、異なる画家が同じモデルを描く場合に似ています。もし目標が原貌を再現するなら、画家が一定のレベルに達していれば、誰が描いても結果は非常に似ているでしょう。なぜならモデルの顔は変わりませんから。

は二つの教訓を教えてくれます。

（1）どの会社がデータの量と質が多く、そのモデルは他の会社よりも強くなります。

（2）オープンソースモデルは完全にクローズドソースモデルを置き換えることができますが、前提は訓練データが十分であることです。

以下はJames Betkerの原文です。皆さん、よく読んで、彼の意見に同意しますか。

私はOpenAIで一年近く働いています。この間に、誰も考えた以上に多くの生成AIモデルを訓練しました。

私は何時間もかけて、様々なモデルの設定とパラメータを観察し、調整するたびに、印象に残ることは、すべての訓練結果の間の類似性でした。

私はますます気づいています、これらのモデルは、驚くほどの程度で、そのデータセットに近づいています。

これは、同じコーパスで十分な時間訓練した場合、ほぼすべての十分な重みと訓練時間を持つモデルが同じ点に収束することを示しています。十分な大きさの拡散畳み込みネットワークも同じ結果を生み出します。

これは驚くべき観察です！

これはモデルの挙動がアーキテクチャ、パラメータ、または最適化器によって決まるわけではないことを意味します。それはあなたのコーパスによって決まるもので、他の決定要因はありません。他のすべての要因は、そのコーパスを近似するための効率的な計算手段に過ぎません。

Lambda、ChatGPT、Bard、Claudeについて話す場合、それはそれらのモデルではなく、それらのコーパスを指します。

希土開発者大会：議題の募集と早期割引チケット

国内開発者のオンライン大集まりが来ます。今年の「希土開発者大会」の日程が確定しました。6月末です。

今回の大会の議題は非常に広範囲です：フロントエンド、AI、クラウドコンピューティング、アーキテクチャ、DevOps......

最も重要なのは、すべての開発者にスピーチの機会を提供していることです。もしツールをリリースしたい、開発の経験を共有したいなら、大会はスピーチの機会を提供し、全国の開発者たちの前であなたの成果を展示できます。

聴衆の興味を引く実践的な内容があれば、スピーカーとして申請し、そのテーマの分科会で発言できます。組織委員会が決定次第、今回の大会に無料で参加できます。

他の友人が大会に参加する場合は、今すぐバードライブチケットを購入できます。2日間の全てのイベントで、学生チケットは99元で、基本的には映画のチケット価格と同じです。通常チケットのグループ割引価格は139元で、2日間の昼食を含む場合は799元です。

議題の提出とチケット購入は、このリンクをクリックしてください。または、上部のポスターのQRコードをスキャンしてください。早鸟チケットの開催日時と定員は限られていますので、友人と出会いたい、業界の動向を感じたい方は、お早めにチケットを購入することをお勧めします。

テクノロジー動向

1、バルーンハウス

宿泊プラットフォーム Airbnb がバルーンハウスを発表し、ディズニー映画『ファイアーフライ・ランド』を完璧に再現。現在、宿泊予約が可能です。

この家のすべての家具やレイアウトは、映画の中と全く同じです。

屋根には8000個のヘリウムバルーンが取り付けられています。

この家は"飛ぶ"ことができますが、もちろんバルーンで引き上げるわけではなく、クレーンで半空に吊り上げて、その中で宿泊できるようになっています。

空中に吊るされている場合、水道や電気はどうやって供給されるでしょうか？この家にはきっと水タンク、ポンプ、発電機、バッテリーが備わっているようです。

2、AI さん

イギリスのインターネット企業が、初代世界AI小姐コンテストを開催すると発表しました。

今年5月10日まで、世界中のクリエイターはその公式サイトに作品を提出できます。

作品はAIで生成された仮想美女の写真だけでなく、SNS上でファンと交流し、フォロワー数も評価基準の一つです。

審査員団はトップ3を選出し、「AI さん」の称号を与え、合計2万ドルの賞金が授与されます。

主催者によると、このコンテストはAIの影響力を拡大し、クリエイターがコンテンツを通じて収益を上げることを目的としています。この件から、エンターテインメント業界がAIの最も早く、最大の応用分野の一つであることが示されています。

3、バイクの轟音

一部のバイクライダーは非常に大きなエンジン音を好み、エンジンを改造することさえします。彼らは、大きな音の騒音が他の人に早く注意を喚起し、交通事故を減らすことができると弁明します。

この主張が正しいかどうかを検証するために、ルーマニアのチームが現地での実験を行いました。

彼らは合計6台のバイクをテストし、その騒音は80デシベルから110デシベルの間でした。これは非常に大きな騒音で、飛行機の離陸時の騒音は100デシベルから120デシベルであり、バイクの騒音はそれほど大きいのです。

研究者たちは、もしセダンのドライバーが窓を閉めれば、バイクが車から10メートル以内にしか近づかなければ、ドライバーは音を聞き取れないことを発見しました。これは、高速で走行している場合、ドライバーは全く反応する時間がないことを意味します。

この実験によると、交通安全を保証するのは大きなエンジン音ではなく、速度を下げることである。

記事

1、CPU 超頻の限界（中国語）

多くのプレイヤーは CPU の超頻を好み、速ければ速いほど良いと考える。しかし、物理的な限界に達すると、それ以上突破することが難しくなる。15年もの間、世界記録は 8GHz から 9GHz に向上しただけである。

2、空の S3 ストレージバケットも費用を生じる（英語）

アマゾン S3 は最も人気のあるストレージクラウドサービスであり、著者は空のストレージバケットを作成したが、思いがけず、データを一切書き込まなかったにもかかわらず、2日で1300ドルの費用が発生した。

3、2024 アリババグローバル数学コンテスト予選（中国語）

著者が2024 アリババグローバル数学コンテスト予選に参加し、7問中1、2、6問しか解けず、自分の解答を共有しました。（@longluo 投稿）

4、Git のオフライン利用（英語）

著者がネットワークがない場合にGitリポジトリをバックアップする方法を紹介し、例えばローカルリポジトリをUSBメモリにプッシュする方法などです.

5、プロジェクトにチェックポイントを設定する方法（英語）

本稿では、Makefileを使用してコードリポジトリ内にチェックポイント（checkpoint）を設定する簡単な方法を紹介します。

6、サーバーからのリアルタイムメッセージ取得の技術的解決策（英語）

本稿では、ブラウザがサーバーからリアルタイムメッセージを取得する5つの技術的解決策を比較します：WebSockets、サーバーサイドイベント、長いポーリング、WebRTC、WebTransport。

AI関連

1、自分でリミックスしよう

このウェブサイトでは、3枚の写真をアップロードする必要があります。最初の写真はレイアウト、2枚目はスタイル、3枚目はポートレートです。

それらを1枚の写真に合成します。

2、twogethe.ai

このサイトはAIを使用して、あなたと有名人（または任意の2人）の合成写真を生成します。

3、AI は図解図

一つオープンソースソフトウェア、アップロード画像のテキスト説明を生成する、ERNIE 3.5とGEMINI-PRO-1.5 APIを基に。@ShurshanX投稿）

4、AIが生成した音楽ビデオ（英語）

OpenAI は4分間の音楽ビデオをリリースし、その映像と音楽はすべてAIで生成されています。これは今までにAIが生成した最長のビデオです。

5、HackerNews 毎日のAI要約

このプロジェクトはHacker Newsの毎日の注目記事に対して中国語のAI要約を生成し、公式サイト以外に飛書にも投稿されます。（@rmrf 投稿）

6、MaxKB

LLM（大規模言語モデル）に基づく知識ベースの質問応答システムで、第三者のウェブサイトに無縁なく組み込み、知能的な質問応答を実現できます。@maninhill 投稿）

7、GeoSpy AI

このウェブサイトは、AIを使用してアップロードされた写真の撮影場所を識別します。

8、7つの無料LLM Playground

本稿では、オンラインでさまざまなLLMを試せる7つのウェブサイトを紹介します。（@webup 投稿）

ツール

1、ElysiaJS

JS言のWebフレームワークで、Bun実行環境向けに開発されています。

2、mcfly

Shell操作履歴の検索ツールで、ニューラルネットワーク検索機能を提供し、Ctrl-Rショートカットを代替できます。

3、DocKit

Elasticsearch/OpenSearchのクロスプラットフォームデスクトップクライアントで、OpenAIを統合し、自然言語でデータベースと対話できます。（@Blankll 提案）

4、IMakerクリエイター

はオープンソースのカバーデザインツールで、JSベースのWebアプリケーションです。の無料デモがあります。（@slince-zero 投稿）

5、VideoSubtitleGenerator

はコマンドラインツールで、音声認識を通じてローカルの動画ファイルに字幕をまとめて生成し、翻訳もサポートします。（@buxuku 投稿）

6、vmr

はプラットフォームを超えた汎用バージョン管理器で、現在40以上のプログラミング言語とツールをサポートしています。@moqsien 投稿）

他にも似たツールがvfox。（@aooohan 投稿）

7、Pichome

オープンソースのオンラインストレージプログラムで、PHPで開発。（@fhxsnabi 投稿）

8、ペン.COOL

CodePenの中国国内代替品、リアルタイムでHTML、CSS、JavaScriptコードのレンダリング結果をプレビューできます。（@uovol 投稿）

9、vue-styled-components

styled-componentsに似たCSSツールで、Vue 3をサポート。（@akinocccc 投稿）

10、MonsterMusic

オープンソースのアンドロイド音楽プレイヤー。（@ZTFtrue 提出者）

11、豆瓣図書館検索アシスタント

ブラウザ拡張機能で、豆瓣读书のページで、その書籍が指定された図書館にどのように蔵書されているかを確認できます。（@wyj0605 提出者）

リソース

1、技術コンセプトの図示

このリポジトリは、さまざまな技術コンセプトの図示を収集しています。

2、海棠詩社

ユーザーが開発した詩歌のウェブサイト。（@javayhu 提出者）

3、svgl

一般的ロゴ検索エンジンで、SVGファイルのダウンロードを提供しています。

4、Brick Center

キーワードを入力すると、このサイトが自動的にそのレゴブロックのパズルを作成します。（@husu 提出者）

画像

1、MacBook のメモリ

アップルのMacBookノートパソコン、メモリは8GBです。もっとメモリが必要な場合は、お金を払って買わなければならず、とても高価です。

皆に疑問がある。なぜメモリがこれほど少ないのか？比較すると、Windowsノートパソコンの最小メモリは現在、ほとんどが16GBである。

アップルは、macOSのシステム効率が高く、自社の8GBメモリは他社の16GBに相当すると説明した。

誰かがMacBookのメモリの変遷を描いた図を描いた。

上の図からわかるように、アップルは以前はよくメモリをアップグレードしていた。数年ごとにアップグレードしていた。

しかし、2011年以降、メモリは一度だけアップグレードされ、6GBから8GBになり、その後はアップグレードされていない。

面白いことに、2011年はティム・クックがアップルのCEOに就任した年である。彼は以前はサプライチェーンを担当し、コストコントロールで知られていた。

2、PalmOS

iPhoneが出る前のスマートフォンを覚えている人もいる。

当時の主要なシステムは、ノキアのセパラブル、マイクロソフトのWindows CEとPalmOSでした。以下はPalm携帯電話です。

そのユーザーインターフェースは以下の通りです。

简素だと思わないでください。それは当時最も先進的なシステムで、数千元人民元で一つ売られていました。

文摘

1、満腹感指数

どの食べ物が最も空腹感を解消できるか？

オーストラリアの科学者が「満腹感指数」を発明しました。彼は38種類の食べ物を選び、それぞれのカロリーは240キロカロリーでした。

実験者は順番に各食べ物を食べ、一つ食べるごとに、その後の2時間中、15分ごとに自分の満腹度をスコアリングしました。

最後に、炭水化物（パン、フライドポテト、煮たポテト）の効果が最も良かったことがわかった。その中で、煮たポテトの満腹感指数が最も高かった。

これは、食物に含まれる繊維、タンパク質、水が多いほど、消化時間が長くなり、より長い満腹感が生じるからだ。また、炭水化物は血糖をすぐに上昇させ、体がすぐに満腹であることを知らせる。

煮たポテトには繊維と水が多く含まれ、同じ熱量でも体積が大きく、血糖を上昇させるため、長時間の満腹感が生じる。

果物の満腹感指数も高い。これは水分と繊維が多く含まれているからだが、果物の熱量は低く、同じ熱量でも果物の分量が多く、全部食べにくい。また、果物の胃排空速度が速く、2時間後に満腹感が消える。

高脂肪食物の満腹感は悪い。これは胃排空速度も速いからだ。したがって、肥肉を食べるとすぐに空腹になる。

したがって、果物と高炭水化物、高タンパク質の食物を一緒に食べる（例えば全粒粉パン + 瘦肉 + オレンジ）は、良い食事プランと言える。

の発言

1、

ソフトウェア会社は「無罪文化」を提唱すべきです。

製品事故やサービス中断が発生した場合、罪人と決めつけて罰することなく、関連する個人に悪意はなく、適切な情報を得られずより良い意思決定をできなかった、あるいはタイムリーに過ちを防ぐ手段を持たなかったと仮定すべきです。

-- 『無罪文化について』

2、

私たちが多く行いたくないことの多くは、実は簡単に始めることができます。例えば、簡単に飲み始めることや、簡単に抖音を開始することです。

これらのことをやめるなら、まずはそれらを始めるのが難しい障壁を設けることから始めるべきです。

-- 『現れたら成功の75%』

3、

テクノロジー業界のすべてにおいて、核心は利益であり、他の何でもない。したがって、あなたはできるだけ早く新しい製品や新しいサービスをリリースする必要があり、それによって利益が生まれる可能性がある。これは、できるだけ多くの抽象レベル、多くの自動化、少ない人員を使用することを意味し、結果として開発者はますます技術に対する深い理解を欠いている。

-- 『私たちはあまりにも多くの抽象レベルを使用している』

4、

島巨人症とは、島に生息する動物において、小型の種は天敵がなく、体が大きくなる生物学的現象を指す。逆に、大型の種は安定した食料供給が難しいため、体が小さくなる傾向がある（別名「島の侏儒症」）。

-- ウィキペディア

5、

ベンチャーキャピタリストはあなたとの関係を破壊する理由がない。彼らがあなたを拒否する時、『いいえ』と言うのではなく、他の400の方法を使う。例えば「あなたのユーザーがもう少し増えたら、また話し合おう』『次の資金調達の時に、私たちに連絡してください』など」と

--『投資家の『はい』が実際には『いいえ』を意味している』