tsukumi tsukumijima

Bluesky で何か作りたいエンジニアの方へ

ATProtocol

　Bluesky の開発はオープンに行われていて、ATProtocol (あっとぷろとこる) をベースに実装されています。Bluesky は ATProtocol 上で作成された SNS アプリというのが立ち位置で、誤解を恐れずに表現すると、アカウントの仕様、及びデータの持ち方とその共有の方法を定義したのが ATProtocol です。Bluesky はそのデータの形式を決め、データでサービスを形作ったものになります。なので、仕様書を見ると、ATProtocol と Bluesky でレイヤーに分かれて実装されているのが見て取れます。

　Bluesky/ATProtocol の仕様は公式のドキュメントページで見ることができます。仕様書は Lexicon というスキーマ定義言語で記述されていて、その仕様についてもドキュメントからみることが出来ます。とはいえ、この仕様を読んでいくのも結構骨が折れるので、まずは、どんなリクエストが飛んでいるのか、を Web 公式アプリからデベロッパーツール (使い方)を使って見ることをオススメします。

クライアントライブラリ

Bluesky の歩き方

　Bluesky は Twitter の類似サービスとして期待されている分散 SNS の一つです。 Twitter の創設者である Jack Dorsey による出資を受けており、 Bluesky, PBLLC によって開発・運営されています。 Bluesky は現在公式のアプリ・ウェブでは、日本語の UI がなくとっつきにくい部分があるため、ここでは楽しみ方について簡単に説明します。

日本語話者の探し方

　まずは何にせよ、フォローする人を見つける必要があります。 Bluesky 公式 Web または、公式アプリからログインしている人は、以下の日本語話者カスタムフィード（ユーザーが作成した、独自のタイムライン） Japanese Cluster を見れば、日本語話者が見つかると思います。

　とはいえ、このカスタムフィードでは、人が多すぎて何がなんだかと思う人も多いと思うので、今トレンドのポスト (投稿) を取得する方法を説明します。まず、設定からコンテンツ言語を日本語にします。コンテンツ言語は、カスタムフィードにおいて、どの言語のポストを取得するか？という設定になります。左メニューから、 Settings > Content Languages の順にアクセスすると変更できます。

	import os

	import gradio as gr
	import torch

	from infer import get_net_g, infer
	import utils

	voice_keys = ["dec", "flow"]
	speech_style_keys = ["enc_p"]

	# MIT License
	# This code will run on VRAM 12GB+ GPU such as T4, RTX 3060
	import torch
	from transformers import AutoModelForCausalLM, AutoTokenizer, pipeline
	from langchain.text_splitter import RecursiveCharacterTextSplitter
	from langchain.document_loaders import PyPDFLoader
	from langchain.vectorstores import FAISS
	from langchain.chains import RetrievalQA
	from langchain.embeddings import HuggingFaceEmbeddings
	from langchain.llms.huggingface_pipeline import HuggingFacePipeline

	#
	# debug tokenizer of lmsys/vicuna-13b-v1.3
	#

	from transformers import AutoTokenizer


	tokenizer = AutoTokenizer.from_pretrained("lmsys/vicuna-13b-v1.3")

	def encode_decode(string: str):

	#
	# correct vocab of matsuo-lab/weblab-10b
	#

	vocab = {}

	# 95 -> (none)
	# 96 -> \xa1
	# ...
	# 107 -> \xac

	/*
	https://github.com/karpathy/llama2.c/blob/master/run.c
	GPT-4による解説

	このプログラムは、Transformerネットワークを実装し、トークン化されたテキスト入力から次の最も適したトークンを予測します。具体的には以下のようになります：

	先頭の部分は、TransformerWeightsとRunStateという2つのデータ構造とそれらの関連するメモリの管理を含みます。
	Configという構造体は、トランスフォーマーネットワークのパラメータを保持します。

	次に、指定されたチェックポイントファイルから重みを初期化する関数があります。この関数は、チェックポイントファイルからトランスフォーマーネットワークの重みを読み込み、適切に配置します。

	# Clone llama.cpp
	git clone https://github.com/ggerganov/llama.cpp.git
	cd llama.cpp

	# Build it
	make clean
	LLAMA_METAL=1 make

	# Download model
	export MODEL=llama-2-13b-chat.ggmlv3.q4_0.bin

	# coding=utf-8
	# Copyright 2023 The HuggingFace Inc. team. All rights reserved.
	#
	# Licensed under the Apache License, Version 2.0 (the "License");
	# you may not use this file except in compliance with the License.
	# You may obtain a copy of the License at
	#
	# http://www.apache.org/licenses/LICENSE-2.0
	#
	# Unless required by applicable law or agreed to in writing, software

	class Trie {
	private goto: Map<string, Trie> = new Map<string, Trie>();
	public keywords: string[] = []
	public failure: Trie \| null = null;

	public has(s: string) {
	return this.goto.has(s);
	}
	public get(s: string) {
	return this.goto.get(s);