ローカルで LLM の画像認識を動かす

「適当に画像ファイルを渡したらファイル名をつけて所定の場所に保存して欲しいな」という思いでツールを作っていた。
画像のこれなんだ?を Chromium にさせれると思ってたらまだ大変そうだったので <code>ollama</code> ってのを使ったらかなり楽でちょっとびっくりしてしまった。未来はもうそこまで来ている。
<pre><code class="hljs language-bash">$ brew install --cask ollama
$ ollama pull llava
$ npm i ollama ts-node
</code></pre>
こんなんで動く
<pre><code class="hljs language-ts">import { ollama } from &quot;ollama&quot;;

const resp = await ollama.chat({
 model: &quot;llava&quot;,
 messages: [
 {
 role: &quot;user&quot;,
 content: `What is the main subject of this image?`,
 images: [process.argv[2]],
 },
 ],
});
</code></pre>
<h1>参考</h1>
<ul>
<li><a href="https://zenn.dev/tanny/articles/705682d88e254e">【ollama / Phi-3】ニュースで話題の LLM をローカル PC 上で動かしてみる</a></li>
<li><a href="https://github.com/ollama/ollama-js">ollama/ollama-js: Ollama JavaScript library</a></li>
</ul>