feat: support multi-modal (#179)

flaviut · pionxzh · web-flow · commit c5ed3413d52a · 2023-11-05T15:44:55.000+08:00
* Implement exporting multi-modal inputs

* Show dall-e results

* chore: simplify type

---------

Co-authored-by: Pionxzh &lt;pionxzh@csie.io&gt;
diff --git a/packages/userscript/src/api.ts b/packages/userscript/src/api.ts
@@ -60,6 +60,10 @@ interface MessageMeta {
 export type AuthorRole = 'system' | 'assistant' | 'user' | 'tool'
 
 interface MultiModalInputImage {
+    /**
+     * hack: this come from the api in the form of 'file-service://file-base64', but we replace it
+     * automatically in the api wrapper with a data uri
+     */
     asset_pointer: string
     content_type: 'image_asset_pointer' & (string & {})
     height: number
@@ -149,9 +153,20 @@ export interface ApiConversations {
     total: number
 }
 
+interface ApiFileDownload {
+    status: 'success'
+    /** signed download url */
+    download_url: string
+    metadata: {}
+    file_name: string
+    /** iso8601 datetime string */
+    creation_time: string
+}
+
 const sessionApi = urlcat(baseUrl, '/api/auth/session')
 const conversationApi = (id: string) => urlcat(apiUrl, '/conversation/:id', { id })
 const conversationsApi = (offset: number, limit: number) => urlcat(apiUrl, '/conversations', { offset, limit })
+const fileDownloadApi = (id: string) => urlcat(apiUrl, '/files/:id/download', { id })
 
 export async function getCurrentChatId(): Promise<string> {
     if (isSharePage()) {
@@ -169,22 +184,54 @@ export async function getCurrentChatId(): Promise<string> {
     throw new Error('No chat id found.')
 }
 
+async function fetchImageFromPointer(uri: string) {
+    const pointer = uri.replace('file-service://', '')
+    const imageDetails = await fetchApi<ApiFileDownload>(fileDownloadApi(pointer))
+    const image = await fetch(imageDetails.download_url)
+    const blob = await image.blob()
+    const base64 = await new Promise<string>((resolve, reject) => {
+        const reader = new FileReader()
+        reader.onerror = reject
+        reader.onload = () => resolve(reader.result as string)
+        reader.readAsDataURL(blob)
+    })
+    return base64.replace(/^data:.*?;/, `data:${image.headers.get('content-type')};`)
+}
+
+/** replaces `file-service://` pointers with data uris containing the image */
+async function enhanceImageAssets(conversation: ApiConversationWithId): Promise<ApiConversationWithId> {
+    const imageAssets = Object.values(conversation.mapping).flatMap((node) => {
+        if (!node.message) return []
+        if (node.message.content.content_type !== 'multimodal_text') return []
+        return node.message.content.parts.filter(
+            (part): part is MultiModalInputImage =>
+                typeof part !== 'string' && part.asset_pointer.startsWith('file-service://'),
+        )
+    })
+
+    await Promise.all(imageAssets.map(async (asset) => {
+        asset.asset_pointer = await fetchImageFromPointer(asset.asset_pointer)
+    }))
+
+    return conversation
+}
+
 export async function fetchConversation(chatId: string): Promise<ApiConversationWithId> {
     if (chatId.startsWith('__share__')) {
         const shareConversation = getConversationFromSharePage() as ApiConversation
         const id = chatId.replace('__share__', '')
-        return {
+        return enhanceImageAssets({
             id,
             ...shareConversation,
-        }
+        })
     }
 
     const url = conversationApi(chatId)
     const conversation = await fetchApi<ApiConversation>(url)
-    return {
+    return enhanceImageAssets({
         id: chatId,
         ...conversation,
-    }
+    })
 }
 
 async function fetchConversations(offset = 0, limit = 20): Promise<ApiConversations> {
diff --git a/packages/userscript/src/exporter/html.ts b/packages/userscript/src/exporter/html.ts
@@ -88,36 +88,37 @@ const transformAuthor = (author: ConversationNodeMessage['author']): string => {
 const transformContent = (
     content: ConversationNodeMessage['content'],
     metadata: ConversationNodeMessage['metadata'],
+    postProcess: (input: string) => string = input => input,
 ) => {
     switch (content.content_type) {
         case 'text':
-            return content.parts?.join('\n') || ''
+            return postProcess(content.parts?.join('\n') || '')
         case 'code':
-            return `Code:\n\`\`\`\n${content.text}\n\`\`\`` || ''
+            return postProcess(`Code:\n\`\`\`\n${content.text}\n\`\`\`` || '')
         case 'execution_output':
-            return `Result:\n\`\`\`\n${content.text}\n\`\`\`` || ''
+            return postProcess(`Result:\n\`\`\`\n${content.text}\n\`\`\`` || '')
         case 'tether_quote':
-            return `> ${content.title || content.text || ''}`
+            return postProcess(`> ${content.title || content.text || ''}`)
         case 'tether_browsing_code':
-            return '' // TODO: implement
+            return postProcess('') // TODO: implement
         case 'tether_browsing_display': {
             const metadataList = metadata?._cite_metadata?.metadata_list
             if (Array.isArray(metadataList) && metadataList.length > 0) {
-                return metadataList.map(({ title, url }) => {
+                return postProcess(metadataList.map(({ title, url }) => {
                     return `> [${title}](${url})`
-                }).join('\n')
+                }).join('\n'))
             }
-            return ''
+            return postProcess('')
         }
         case 'multimodal_text': {
             return content.parts?.map((part) => {
-                if (typeof part === 'string') return part
-                if (part.asset_pointer) return `![image](${part.asset_pointer})`
-                return '[Unsupported multimodal content]'
+                if (typeof part === 'string') return postProcess(part)
+                if (part.asset_pointer) return `<img src="${part.asset_pointer}" height="${part.height}" width="${part.width}" />`
+                return postProcess('[Unsupported multimodal content]')
             }).join('\n') || ''
         }
         default:
-            return '[Unsupported Content]'
+            return postProcess('[Unsupported Content]')
     }
 }
 
@@ -150,30 +151,31 @@ function conversationToHtml(conversation: ConversationResult, avatar: string, me
         if (!message || !message.content) return null
 
         if (message.recipient !== 'all') return null // ChatGPT is talking to tool
-        if (message.author.role === 'tool') return null // Skip tool's intermediate message
+        // Skip tool's intermediate message.
+        //
+        // HACK: we special case the content_type 'multimodal_text' here because it is used by
+        // the dall-e tool to return the image result, and we do want to show that.
+        if (message.author.role === 'tool' && message.content.content_type !== 'multimodal_text') return null
 
-        const isUser = message.author.role === 'user'
-        const isAssistant = message.author.role === 'assistant'
         const author = transformAuthor(message.author)
         const model = message?.metadata?.model_slug === 'gpt-4' ? 'GPT-4' : 'GPT-3'
-        const authorType = isUser ? 'user' : model
-        const avatarEl = isUser
+        const authorType = message.author.role === 'user' ? 'user' : model
+        const avatarEl = message.author.role === 'user'
             ? `<img alt="${author}" />`
             : '<svg width="41" height="41"><use xlink:href="#chatgpt" /></svg>'
-        let content = transformContent(message.content, message.metadata)
-        if (isAssistant) {
-            content = transformFootNotes(content, message.metadata)
-        }
-
-        let conversationContent = content
 
-        if (isUser) {
-            conversationContent = `<p>${escapeHtml(content)}</p>`
+        let postSteps: Array<(input: string) => string> = []
+        if (message.author.role === 'assistant') {
+            postSteps = [...postSteps, input => transformFootNotes(input, message.metadata)]
+        }
+        if (message.author.role === 'user') {
+            postSteps = [...postSteps, input => `<p>${escapeHtml(input)}</p>`]
         }
         else {
-            const root = fromMarkdown(content)
-            conversationContent = toHtml(root)
+            postSteps = [...postSteps, input => toHtml(fromMarkdown(input))]
         }
+        const postProcess = (input: string) => postSteps.reduce((acc, fn) => fn(acc), input)
+        const content = transformContent(message.content, message.metadata, postProcess)
 
         const timestamp = message?.create_time ?? ''
         const showTimestamp = enableTimestamp && timeStampHtml && timestamp
@@ -194,7 +196,7 @@ function conversationToHtml(conversation: ConversationResult, avatar: string, me
     </div>
     <div class="conversation-content-wrapper">
         <div class="conversation-content">
-            ${conversationContent}
+            ${content}
         </div>
     </div>
     ${timestampHtml}
diff --git a/packages/userscript/src/exporter/markdown.ts b/packages/userscript/src/exporter/markdown.ts
@@ -83,36 +83,35 @@ const transformAuthor = (author: ConversationNodeMessage['author']): string => {
 const transformContent = (
     content: ConversationNodeMessage['content'],
     metadata: ConversationNodeMessage['metadata'],
+    postProcess: (input: string) => string = input => input,
 ) => {
     switch (content.content_type) {
         case 'text':
-            return content.parts?.join('\n') || ''
+            return postProcess(content.parts?.join('\n') || '')
         case 'code':
-            return `Code:\n\`\`\`\n${content.text}\n\`\`\`` || ''
+            return postProcess(`Code:\n\`\`\`\n${content.text}\n\`\`\`` || '')
         case 'execution_output':
-            return `Result:\n\`\`\`\n${content.text}\n\`\`\`` || ''
+            return postProcess(`Result:\n\`\`\`\n${content.text}\n\`\`\`` || '')
         case 'tether_quote':
-            return `> ${content.title || content.text || ''}`
+            return postProcess(`> ${content.title || content.text || ''}`)
         case 'tether_browsing_code':
-            return '' // TODO: implement
+            return postProcess('') // TODO: implement
         case 'tether_browsing_display': {
             const metadataList = metadata?._cite_metadata?.metadata_list
             if (Array.isArray(metadataList) && metadataList.length > 0) {
-                return metadataList.map(({ title, url }) => {
-                    return `> [${title}](${url})`
-                }).join('\n')
+                return postProcess(metadataList.map(({ title, url }) => `> [${title}](${url})`).join('\n'))
             }
-            return ''
+            return postProcess('')
         }
         case 'multimodal_text': {
             return content.parts?.map((part) => {
-                if (typeof part === 'string') return part
+                if (typeof part === 'string') return postProcess(part)
                 if (part.asset_pointer) return `![image](${part.asset_pointer})`
-                return '[Unsupported multimodal content]'
+                return postProcess('[Unsupported multimodal content]')
             }).join('\n') || ''
         }
         default:
-            return '[Unsupported Content]'
+            return postProcess('[Unsupported Content]')
     }
 }
 
@@ -179,7 +178,11 @@ function conversationToMarkdown(conversation: ConversationResult, metaList?: Exp
         if (!message || !message.content) return null
 
         if (message.recipient !== 'all') return null // ChatGPT is talking to tool
-        if (message.author.role === 'tool') return null // Skip tool's intermediate message
+        // Skip tool's intermediate message.
+        //
+        // HACK: we special case the content_type 'multimodal_text' here because it is used by
+        // the dall-e tool to return the image result, and we do want to show that.
+        if (message.author.role === 'tool' && message.content.content_type !== 'multimodal_text') return null
 
         const timestamp = message?.create_time ?? ''
         const showTimestamp = enableTimestamp && timeStampHtml && timestamp
@@ -193,16 +196,17 @@ function conversationToMarkdown(conversation: ConversationResult, metaList?: Exp
 
         const isUser = message.author.role === 'user'
         const author = transformAuthor(message.author)
-        let content = transformContent(message.content, message.metadata)
+
+        let postSteps: Array<(input: string) => string> = []
         if (message.author.role === 'assistant') {
-            content = transformFootNotes(content, message.metadata)
+            postSteps = [...postSteps, input => transformFootNotes(input, message.metadata)]
         }
-
-        // User's message will not be reformatted
-        if (!isUser && content) {
-            const root = fromMarkdown(content)
-            content = toMarkdown(root)
+        if (!isUser) { // User's message will not be reformatted
+            postSteps = [...postSteps, input => toMarkdown(fromMarkdown(input))]
         }
+        const postProcess = (input: string) => postSteps.reduce((acc, fn) => fn(acc), input)
+        const content = transformContent(message.content, message.metadata, postProcess)
+
         return `#### ${author}:\n${timestampHtml}${content}`
     }).filter(Boolean).join('\n\n')
 
diff --git a/packages/userscript/src/exporter/text.ts b/packages/userscript/src/exporter/text.ts
@@ -26,36 +26,35 @@ const transformAuthor = (author: ConversationNodeMessage['author']): string => {
 const transformContent = (
     content: ConversationNodeMessage['content'],
     metadata: ConversationNodeMessage['metadata'],
+    postProcess: (input: string) => string = input => input,
 ) => {
     switch (content.content_type) {
         case 'text':
-            return content.parts?.join('\n') || ''
+            return postProcess(content.parts?.join('\n') || '')
         case 'code':
-            return content.text || ''
+            return postProcess(content.text || '')
         case 'execution_output':
-            return content.text || ''
+            return postProcess(content.text || '')
         case 'tether_quote':
-            return `> ${content.title || content.text || ''}`
+            return postProcess(`> ${content.title || content.text || ''}`)
         case 'tether_browsing_code':
-            return '' // TODO: implement
+            return postProcess('') // TODO: implement
         case 'tether_browsing_display': {
             const metadataList = metadata?._cite_metadata?.metadata_list
             if (Array.isArray(metadataList) && metadataList.length > 0) {
-                return metadataList.map(({ title, url }) => {
-                    return `> [${title}](${url})`
-                }).join('\n')
+                return postProcess(metadataList.map(({ title, url }) => `> [${title}](${url})`).join('\n'))
             }
-            return ''
+            return postProcess('')
         }
         case 'multimodal_text': {
             return content.parts?.map((part) => {
-                if (typeof part === 'string') return part
+                if (typeof part === 'string') return postProcess(part)
                 if (part.asset_pointer) return `![image](${part.asset_pointer})`
-                return '[Unsupported multimodal content]'
+                return postProcess('[Unsupported multimodal content]')
             }).join('\n') || ''
         }
         default:
-            return '[Unsupported Content]'
+            return postProcess('[Unsupported Content]')
     }
 }
 
@@ -107,7 +106,11 @@ export async function exportToText() {
         if (!message || !message.content) return null
 
         if (message.recipient !== 'all') return null // ChatGPT is talking to tool
-        if (message.author.role === 'tool') return null // Skip tool's intermediate message
+        // Skip tool's intermediate message.
+        //
+        // HACK: we special case the content_type 'multimodal_text' here because it is used by
+        // the dall-e tool to return the image result, and we do want to show that.
+        if (message.author.role === 'tool' && message.content.content_type !== 'multimodal_text') return null
 
         const author = transformAuthor(message.author)
         let content = transformContent(message.content, message.metadata)